Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que las compras en línea crecen, la capacidad de los compradores para visualizar productos virtualmente en sus entornos—un fenómeno que definimos como "Virtual Try-All"—se ha vuelto crucial. Los modelos de difusión recientes contienen inherentemente un modelo del mundo, lo que los hace adecuados para esta tarea en un contexto de inpainting. Sin embargo, los modelos tradicionales de difusión condicionados por imágenes a menudo no logran capturar los detalles más finos de los productos. En contraste, los modelos impulsados por la personalización, como DreamPaint, son buenos para preservar los detalles del artículo, pero no están optimizados para aplicaciones en tiempo real. Presentamos "Diffuse to Choose", un novedoso modelo de inpainting condicionado por imágenes basado en difusión que equilibra eficientemente una inferencia rápida con la retención de detalles de alta fidelidad en un artículo de referencia dado, al mismo tiempo que garantiza manipulaciones semánticas precisas en el contenido de la escena proporcionada. Nuestro enfoque se basa en incorporar características detalladas de la imagen de referencia directamente en los mapas de características latentes del modelo de difusión principal, junto con una pérdida perceptual para preservar aún más los detalles del artículo de referencia. Realizamos pruebas exhaustivas tanto en conjuntos de datos internos como en conjuntos de datos disponibles públicamente, y demostramos que Diffuse to Choose es superior a los métodos existentes de inpainting de difusión de cero disparos, así como a los algoritmos de personalización de difusión de pocos disparos como DreamPaint.
El rápido desarrollo de los modelos de lenguaje de gran escala ha revolucionado la inteligencia de código en el desarrollo de software. Sin embargo, el predominio de modelos de código cerrado ha limitado la investigación y el desarrollo extensivo. Para abordar esto, presentamos la serie DeepSeek-Coder, una gama de modelos de código de código abierto con tamaños que van desde 1.3B hasta 33B, entrenados desde cero con 2 billones de tokens. Estos modelos están preentrenados en un corpus de código de alta calidad a nivel de proyecto y emplean una tarea de rellenar espacios en blanco con una ventana de 16K para mejorar la generación y el relleno de código. Nuestras evaluaciones exhaustivas demuestran que DeepSeek-Coder no solo alcanza un rendimiento de vanguardia entre los modelos de código abierto en múltiples benchmarks, sino que también supera a modelos de código cerrado existentes como Codex y GPT-3.5. Además, los modelos DeepSeek-Coder están bajo una licencia permisiva que permite tanto la investigación como el uso comercial sin restricciones.
En este trabajo, reexaminamos las dependencias entre parches en el mecanismo de decodificación de los autoencoders enmascarados (MAE). Descomponemos este mecanismo de decodificación para la reconstrucción de parches enmascarados en MAE en auto-atención y atención cruzada. Nuestras investigaciones sugieren que la auto-atención entre parches enmascarados no es esencial para aprender buenas representaciones. Con este fin, proponemos un nuevo marco de preentrenamiento: Cross-Attention Masked Autoencoders (CrossMAE). El decodificador de CrossMAE aprovecha únicamente la atención cruzada entre tokens enmascarados y visibles, sin degradación en el rendimiento en tareas posteriores. Este diseño también permite decodificar solo un pequeño subconjunto de tokens enmascarados, mejorando la eficiencia. Además, cada bloque del decodificador puede ahora aprovechar diferentes características del codificador, lo que resulta en un aprendizaje de representaciones mejorado. CrossMAE iguala el rendimiento de MAE con un cálculo de decodificación entre 2.5 y 3.7 veces menor. También supera a MAE en clasificación de ImageNet y segmentación de instancias en COCO bajo el mismo cómputo. Código y modelos: https://crossmae.github.io
En el dinámico panorama de la PNL generativa, los pipelines tradicionales de procesamiento de texto limitan la flexibilidad y reproducibilidad de la investigación, ya que están diseñados para combinaciones específicas de conjuntos de datos, tareas y modelos. La creciente complejidad, que involucra indicaciones del sistema, formatos específicos de modelos, instrucciones y más, exige un cambio hacia una solución estructurada, modular y personalizable. Para abordar esta necesidad, presentamos Unitxt, una biblioteca innovadora para la preparación y evaluación personalizable de datos textuales, diseñada específicamente para modelos de lenguaje generativo. Unitxt se integra de forma nativa con bibliotecas comunes como HuggingFace y LM-eval-harness, y descompone los flujos de procesamiento en componentes modulares, lo que permite una fácil personalización y compartición entre profesionales. Estos componentes abarcan formatos específicos de modelos, indicaciones de tareas y muchas otras definiciones integrales de procesamiento de conjuntos de datos. El Catálogo Unitxt centraliza estos componentes, fomentando la colaboración y la exploración en flujos de trabajo modernos de datos textuales. Más que una herramienta, Unitxt es una plataforma impulsada por la comunidad, que empodera a los usuarios para construir, compartir y avanzar en sus pipelines de manera colaborativa. ¡Únete a la comunidad Unitxt en https://github.com/IBM/unitxt!
La cuantización de seis bits (FP6) puede reducir efectivamente el tamaño de los modelos de lenguaje grandes (LLMs) y preservar la calidad del modelo de manera consistente en diversas aplicaciones. Sin embargo, los sistemas existentes no ofrecen soporte para Tensor Core en la cuantización FP6 y tienen dificultades para lograr mejoras prácticas en el rendimiento durante la inferencia de LLMs. Es un desafío soportar la cuantización FP6 en GPUs debido a (1) el acceso a memoria poco amigable de los pesos del modelo con ancho de bits irregular y (2) el alto costo en tiempo de ejecución de la des-cuantización de los pesos. Para abordar estos problemas, proponemos TC-FPx, el primer esquema de diseño de kernel GPU de pila completa con soporte unificado de Tensor Core para pesos de punto flotante con varios anchos de bits de cuantización. Integramos el kernel TC-FPx en un sistema de inferencia existente, proporcionando un nuevo soporte de extremo a extremo (llamado FP6-LLM) para la inferencia de LLMs cuantizados, donde se logran mejores compensaciones entre el costo de inferencia y la calidad del modelo. Los experimentos muestran que FP6-LLM permite la inferencia de LLaMA-70b utilizando solo una GPU, alcanzando un rendimiento normalizado de inferencia 1.69x-2.65x mayor que la línea base FP16. El código fuente estará disponible públicamente pronto.
En este estudio, examinamos las capacidades de aprendizaje de representación de los Modelos de Difusión de Ruido (DDM, por sus siglas en inglés), que originalmente fueron diseñados para la generación de imágenes. Nuestra filosofía consiste en deconstruir un DDM, transformándolo gradualmente en un Autoencoder de Ruido clásico (DAE, por sus siglas en inglés). Este procedimiento deconstructivo nos permite explorar cómo diversos componentes de los DDM modernos influyen en el aprendizaje de representaciones auto-supervisadas. Observamos que solo unos pocos componentes modernos son críticos para aprender buenas representaciones, mientras que muchos otros resultan no esenciales. Nuestro estudio finalmente llega a un enfoque altamente simplificado que, en gran medida, se asemeja a un DAE clásico. Esperamos que este estudio reavive el interés en una familia de métodos clásicos dentro del ámbito del aprendizaje auto-supervisado moderno.
Proponemos mejorar transformadores de una modalidad específica con datos irrelevantes de otras modalidades, por ejemplo, mejorar un modelo de ImageNet con conjuntos de datos de audio o nubes de puntos. Nos gustaría destacar que las muestras de datos de la modalidad objetivo son irrelevantes para las otras modalidades, lo que distingue nuestro método de otros trabajos que utilizan datos emparejados (por ejemplo, CLIP) o intercalados de diferentes modalidades. Proponemos una metodología denominada Multimodal Pathway: dada una modalidad objetivo y un transformador diseñado para ella, utilizamos un transformador auxiliar entrenado con datos de otra modalidad y construimos vías para conectar componentes de los dos modelos, de modo que los datos de la modalidad objetivo puedan ser procesados por ambos modelos. De esta manera, aprovechamos las capacidades universales de modelado secuencia a secuencia de los transformadores obtenidas de dos modalidades. Como implementación concreta, utilizamos un tokenizador específico de la modalidad y una cabeza específica de la tarea como es habitual, pero aprovechamos los bloques del transformador del modelo auxiliar mediante un método propuesto denominado Re-parametrización Transmodal, que explota los pesos auxiliares sin ningún costo adicional en la inferencia. En las tareas de reconocimiento de imágenes, nubes de puntos, video y audio, observamos mejoras significativas y consistentes en el rendimiento con datos irrelevantes de otras modalidades. El código y los modelos están disponibles en https://github.com/AILab-CVC/M2PT.
El despliegue de robots en entornos abiertos y no estructurados, como los hogares, ha sido un problema de investigación de larga data. Sin embargo, los robots suelen estudiarse únicamente en entornos de laboratorio controlados, y los trabajos previos en manipulación móvil se limitan a tareas de recoger-mover-colocar, lo que podría considerarse solo la punta del iceberg en este campo. En este artículo, presentamos el Sistema de Manipulación Móvil en Mundo Abierto, un enfoque integral para abordar la operación realista de objetos articulados, como puertas, armarios, cajones y refrigeradores en entornos abiertos y no estructurados. El robot utiliza un marco de aprendizaje adaptativo que inicialmente aprende a partir de un pequeño conjunto de datos mediante clonación de comportamiento, seguido de aprendizaje a través de práctica en línea con objetos nuevos que no forman parte de la distribución de entrenamiento. También desarrollamos una plataforma de hardware de manipulación móvil de bajo costo, capaz de adaptarse de manera segura y autónoma en entornos no estructurados, con un costo aproximado de 20,000 USD. En nuestros experimentos, utilizamos 20 objetos articulados en 4 edificios del campus de CMU. Con menos de una hora de aprendizaje en línea para cada objeto, el sistema logra aumentar la tasa de éxito del 50% obtenido en la fase de pre-entrenamiento por clonación de comportamiento al 95% mediante la adaptación en línea. Los resultados en video están disponibles en https://open-world-mobilemanip.github.io/.
Presentamos pix2gestalt, un marco para la segmentación amodal de cero disparos, que aprende a estimar la forma y apariencia de objetos completos que están parcialmente visibles detrás de oclusiones. Al aprovechar modelos de difusión a gran escala y transferir sus representaciones a esta tarea, entrenamos un modelo de difusión condicional para reconstruir objetos completos en casos desafiantes de cero disparos, incluyendo ejemplos que rompen con los principios naturales y físicos, como el arte. Como datos de entrenamiento, utilizamos un conjunto de datos sintéticamente curado que contiene objetos ocluidos emparejados con sus contrapartes completas. Los experimentos muestran que nuestro enfoque supera a los baselines supervisados en benchmarks establecidos. Además, nuestro modelo puede utilizarse para mejorar significativamente el rendimiento de los métodos existentes de reconocimiento de objetos y reconstrucción 3D en presencia de oclusiones.
La falta de datos de alta calidad para tareas de generación basada en contenido ha sido identificada como un obstáculo importante para avanzar en estas tareas. Para abordar esta brecha, proponemos Genie, un método novedoso para generar automáticamente datos de alta calidad basados en contenido. Consta de tres etapas: (a) Preparación del contenido, (b) Generación: creación de ejemplos específicos para la tarea a partir del contenido (por ejemplo, pares de preguntas-respuestas o resúmenes). (c) Mecanismo de filtrado que busca garantizar la calidad y fidelidad de los datos generados. Mostramos esta metodología generando tres conjuntos de datos sintéticos a gran escala, destinados a la Respuesta de Preguntas de Formato Largo (LFQA), la resumidización y la extracción de información. En una evaluación humana, nuestros datos generados fueron considerados naturales y de alta calidad. Además, comparamos modelos entrenados con nuestros datos con modelos entrenados con datos escritos por humanos —ELI5 y ASQA para LFQA y CNN-DailyMail para resumidización—. Demostramos que nuestros modelos son iguales o superan a los modelos entrenados con datos generados por humanos y los superan consistentemente en términos de fidelidad. Finalmente, aplicamos nuestro método para crear datos de LFQA en el dominio médico y comparamos un modelo entrenado con ellos con modelos entrenados en otros dominios.