Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos multimodales de gran escala entrenados en documentos naturales, que intercalan imágenes y texto, superan a los modelos entrenados en pares de imagen-texto en varios benchmarks multimodales. Sin embargo, los conjuntos de datos utilizados para entrenar estos modelos no han sido publicados, y el proceso de recopilación no ha sido completamente especificado. Presentamos el conjunto de datos OBELICS, un conjunto de datos abierto y a gran escala de documentos intercalados de imagen-texto, que comprende 141 millones de páginas web extraídas de Common Crawl, 353 millones de imágenes asociadas y 115 mil millones de tokens de texto. Describimos el proceso de creación del conjunto de datos, presentamos reglas de filtrado exhaustivas y proporcionamos un análisis del contenido del conjunto de datos. Para demostrar la viabilidad de OBELICS, entrenamos modelos de visión y lenguaje de 9 y 80 mil millones de parámetros denominados IDEFICS, y obtenemos un rendimiento competitivo en diferentes benchmarks multimodales. Publicamos nuestro conjunto de datos, modelos y código.
La reconstrucción 3D a partir de una sola imagen es una tarea importante pero desafiante que requiere un amplio conocimiento de nuestro mundo natural. Muchos métodos existentes abordan este problema optimizando un campo de radiancia neuronal bajo la guía de modelos de difusión 2D, pero sufren de tiempos de optimización prolongados, resultados inconsistentes en 3D y geometrías deficientes. En este trabajo, proponemos un método novedoso que toma una sola imagen de cualquier objeto como entrada y genera una malla 3D texturizada de 360 grados en un único paso de avance. Dada una sola imagen, primero utilizamos un modelo de difusión 2D condicionado por la vista, Zero123, para generar imágenes multivista para la vista de entrada, y luego buscamos elevarlas al espacio 3D. Dado que los métodos tradicionales de reconstrucción tienen dificultades con predicciones multivista inconsistentes, construimos nuestro módulo de reconstrucción 3D sobre un método de reconstrucción de superficie neuronal generalizable basado en SDF y proponemos varias estrategias de entrenamiento críticas para permitir la reconstrucción de mallas de 360 grados. Sin optimizaciones costosas, nuestro método reconstruye formas 3D en un tiempo significativamente menor que los métodos existentes. Además, nuestro método favorece una mejor geometría, genera resultados más consistentes en 3D y se adhiere más estrechamente a la imagen de entrada. Evaluamos nuestro enfoque tanto en datos sintéticos como en imágenes del mundo real y demostramos su superioridad en términos de calidad de malla y tiempo de ejecución. Además, nuestro enfoque puede integrarse sin problemas con modelos de difusión de texto a imagen disponibles para apoyar la tarea de texto a 3D.
Este artículo presenta DreamDiffusion, un método novedoso para generar imágenes de alta calidad directamente a partir de señales de electroencefalograma (EEG), sin necesidad de traducir pensamientos a texto. DreamDiffusion aprovecha modelos preentrenados de texto a imagen y emplea modelado temporal de señales enmascaradas para preentrenar el codificador de EEG, obteniendo representaciones de EEG efectivas y robustas. Además, el método utiliza el codificador de imágenes CLIP para proporcionar supervisión adicional, alineando mejor los embeddings de EEG, texto e imagen con un número limitado de pares EEG-imagen. En general, el método propuesto supera los desafíos asociados al uso de señales de EEG para la generación de imágenes, como el ruido, la información limitada y las diferencias individuales, logrando resultados prometedores. Los resultados cuantitativos y cualitativos demuestran la eficacia del método como un avance significativo hacia la conversión portátil y de bajo costo de "pensamientos a imágenes", con posibles aplicaciones en neurociencia y visión por computadora.
Los modelos de difusión de texto a imagen han atraído un interés considerable debido a su amplia aplicabilidad en diversos campos. Sin embargo, persisten desafíos en la creación de modelos controlables para la generación de objetos personalizados. En este artículo, primero identificamos los problemas de entrelazamiento en los modelos generativos personalizados existentes, y luego proponemos una estrategia de entrenamiento de aumento de datos sencilla y eficiente que guía al modelo de difusión a centrarse únicamente en la identidad del objeto. Al insertar las capas adaptadoras plug-and-play de un modelo de difusión controlable preentrenado, nuestro modelo adquiere la capacidad de controlar la ubicación y el tamaño de cada objeto personalizado generado. Durante la inferencia, proponemos una técnica de muestreo guiado regionalmente para mantener la calidad y fidelidad de las imágenes generadas. Nuestro método logra una fidelidad comparable o superior para objetos personalizados, resultando en un modelo de difusión de texto a imagen robusto, versátil y controlable capaz de generar imágenes realistas y personalizadas. Nuestro enfoque demuestra un potencial significativo para diversas aplicaciones, como las del arte, el entretenimiento y el diseño publicitario.
Presentamos un novedoso enfoque de alineación antes de generación para abordar la desafiante tarea de generar formas 3D generales basadas en imágenes 2D o textos. Aprender directamente un modelo generativo condicional desde imágenes o textos hacia formas 3D tiende a producir resultados inconsistentes con las condiciones, ya que las formas 3D tienen una dimensión adicional cuya distribución difiere significativamente de la de las imágenes 2D y los textos. Para cerrar la brecha de dominio entre las tres modalidades y facilitar la generación de formas 3D condicionadas multimodalmente, exploramos la representación de formas 3D en un espacio alineado entre formas, imágenes y textos. Nuestro marco de trabajo consta de dos modelos: un Autoencoder Variacional Alineado entre Formas, Imágenes y Textos (SITA-VAE, por sus siglas en inglés) y un Modelo de Difusión Latente de Formas Alineadas Condicional (ASLDM, por sus siglas en inglés). El primer modelo codifica las formas 3D en el espacio latente de formas alineado con las imágenes y los textos, y reconstruye los campos neuronales 3D detallados correspondientes a los embeddings de formas dados mediante un decodificador basado en transformadores. El segundo modelo aprende una función de mapeo probabilístico desde el espacio de imágenes o textos hacia el espacio latente de formas. Nuestros extensos experimentos demuestran que nuestro enfoque propuesto puede generar formas 3D de mayor calidad y más diversas que se ajustan mejor semánticamente a las entradas condicionales visuales o textuales, validando la efectividad del espacio alineado entre formas, imágenes y textos para la generación de formas 3D multimodal.
Los modelos de lenguaje preentrenados a gran escala (PLMs, por sus siglas en inglés) son la base de la mayoría de los avances recientes en el procesamiento del lenguaje natural. Han transformado el campo, pasando de pipelines de modelos específicos para cada aplicación a un único modelo que se adapta a una amplia gama de tareas. Los PLMs autoregresivos como GPT-3 o PaLM, junto con técnicas como el aprendizaje con pocos ejemplos (few-shot learning), han cambiado además la modalidad de salida hacia la generación en lugar de la clasificación o la regresión. A pesar de su uso generalizado, la calidad de la generación de los modelos de lenguaje rara vez se evalúa cuando estos modelos se presentan. Además, no está claro cómo las tareas de generación existentes—aunque pueden usarse para comparar sistemas a un nivel general—se relacionan con los casos de uso del mundo real para los cuales las personas los han adoptado. En este trabajo, discutimos cómo adaptar los puntos de referencia (benchmarks) de generación específicos para aplicaciones a los PLMs y proporcionamos un estudio empírico detallado de las limitaciones y capacidades de los PLMs en tareas de generación de lenguaje natural, considerando dimensiones como la escala, la arquitectura, y los idiomas de entrada y salida. Nuestros resultados muestran que los PLMs difieren en su aplicabilidad a diferentes regímenes de datos y en su generalización a múltiples idiomas, lo que informa sobre qué PLMs usar para una configuración dada de tareas de generación. Compartimos mejores prácticas que deben tenerse en cuenta al evaluar las capacidades de generación durante el desarrollo de futuros PLMs.
Demostramos, por primera vez, que las redes neuronales entrenadas únicamente con datos sintéticos alcanzan una precisión de vanguardia en el problema de estimación de pose y forma humana en 3D (HPS) a partir de imágenes reales. Los conjuntos de datos sintéticos anteriores han sido pequeños, poco realistas o carecían de ropa realista. Lograr un realismo suficiente no es trivial y mostramos cómo hacerlo para cuerpos completos en movimiento. Específicamente, nuestro conjunto de datos BEDLAM contiene videos RGB monoculares con cuerpos 3D de referencia en formato SMPL-X. Incluye una diversidad de formas corporales, movimientos, tonos de piel, cabello y ropa. La ropa se simula de manera realista en los cuerpos en movimiento utilizando simulaciones de física de ropa comerciales. Renderizamos un número variable de personas en escenas realistas con iluminación variada y movimientos de cámara. Luego entrenamos varios regresores HPS utilizando BEDLAM y logramos una precisión de vanguardia en benchmarks de imágenes reales a pesar de entrenar con datos sintéticos. Utilizamos BEDLAM para obtener información sobre qué decisiones de diseño de modelos son importantes para la precisión. Con buenos datos de entrenamiento sintéticos, encontramos que un método básico como HMR se acerca a la precisión del método SOTA actual (CLIFF). BEDLAM es útil para una variedad de tareas y todas las imágenes, cuerpos de referencia, ropa 3D, código de soporte y más están disponibles para fines de investigación. Además, proporcionamos información detallada sobre nuestra pipeline de generación de datos sintéticos, permitiendo que otros generen sus propios conjuntos de datos. Visite la página del proyecto: https://bedlam.is.tue.mpg.de/.
Los modelos de dinámica aprendidos a partir de observaciones visuales han demostrado ser efectivos en diversas tareas de manipulación robótica. Una de las preguntas clave para aprender tales modelos de dinámica es qué representación de la escena utilizar. Trabajos previos suelen asumir representaciones con una dimensión o resolución fija, lo que puede ser ineficiente para tareas simples e inefectivo para tareas más complejas. En este trabajo, investigamos cómo aprender representaciones dinámicas y adaptativas en diferentes niveles de abstracción para lograr el equilibrio óptimo entre eficiencia y efectividad. Específicamente, construimos representaciones de partículas con resolución dinámica del entorno y aprendemos un modelo de dinámica unificado utilizando redes neuronales de grafos (GNNs) que permite la selección continua del nivel de abstracción. Durante la fase de prueba, el agente puede determinar de manera adaptativa la resolución óptima en cada paso de control predictivo basado en modelos (MPC). Evaluamos nuestro método en la manipulación de pilas de objetos, una tarea común en aplicaciones de cocina, agricultura, manufactura y farmacéutica. A través de evaluaciones exhaustivas tanto en simulación como en el mundo real, demostramos que nuestro método logra un rendimiento significativamente mejor que los enfoques de referencia con resolución fija en la recolección, clasificación y redistribución de pilas de objetos granulares compuestas por instancias como granos de café, almendras, maíz, etc.
Las redes neuronales profundas (DNNs, por sus siglas en inglés) se han vuelto omnipresentes en el aprendizaje automático, pero su consumo de energía sigue siendo un problema notable. Reducir el voltaje de alimentación es una estrategia efectiva para disminuir el consumo de energía. Sin embargo, reducir agresivamente el voltaje de alimentación puede provocar una degradación en la precisión debido a cambios aleatorios de bits en la memoria estática de acceso aleatorio (SRAM), donde se almacenan los parámetros del modelo. Para abordar este desafío, presentamos NeuralFuse, un módulo complementario novedoso que aborda el equilibrio entre precisión y energía en regímenes de bajo voltaje mediante el aprendizaje de transformaciones de entrada para generar representaciones de datos resistentes a errores. NeuralFuse protege la precisión de las DNNs tanto en escenarios nominales como de bajo voltaje. Además, NeuralFuse es fácil de implementar y puede aplicarse fácilmente a DNNs con acceso limitado, como hardware no configurable o acceso remoto a APIs basadas en la nube. Los resultados experimentales demuestran que, con una tasa de error de bits del 1%, NeuralFuse puede reducir la energía de acceso a la memoria SRAM hasta en un 24% mientras mejora la precisión hasta en un 57%. Hasta donde sabemos, este es el primer enfoque agnóstico al modelo (es decir, sin necesidad de reentrenar el modelo) para abordar los errores de bits inducidos por el bajo voltaje. El código fuente está disponible en https://github.com/IBM/NeuralFuse.
Presentamos ArrayBot, un sistema de manipulación distribuida compuesto por una matriz de 16x16 pilares deslizantes verticales integrados con sensores táctiles, que pueden soportar, percibir y manipular simultáneamente objetos sobre una superficie. Para lograr una manipulación distribuida generalizable, aprovechamos algoritmos de aprendizaje por refuerzo (RL) para el descubrimiento automático de políticas de control. Ante la redundancia masiva de acciones, proponemos remodelar el espacio de acción considerando parches de acción localizados espacialmente y acciones de baja frecuencia en el dominio de la frecuencia. Con este espacio de acción remodelado, entrenamos agentes de RL que pueden reubicar diversos objetos utilizando únicamente observaciones táctiles. Sorprendentemente, descubrimos que la política aprendida no solo puede generalizarse a formas de objetos no vistas en el simulador, sino también transferirse al robot físico sin necesidad de aleatorización de dominio. Aprovechando la política implementada, presentamos numerosas tareas de manipulación en el mundo real, ilustrando el vasto potencial del RL en ArrayBot para la manipulación distribuida.
En los últimos años, los modelos de lenguaje basados en Transformers se han convertido en el enfoque estándar para las tareas de procesamiento de lenguaje natural. Sin embargo, los estrictos requisitos de rendimiento y latencia en aplicaciones industriales están limitando su adopción. Para mitigar esta brecha, se están utilizando técnicas de compresión de modelos, como la poda estructurada, para mejorar la eficiencia en la inferencia. No obstante, la mayoría de los tiempos de ejecución de inferencia de redes neuronales existentes carecen de un soporte adecuado para la dispersión estructurada. En este artículo, proponemos una pila de software eficiente para la inferencia de aprendizaje profundo disperso en modelos de lenguaje basados en Transformers, donde los pesos se podan con un tamaño de bloque constante. Nuestro acelerador de software disperso aprovecha Intel Deep Learning Boost para maximizar el rendimiento de la multiplicación de matriz dispersa por matriz densa (comúnmente abreviada como SpMM) en CPUs. Nuestro núcleo SpMM supera a las bibliotecas dispersas existentes (oneMKL, TVM y LIBXSMM) en un orden de magnitud en una amplia gama de formas GEMM bajo 5 ratios de dispersión representativos (70%, 75%, 80%, 85%, 90%). Además, nuestro núcleo SpMM muestra una aceleración de hasta 5x sobre el núcleo GEMM denso de oneDNN, una biblioteca densa altamente optimizada y ampliamente utilizada en la industria. Aplicamos nuestro acelerador disperso en modelos de lenguaje basados en Transformers ampliamente utilizados, incluyendo Bert-Mini, DistilBERT, Bert-Base y BERT-Large. Nuestro software de inferencia disperso muestra una aceleración de hasta 1.5x sobre Deepsparse de Neural Magic bajo las mismas configuraciones en Xeon en Amazon Web Services bajo restricciones de latencia de producción proxy. También comparamos nuestra solución con dos soluciones de inferencia basadas en frameworks, ONNX Runtime y PyTorch, y demostramos una aceleración de hasta 37x sobre ONNX Runtime y 345x sobre PyTorch en Xeon bajo las restricciones de latencia. Todo el código fuente está disponible públicamente en Github: https://github.com/intel/intel-extension-for-transformers.