Artículos de investigación en IA seleccionados diariamente con traducciones
Para interactuar con los humanos en el mundo, los agentes necesitan comprender los diversos tipos de lenguaje que las personas utilizan, relacionarlos con el mundo visual y actuar en función de ellos. Si bien los agentes actuales aprenden a ejecutar instrucciones lingüísticas simples a partir de recompensas de tareas, nuestro objetivo es construir agentes que aprovechen un lenguaje diverso que transmita conocimiento general, describa el estado del mundo, proporcione retroalimentación interactiva y más. Nuestra idea clave es que el lenguaje ayuda a los agentes a predecir el futuro: qué se observará, cómo se comportará el mundo y qué situaciones serán recompensadas. Esta perspectiva unifica la comprensión del lenguaje con la predicción del futuro como un objetivo poderoso de aprendizaje autosupervisado. Presentamos Dynalang, un agente que aprende un modelo multimodal del mundo que predice representaciones futuras de texto e imágenes y aprende a actuar a partir de simulaciones generadas por el modelo. A diferencia de los agentes tradicionales que usan el lenguaje solo para predecir acciones, Dynalang adquiere una comprensión profunda del lenguaje al utilizar el lenguaje pasado también para predecir lenguaje futuro, video y recompensas. Además de aprender a partir de la interacción en línea en un entorno, Dynalang puede ser preentrenado en conjuntos de datos de texto, video o ambos sin acciones ni recompensas. Desde el uso de pistas lingüísticas en mundos de cuadrícula hasta la navegación en escaneos fotorrealistas de hogares, Dynalang utiliza diversos tipos de lenguaje para mejorar el rendimiento en tareas, incluyendo descripciones del entorno, reglas de juego e instrucciones.
Presentamos OpenFlamingo, una familia de modelos autoregresivos de visión y lenguaje que abarcan desde 3B hasta 9B parámetros. OpenFlamingo es un esfuerzo continuo para producir una réplica de código abierto de los modelos Flamingo de DeepMind. En siete conjuntos de datos de visión y lenguaje, los modelos OpenFlamingo alcanzan en promedio entre el 80% y el 89% del rendimiento correspondiente de Flamingo. Este informe técnico describe nuestros modelos, datos de entrenamiento, hiperparámetros y conjunto de evaluación. Compartimos nuestros modelos y código en https://github.com/mlfoundations/open_flamingo.
El razonamiento matemático es una tarea desafiante para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), mientras que la relación de escalabilidad con respecto a la capacidad de los LLMs está poco explorada. En este artículo, investigamos cómo la pérdida durante el pre-entrenamiento, la cantidad de datos supervisados y la cantidad de datos aumentados influyen en el rendimiento de razonamiento de un LLM supervisado. Descubrimos que la pérdida durante el pre-entrenamiento es un mejor indicador del rendimiento del modelo que el número de parámetros del modelo. Aplicamos ajuste fino supervisado (SFT, por sus siglas en inglés) con diferentes cantidades de datos supervisados y encontramos empíricamente una relación log-lineal entre la cantidad de datos y el rendimiento del modelo, observando que los modelos mejores mejoran menos con conjuntos de datos supervisados ampliados. Para aumentar más muestras de datos y mejorar el rendimiento del modelo sin esfuerzo humano, proponemos aplicar Ajuste Fino con Muestreo por Rechazo (RFT, por sus siglas en inglés). RFT utiliza modelos supervisados para generar y recopilar trayectorias de razonamiento correctas como conjuntos de datos aumentados para el ajuste fino. Descubrimos que, con muestras aumentadas que contienen más trayectorias de razonamiento distintas, RFT mejora más el rendimiento del razonamiento matemático en los LLMs. También encontramos que RFT aporta una mayor mejora para los LLMs con menor rendimiento. Además, combinamos muestras de rechazo de múltiples modelos, lo que lleva a LLaMA-7B a una precisión del 49.3%, superando significativamente la precisión del ajuste fino supervisado (SFT) del 35.9%.
Los modelos de difusión han mostrado resultados prometedores en tareas de generación multimodal, incluyendo la generación de texto a imagen y texto a audio. Sin embargo, generar música, como un tipo especial de audio, presenta desafíos únicos debido a la disponibilidad limitada de datos musicales y a cuestiones sensibles relacionadas con los derechos de autor y el plagio. En este artículo, para abordar estos desafíos, primero construimos un modelo de texto a música de última generación, MusicLDM, que adapta las arquitecturas de Stable Diffusion y AudioLDM al dominio musical. Logramos esto reentrenando el modelo de preentrenamiento de lenguaje-audio contrastivo (CLAP) y el vocoder Hifi-GAN, como componentes de MusicLDM, en una colección de muestras de datos musicales. Luego, para abordar las limitaciones de los datos de entrenamiento y evitar el plagio, aprovechamos un modelo de seguimiento de ritmo y proponemos dos estrategias diferentes de mezcla para la ampliación de datos: mezcla de audio sincronizada con el ritmo y mezcla latente sincronizada con el ritmo, que recombinan el audio de entrenamiento directamente o a través de un espacio de incrustaciones latentes, respectivamente. Estas estrategias de mezcla fomentan que el modelo interpole entre muestras musicales de entrenamiento y genere nueva música dentro del casco convexo de los datos de entrenamiento, haciendo que la música generada sea más diversa mientras se mantiene fiel al estilo correspondiente. Además de las métricas de evaluación populares, diseñamos varias nuevas métricas de evaluación basadas en la puntuación CLAP para demostrar que nuestro MusicLDM propuesto y las estrategias de mezcla sincronizada con el ritmo mejoran tanto la calidad como la novedad de la música generada, así como la correspondencia entre el texto de entrada y la música generada.
Los modelos de lenguaje demuestran una capacidad notable para generalizar representaciones aprendidas en una modalidad a tareas posteriores en otras modalidades. ¿Podemos rastrear esta habilidad hasta neuronas individuales? Estudiamos el caso en el que un transformador de texto congelado se amplía con visión utilizando un codificador visual autosupervisado y una única proyección lineal aprendida en una tarea de imagen a texto. Las salidas de la capa de proyección no son inmediatamente decodificables en lenguaje que describa el contenido de la imagen; en cambio, encontramos que la traducción entre modalidades ocurre más profundamente dentro del transformador. Introducimos un procedimiento para identificar "neuronas multimodales" que convierten representaciones visuales en texto correspondiente, y decodificar los conceptos que inyectan en el flujo residual del modelo. En una serie de experimentos, mostramos que las neuronas multimodales operan sobre conceptos visuales específicos a través de las entradas, y tienen un efecto causal sistemático en la generación de descripciones de imágenes.
Presentamos el proyecto All-Seeing (AS): un conjunto de datos y un modelo a gran escala para reconocer y comprender todo en el mundo abierto. Utilizando un motor de datos escalable que incorpora retroalimentación humana y modelos eficientes en el ciclo, creamos un nuevo conjunto de datos (AS-1B) con más de mil millones de regiones anotadas con etiquetas semánticas, pares de preguntas y respuestas, y descripciones detalladas. Este conjunto abarca una amplia gama de 3.5 millones de conceptos comunes y raros en el mundo real, y contiene 132.2 mil millones de tokens que describen los conceptos y sus atributos. Aprovechando este nuevo conjunto de datos, desarrollamos el modelo All-Seeing (ASM), un marco unificado para el reconocimiento y comprensión visual panóptica. El modelo se entrena con indicaciones de lenguaje abierto y ubicaciones, lo que le permite generalizar a diversas tareas de visión y lenguaje con un rendimiento notable en escenarios de zero-shot, incluyendo la recuperación de texto-región, reconocimiento de regiones, generación de descripciones y preguntas y respuestas. Esperamos que este proyecto pueda servir como base para la investigación en inteligencia artificial general de visión y lenguaje. Los modelos y el conjunto de datos se publicarán en https://github.com/OpenGVLab/All-Seeing, y se puede ver una demostración en https://huggingface.co/spaces/OpenGVLab/all-seeing.
Presentamos el conjunto de datos HANDAL para la estimación de la pose a nivel de categoría y la predicción de affordances en objetos. A diferencia de conjuntos de datos anteriores, el nuestro se centra en objetos manipulables listos para robótica que tienen el tamaño y la forma adecuados para un agarre funcional por parte de manipuladores robóticos, como alicates, utensilios y destornilladores. Nuestro proceso de anotación está optimizado, requiriendo solo una cámara estándar y un procesamiento semiautomatizado, lo que nos permite producir anotaciones 3D de alta calidad sin recurrir a la colaboración masiva. El conjunto de datos consta de 308k fotogramas anotados procedentes de 2.2k videos de 212 objetos del mundo real en 17 categorías. Nos enfocamos en objetos de hardware y herramientas de cocina para facilitar la investigación en escenarios prácticos en los que un manipulador robótico necesita interactuar con el entorno más allá de simples empujes o agarres indiscriminados. Destacamos la utilidad de nuestro conjunto de datos para la estimación de pose+escala a 6 grados de libertad (6-DoF) a nivel de categoría y tareas relacionadas. También proporcionamos mallas 3D reconstruidas de todos los objetos y señalamos algunos de los cuellos de botella que deben abordarse para democratizar la recopilación de conjuntos de datos como este.
Este artículo presenta un detector DETR mejorado que mantiene una naturaleza "simple": utiliza un mapa de características de escala única y cálculos de atención cruzada global sin restricciones específicas de localidad, en contraste con los detectores basados en DETR líderes anteriores que reintroducen sesgos inductivos arquitectónicos de multiescala y localidad en el decodificador. Demostramos que dos tecnologías simples son sorprendentemente efectivas dentro de un diseño simple para compensar la falta de mapas de características multiescala y restricciones de localidad. La primera es un término de sesgo de posición relativa de caja a píxel (BoxRPB) añadido a la formulación de atención cruzada, que guía eficazmente cada consulta para atender a la región del objeto correspondiente mientras también proporciona flexibilidad de codificación. La segunda es el preentrenamiento del backbone basado en modelado de imágenes enmascaradas (MIM), que ayuda a aprender representaciones con capacidad de localización fina y resulta crucial para remediar las dependencias de los mapas de características multiescala. Al incorporar estas tecnologías y avances recientes en el entrenamiento y la formulación del problema, el DETR "simple" mejorado mostró mejoras excepcionales sobre el detector DETR original. Al aprovechar el conjunto de datos Object365 para el preentrenamiento, logró una precisión de 63.9 mAP utilizando un backbone Swin-L, lo que es altamente competitivo con los detectores de última generación que dependen en gran medida de mapas de características multiescala y extracción de características basada en regiones. El código está disponible en https://github.com/impiga/Plain-DETR.
El juego imaginativo es un área de la creatividad que podría permitir a los robots interactuar con el mundo que los rodea de una manera mucho más personificada. El juego imaginativo puede verse como tomar objetos y lugares reales y utilizarlos como objetos y lugares imaginarios en escenarios virtuales. Adoptamos la capacidad de generación de historias de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para obtener las historias utilizadas en el juego imaginativo mediante indicaciones escritas por humanos. Esas historias generadas se simplificarán y se mapearán en secuencias de acciones que puedan guiar al agente en el juego imaginativo. Para evaluar si el agente puede completar con éxito el juego imaginativo, también diseñamos un juego de aventuras de texto que simula una casa como el espacio de juego para que el agente interactúe.
La fotografía de larga exposición produce imágenes impresionantes que representan elementos en movimiento en una escena con desenfoque por movimiento. Generalmente se emplea en dos modalidades, produciendo ya sea un efecto de desenfoque en el primer plano o en el fondo. Las imágenes con desenfoque en primer plano se capturan tradicionalmente con una cámara montada en un trípode y muestran elementos en movimiento en el primer plano, como agua sedosa o trazos de luz, sobre un paisaje de fondo perfectamente nítido. Las imágenes con desenfoque de fondo, también llamadas fotografía de paneo, se capturan mientras la cámara sigue a un sujeto en movimiento, produciendo una imagen de un sujeto nítido sobre un fondo desenfocado por el movimiento relativo. Ambas técnicas son notoriamente desafiantes y requieren equipo adicional y habilidades avanzadas. En este artículo, describimos un sistema computacional de fotografía en ráfaga que opera en una aplicación de cámara de teléfono inteligente sostenido a mano, y logra estos efectos de manera completamente automática, con solo presionar el botón del obturador. Nuestro enfoque primero detecta y segmenta el sujeto destacado. Rastreamos el movimiento de la escena en múltiples fotogramas y alineamos las imágenes para preservar la nitidez deseada y producir trazos de movimiento estéticamente agradables. Capturamos una ráfaga subexpuesta y seleccionamos el subconjunto de fotogramas de entrada que producirán trazos de desenfoque de longitud controlada, independientemente de la velocidad del movimiento de la escena o de la cámara. Predecimos el movimiento entre fotogramas y sintetizamos el desenfoque por movimiento para llenar los vacíos temporales entre los fotogramas de entrada. Finalmente, combinamos la imagen desenfocada con la exposición regular nítida para proteger la nitidez de los rostros o áreas de la escena que apenas se mueven, y producimos una fotografía final de alta resolución y alto rango dinámico (HDR). Nuestro sistema democratiza una capacidad anteriormente reservada a profesionales, y hace que este estilo creativo sea accesible para la mayoría de los fotógrafos casuales. Más información y material complementario se pueden encontrar en la página web de nuestro proyecto: https://motion-mode.github.io/
Las mallas dinámicas coloreadas (DCM, por sus siglas en inglés) son ampliamente utilizadas en diversas aplicaciones; sin embargo, estas mallas pueden someterse a diferentes procesos, como compresión o transmisión, que pueden distorsionarlas y degradar su calidad. Para facilitar el desarrollo de métricas objetivas para DCM y estudiar la influencia de distorsiones típicas en su percepción, hemos creado la base de datos Tencent - Dynamic Colored Mesh Database (TDMD), que contiene ocho objetos DCM de referencia con seis distorsiones típicas. Utilizando secuencias de video procesadas (PVS) derivadas de las DCM, hemos llevado a cabo un experimento subjetivo a gran escala que resultó en 303 muestras de DCM distorsionadas con puntuaciones medias de opinión, convirtiendo a la TDMD en la base de datos de DCM más grande disponible hasta donde sabemos. Esta base de datos nos permitió estudiar el impacto de diferentes tipos de distorsión en la percepción humana y ofrecer recomendaciones para la compresión de DCM y tareas relacionadas. Además, hemos evaluado tres tipos de métricas objetivas de vanguardia en la TDMD, incluyendo métricas basadas en imágenes, en puntos y en video. Nuestros resultados experimentales destacan las fortalezas y debilidades de cada métrica, y proporcionamos sugerencias sobre la selección de métricas en aplicaciones prácticas de DCM. La TDMD estará disponible públicamente en la siguiente ubicación: https://multimedia.tencent.com/resources/tdmd.