Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos phi-1, un nuevo modelo de lenguaje de gran escala para código, con un tamaño significativamente menor que los modelos competidores: phi-1 es un modelo basado en Transformer con 1.300 millones de parámetros, entrenado durante 4 días en 8 GPUs A100, utilizando una selección de datos de "calidad de libro de texto" de la web (6.000 millones de tokens) y libros de texto y ejercicios generados sintéticamente con GPT-3.5 (1.000 millones de tokens). A pesar de esta escala reducida, phi-1 alcanza una precisión pass@1 del 50,6% en HumanEval y del 55,5% en MBPP. También muestra propiedades emergentes sorprendentes en comparación con phi-1-base, nuestro modelo antes de la etapa de ajuste fino en un conjunto de datos de ejercicios de codificación, y phi-1-small, un modelo más pequeño con 350 millones de parámetros entrenado con la misma pipeline que phi-1 que aún logra un 45% en HumanEval.
La generación de movimientos humanos realistas a partir de descripciones de acciones dadas ha experimentado avances significativos debido a la creciente demanda de humanos digitales. Si bien trabajos recientes han logrado resultados impresionantes en la generación de movimientos directamente a partir de descripciones textuales de acciones, a menudo solo admiten una única modalidad de la señal de control, lo que limita su aplicación en la industria real de humanos digitales. Este artículo presenta un Generador de Movimiento de Propósito General (MotionGPT) que puede utilizar señales de control multimodales, por ejemplo, texto y poses de un solo fotograma, para generar movimientos humanos consecutivos al tratar las señales multimodales como tokens de entrada especiales en modelos de lenguaje de gran escala (LLMs). Específicamente, primero cuantizamos las señales de control multimodales en códigos discretos y luego las formulamos en una instrucción de prompt unificada para solicitar a los LLMs que generen la respuesta de movimiento. Nuestro MotionGPT demuestra un modelo unificado de generación de movimiento humano con señales de control multimodales al ajustar solo el 0.4% de los parámetros del LLM. Hasta donde sabemos, MotionGPT es el primer método en generar movimiento humano mediante señales de control multimodales, lo que esperamos pueda arrojar luz sobre esta nueva dirección. Los códigos se liberarán tras la aceptación.
HomeRobot (sustantivo): Un robot asequible y adaptable que navega por hogares y manipula una amplia variedad de objetos para completar tareas cotidianas. La Manipulación Móvil de Vocabulario Abierto (OVMM, por sus siglas en inglés) es el problema de recoger cualquier objeto en cualquier entorno no visto y colocarlo en una ubicación especificada. Este es un desafío fundamental para que los robots sean asistentes útiles en entornos humanos, ya que implica abordar subproblemas de diversas áreas de la robótica: la percepción, la comprensión del lenguaje, la navegación y la manipulación son todos esenciales para la OVMM. Además, la integración de las soluciones a estos subproblemas plantea sus propios desafíos significativos. Para impulsar la investigación en esta área, presentamos el benchmark OVMM de HomeRobot, donde un agente navega por entornos domésticos para agarrar objetos novedosos y colocarlos en receptáculos objetivo. HomeRobot tiene dos componentes: un componente de simulación, que utiliza un conjunto grande y diverso de objetos curados en nuevos entornos domésticos de alta calidad con múltiples habitaciones; y un componente del mundo real, que proporciona una pila de software para el robot de bajo costo Hello Robot Stretch, fomentando la replicación de experimentos en el mundo real en diferentes laboratorios. Implementamos líneas base tanto de aprendizaje por refuerzo como heurísticas (basadas en modelos) y mostramos evidencia de transferencia de simulación a realidad. Nuestras líneas base logran una tasa de éxito del 20% en el mundo real; nuestros experimentos identifican formas en que futuras investigaciones pueden mejorar el rendimiento. Vea los videos en nuestro sitio web: https://ovmm.github.io/.
A pesar del gran éxito de los Modelos de Lenguaje de Gran Escala (LLMs) en asistentes de codificación como GitHub Copilot, estos modelos tienen dificultades para comprender el contexto presente en el repositorio (por ejemplo, importaciones, clases padre, archivos con nombres similares, etc.), lo que resulta en completaciones de código inexactas. Este efecto es más pronunciado cuando se utilizan estos asistentes para repositorios que el modelo no ha visto durante el entrenamiento, como software propietario o proyectos de código en desarrollo. Trabajos recientes han mostrado el potencial de utilizar el contexto del repositorio durante la inferencia. En este trabajo, extendemos esta idea y proponemos RepoFusion, un marco para entrenar modelos que incorporen el contexto relevante del repositorio. Los experimentos en la completación de código de una sola línea muestran que nuestros modelos entrenados con contexto del repositorio superan significativamente a modelos de código mucho más grandes como CodeGen-16B-multi (aproximadamente 73 veces más grande) y se acercan al rendimiento del modelo StarCoderBase, que es aproximadamente 70 veces más grande y fue entrenado con el objetivo de Rellenar-en-el-Medio. Consideramos que estos resultados son una demostración novedosa y convincente de las mejoras que puede aportar el entrenamiento con contexto del repositorio. Realizamos extensos estudios de ablación para investigar el impacto de decisiones de diseño como el tipo de contexto, el número de contextos, la longitud del contexto y la inicialización dentro de nuestro marco. Por último, publicamos Stack-Repo, un conjunto de datos de 200 repositorios de Java con licencias permisivas y archivos casi deduplicados que están aumentados con tres tipos de contextos de repositorio. Además, estamos poniendo a disposición el código y los puntos de control entrenados de nuestro trabajo. Nuestros recursos publicados se pueden encontrar en https://huggingface.co/RepoFusion.
Los datos de nubes de puntos recopilados en aplicaciones del mundo real suelen estar incompletos. Los datos generalmente faltan debido a que los objetos se observan desde perspectivas parciales, que solo capturan un ángulo o punto de vista específico. Además, los datos pueden estar incompletos debido a oclusiones y muestreos de baja resolución. Los enfoques de completado existentes dependen de conjuntos de datos de objetos predefinidos para guiar el completado de nubes de puntos ruidosas e incompletas. Sin embargo, estos enfoques tienen un rendimiento deficiente cuando se prueban en objetos fuera de distribución (Out-Of-Distribution, OOD), que están poco representados en el conjunto de datos de entrenamiento. Aquí aprovechamos los avances recientes en la generación de imágenes guiada por texto, que han llevado a avances significativos en la generación de formas guiada por texto. Describimos un enfoque llamado SDS-Complete que utiliza un modelo de difusión preentrenado de texto a imagen y aprovecha la semántica textual de una nube de puntos incompleta de un objeto para obtener una representación completa de su superficie. SDS-Complete puede completar una variedad de objetos mediante optimización en tiempo de prueba sin la costosa recopilación de información 3D. Evaluamos SDS-Complete en objetos escaneados incompletos, capturados por sensores de profundidad y escáneres LiDAR del mundo real. Encontramos que reconstruye eficazmente objetos que están ausentes en los conjuntos de datos comunes, reduciendo la pérdida de Chamfer en un 50% en promedio en comparación con los métodos actuales. Página del proyecto: https://sds-complete.github.io/
Los modelos de difusión para eliminación de ruido son un tipo potente de modelos generativos utilizados para capturar distribuciones complejas de señales del mundo real. Sin embargo, su aplicabilidad se limita a escenarios donde las muestras de entrenamiento están fácilmente disponibles, lo cual no siempre ocurre en aplicaciones del mundo real. Por ejemplo, en gráficos inversos, el objetivo es generar muestras a partir de una distribución de escenas 3D que coincidan con una imagen dada, pero las escenas 3D de referencia no están disponibles y solo se tiene acceso a imágenes 2D. Para abordar esta limitación, proponemos una nueva clase de modelos probabilísticos de difusión para eliminación de ruido que aprenden a muestrear a partir de distribuciones de señales que nunca se observan directamente. En su lugar, estas señales se miden indirectamente a través de un modelo directo diferenciable conocido, que produce observaciones parciales de la señal desconocida. Nuestro enfoque implica integrar el modelo directo directamente en el proceso de eliminación de ruido. Esta integración conecta efectivamente el modelado generativo de observaciones con el modelado generativo de las señales subyacentes, permitiendo el entrenamiento de extremo a extremo de un modelo generativo condicional sobre señales. Durante la inferencia, nuestro enfoque permite muestrear a partir de la distribución de señales subyacentes que son consistentes con una observación parcial dada. Demostramos la efectividad de nuestro método en tres tareas desafiantes de visión por computadora. Por ejemplo, en el contexto de gráficos inversos, nuestro modelo permite muestrear directamente a partir de la distribución de escenas 3D que coinciden con una única imagen 2D de entrada.
La capacidad de aprovechar experiencias robóticas heterogéneas provenientes de diferentes robots y tareas para dominar rápidamente nuevas habilidades y configuraciones físicas tiene el potencial de transformar el aprendizaje robótico. Inspirados por los avances recientes en modelos fundacionales para visión y lenguaje, proponemos un agente fundacional para la manipulación robótica. Este agente, denominado RoboCat, es un transformador de decisiones condicionado por objetivos visuales capaz de procesar experiencias visuales etiquetadas con acciones de múltiples configuraciones físicas. Estos datos abarcan un amplio repertorio de habilidades de control motor provenientes de brazos robóticos simulados y reales con diversos conjuntos de observaciones y acciones. Con RoboCat, demostramos la capacidad de generalizar a nuevas tareas y robots, tanto de manera inmediata (zero-shot) como a través de la adaptación utilizando solo 100-1000 ejemplos para la tarea objetivo. También mostramos cómo un modelo entrenado puede utilizarse para generar datos en iteraciones posteriores de entrenamiento, proporcionando así un bloque básico para un ciclo de mejora autónoma. Investigamos las capacidades del agente mediante evaluaciones a gran escala tanto en simulación como en tres configuraciones físicas diferentes de robots reales. Descubrimos que, a medida que ampliamos y diversificamos sus datos de entrenamiento, RoboCat no solo muestra signos de transferencia entre tareas, sino que también se vuelve más eficiente al adaptarse a nuevas tareas.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una notable destreza en la comprensión y generación de lenguaje. Al avanzar desde los LLMs base hacia los LLMs que siguen instrucciones, el ajuste por instrucciones desempeña un papel vital en la alineación de los LLMs con las preferencias humanas. Sin embargo, los LLMs existentes suelen estar centrados en el inglés, lo que conduce a un rendimiento inferior en idiomas no ingleses. Para mejorar el rendimiento en idiomas no ingleses, es necesario recopilar datos de entrenamiento específicos del idioma para los LLMs base y construir instrucciones específicas del idioma para el ajuste por instrucciones, ambas tareas que representan cargas significativas. Para minimizar la carga de trabajo humana, proponemos transferir las capacidades de generación de lenguaje y seguimiento de instrucciones del inglés a otros idiomas mediante una tarea de traducción interactiva. Hemos desarrollado BayLing, un LLM que sigue instrucciones, utilizando LLaMA como LLM base y construyendo automáticamente instrucciones de traducción interactiva para el ajuste por instrucciones. Evaluaciones exhaustivas demuestran que BayLing alcanza un rendimiento comparable al de GPT-3.5-turbo, a pesar de utilizar un tamaño de parámetros considerablemente menor de solo 13 mil millones. Los resultados experimentales en tareas de traducción muestran que BayLing alcanza el 95% de la capacidad de traducción de una sola vuelta en comparación con GPT-4 mediante evaluación automática y el 96% de la capacidad de traducción interactiva en comparación con GPT-3.5-turbo mediante evaluación humana. Para estimar el rendimiento en tareas generales, creamos un conjunto de pruebas de instrucciones de múltiples vueltas llamado BayLing-80. Los resultados experimentales en BayLing-80 indican que BayLing alcanza el 89% del rendimiento en comparación con GPT-3.5-turbo. BayLing también demuestra un rendimiento sobresaliente en la evaluación de conocimientos del GaoKao chino y del SAT inglés, quedando en segundo lugar solo detrás de GPT-3.5-turbo entre una multitud de LLMs que siguen instrucciones. La demostración, página de inicio, código y modelos de BayLing están disponibles.
Los modelos de lenguaje de código (LMs, por sus siglas en inglés) funcionan bien cuando el código circundante en la proximidad de la generación proporciona suficiente contexto. Esto no es cierto cuando se hace necesario utilizar tipos o funcionalidades definidos en otro módulo o biblioteca, especialmente aquellos no vistos durante el entrenamiento. Los LMs sufren de una conciencia limitada de dicho contexto global y terminan alucinando, por ejemplo, utilizando tipos definidos en otros archivos de manera incorrecta. Trabajos recientes intentan superar este problema recuperando información global para aumentar el contexto local. Sin embargo, esto infla la indicación o requiere modificaciones en la arquitectura y entrenamiento adicional. Los entornos de desarrollo integrados (IDEs, por sus siglas en inglés) asisten a los desarrolladores al poner el contexto global al alcance de sus manos mediante análisis estático. Extendemos esta asistencia, disfrutada por los desarrolladores, a los LMs. Proponemos una noción de monitores que utilizan análisis estático en segundo plano para guiar la decodificación. A diferencia de la recuperación a priori, el análisis estático se invoca de manera iterativa durante todo el proceso de decodificación, proporcionando las sugerencias más relevantes bajo demanda. Demostramos la utilidad de nuestra propuesta monitoreando el uso consistente de tipos en identificadores cada vez que un LM genera código para la desreferenciación de objetos. Para evaluar nuestro enfoque, hemos creado PragmaticCode, un conjunto de datos de proyectos de código abierto con sus entornos de desarrollo. En modelos de diferentes escalas de parámetros, mostramos que la decodificación guiada por monitores mejora consistentemente la capacidad de un LM no solo para generar identificadores que coinciden con la verdad de referencia, sino también para mejorar las tasas de compilación y la concordancia con la verdad de referencia. Encontramos que los LMs con menos parámetros, cuando son guiados por nuestro monitor, pueden superar a LMs más grandes. Con la decodificación guiada por monitores, SantaCoder-1.1B logra una mejor tasa de compilación y coincidencia del siguiente identificador que el modelo mucho más grande text-davinci-003. Los conjuntos de datos y el código serán publicados en https://aka.ms/monitors4codegen.
La aumentación de memoria es un enfoque poderoso para incorporar eficientemente información externa en los modelos de lenguaje, pero conlleva una reducción en el rendimiento en comparación con la recuperación de texto. Trabajos recientes introdujeron LUMEN, un híbrido de memoria y recuperación que precalcula parcialmente la memoria y actualiza las representaciones de memoria sobre la marcha con un codificador en vivo más pequeño. Proponemos GLIMMER, que mejora este enfoque mediante 1) aprovechar el acceso libre a las poderosas representaciones de memoria aplicando un reranker superficial sobre la memoria para mejorar drásticamente la calidad de la recuperación a bajo costo, y 2) incorporar entrenamiento multitarea para aprender una memoria y un codificador en vivo más generales y de mayor calidad. GLIMMER logra fuertes mejoras en el rendimiento a velocidades más rápidas en comparación con LUMEN y FiD en el benchmark KILT de tareas intensivas en conocimiento.
Los modelos de visión y lenguaje a gran escala (VLM, por sus siglas en inglés) han demostrado resultados impresionantes en aplicaciones de búsqueda guiada por lenguaje. Si bien estos modelos permiten consultas a nivel de categoría, actualmente tienen dificultades con búsquedas personalizadas de momentos en un video donde aparece una instancia específica de un objeto, como "Mi perro Biscuit". Presentamos las siguientes tres contribuciones para abordar este problema. Primero, describimos un método para meta-personalizar un VLM preentrenado, es decir, aprender cómo personalizar un VLM en tiempo de prueba para buscar en videos. Nuestro método extiende el vocabulario de tokens del VLM al aprender nuevas incrustaciones de palabras específicas para cada instancia. Para capturar solo características específicas de la instancia, representamos cada incrustación de instancia como una combinación de características globales compartidas y aprendidas de la categoría. Segundo, proponemos aprender dicha personalización sin supervisión humana explícita. Nuestro enfoque identifica automáticamente momentos de instancias visuales nombradas en videos utilizando transcripciones y similitud visión-lenguaje en el espacio de incrustaciones del VLM. Finalmente, presentamos This-Is-My, un punto de referencia para la recuperación de instancias de video personalizadas. Evaluamos nuestro enfoque en This-Is-My y DeepFashion2, y mostramos que obtenemos una mejora relativa del 15 % sobre el estado del arte en este último conjunto de datos.
La transcripción de música multitrack tiene como objetivo transcribir una entrada de audio musical en las notas musicales de múltiples instrumentos simultáneamente. Es una tarea muy desafiante que generalmente requiere un modelo más complejo para lograr resultados satisfactorios. Además, trabajos previos se centran principalmente en la transcripción de instrumentos regulares, descuidando, sin embargo, las voces, que suelen ser la fuente de señal más importante si están presentes en una pieza musical. En este artículo, proponemos una novedosa arquitectura de red neuronal profunda, Perceiver TF, para modelar la representación tiempo-frecuencia de la entrada de audio en la transcripción multitrack. Perceiver TF amplía la arquitectura Perceiver al introducir una expansión jerárquica con una capa adicional de Transformer para modelar la coherencia temporal. En consecuencia, nuestro modelo hereda las ventajas de Perceiver, que posee una mejor escalabilidad, permitiéndole manejar eficazmente la transcripción de muchos instrumentos en un solo modelo. En los experimentos, entrenamos un Perceiver TF para modelar 12 clases de instrumentos, así como la voz, en un enfoque de aprendizaje multitarea. Nuestros resultados demuestran que el sistema propuesto supera a los modelos más avanzados (por ejemplo, MT3 y SpecTNT) en varios conjuntos de datos públicos.