Artículos de investigación en IA seleccionados diariamente con traducciones
El reciente surgimiento de técnicas de preentrenamiento autosupervisado ha impulsado el uso del aprendizaje multimodal en la comprensión de documentos estructurados. Sin embargo, los enfoques existentes que extienden el modelado de lenguaje enmascarado a otras modalidades requieren un ajuste cuidadoso de múltiples tareas, diseños complejos de objetivos de reconstrucción o datos adicionales de preentrenamiento. En FormNetV2, introducimos una estrategia centralizada de aprendizaje contrastivo multimodal basado en grafos para unificar el preentrenamiento autosupervisado de todas las modalidades en una única función de pérdida. El objetivo contrastivo del grafo maximiza la concordancia de las representaciones multimodales, proporcionando una interacción natural para todas las modalidades sin necesidad de personalizaciones especiales. Además, extraemos características de imagen dentro del cuadro delimitador que une un par de tokens conectados por una arista del grafo, capturando señales visuales más específicas sin cargar un codificador de imágenes complejo y preentrenado por separado. FormNetV2 establece un nuevo estado del arte en los benchmarks de FUNSD, CORD, SROIE y Payment con un tamaño de modelo más compacto.
Existe una demanda creciente para la creación accesible de avatares 3D de alta calidad que sean animables y personalizables. Aunque los modelos morfables 3D ofrecen un control intuitivo para la edición y animación, además de robustez para la reconstrucción facial a partir de una sola vista, no pueden capturar fácilmente detalles geométricos y de apariencia. Los métodos basados en representaciones implícitas neuronales, como las funciones de distancia con signo (SDF) o los campos de radiancia neurales, se acercan al fotorrealismo, pero son difíciles de animar y no generalizan bien a datos no vistos. Para abordar este problema, proponemos un método novedoso para construir modelos morfables faciales implícitos en 3D que sean tanto generalizables como intuitivos para la edición. Entrenado a partir de una colección de escaneos 3D de alta calidad, nuestro modelo facial está parametrizado por códigos latentes de geometría, expresión y textura, con una SDF aprendida y una parametrización explícita de textura UV. Una vez entrenado, podemos reconstruir un avatar a partir de una sola imagen en condiciones no controladas aprovechando el conocimiento previo aprendido para proyectar la imagen en el espacio latente de nuestro modelo. Nuestros modelos morfables faciales implícitos pueden usarse para renderizar un avatar desde nuevas perspectivas, animar expresiones faciales modificando los códigos de expresión y editar texturas pintando directamente sobre los mapas de textura UV aprendidos. Demostramos cuantitativa y cualitativamente que nuestro método mejora el fotorrealismo, la geometría y la precisión de las expresiones en comparación con los métodos más avanzados.
Este artículo propone NeuralEditor, que permite que los campos de radiancia neural (NeRFs) sean intrínsecamente editables para tareas generales de edición de formas. A pesar de sus impresionantes resultados en la síntesis de nuevas vistas, sigue siendo un desafío fundamental para los NeRFs editar la forma de la escena. Nuestra idea clave es aprovechar la representación explícita de nubes de puntos como la estructura subyacente para construir NeRFs, inspirados por la interpretación intuitiva del renderizado de NeRF como un proceso que proyecta o "traza" la nube de puntos 3D asociada en un plano de imagen 2D. Para ello, NeuralEditor introduce un nuevo esquema de renderizado basado en integración determinista dentro de vóxeles adaptativos de densidad guiados por árboles K-D, que produce tanto resultados de renderizado de alta calidad como nubes de puntos precisas mediante optimización. NeuralEditor luego realiza la edición de formas mapeando puntos asociados entre nubes de puntos. Una evaluación extensa muestra que NeuralEditor logra un rendimiento de vanguardia tanto en tareas de deformación de formas como en la transformación de escenas. Notablemente, NeuralEditor admite tanto inferencia zero-shot como ajustes adicionales sobre la escena editada. Nuestro código, benchmark y video de demostración están disponibles en https://immortalco.github.io/NeuralEditor.
La Traducción Automática Multilingüe promete mejorar la calidad de la traducción entre lenguas no inglesas. Esto es ventajoso por varias razones, principalmente la menor latencia (no es necesario traducir dos veces) y la reducción de cascadas de errores (por ejemplo, evitar la pérdida de información sobre género y formalidad al traducir a través del inglés). Por otro lado, añadir más lenguas reduce la capacidad del modelo por idioma, lo que generalmente se contrarresta aumentando el tamaño total del modelo, dificultando el entrenamiento y ralentizando la inferencia. En este trabajo, presentamos las Capas Específicas por Lenguaje del Transformer (LSLs, por sus siglas en inglés), que nos permiten aumentar la capacidad del modelo manteniendo constante la cantidad de cálculo y el número de parámetros utilizados en el paso hacia adelante. La idea clave es que algunas capas del codificador sean específicas del idioma de origen o destino, mientras que el resto de las capas se mantienen compartidas. Estudiamos la mejor manera de ubicar estas capas utilizando un enfoque inspirado en la búsqueda de arquitecturas neuronales, y logramos una mejora de 1.3 puntos chrF (1.5 spBLEU) sobre no usar LSLs en una arquitectura de decodificador separado, y de 1.9 chrF (2.2 spBLEU) en una arquitectura de decodificador compartido.
Las tareas de IA abarcan una amplia gama de dominios y campos. Si bien se han diseñado numerosos modelos de IA para tareas y aplicaciones específicas, a menudo requieren un esfuerzo humano considerable para encontrar la arquitectura de modelo adecuada, el algoritmo de optimización y los hiperparámetros. Los avances recientes en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como ChatGPT muestran capacidades notables en diversos aspectos del razonamiento, la comprensión y la interacción. En consecuencia, proponemos desarrollar indicaciones orientadas a tareas y utilizar automáticamente los LLMs para automatizar el flujo de entrenamiento. Para implementar este concepto, presentamos el AutoML-GPT, que emplea GPT como puente hacia diversos modelos de IA y entrena dinámicamente modelos con hiperparámetros optimizados. AutoML-GPT toma dinámicamente las solicitudes del usuario a partir de las tarjetas de modelo y datos y compone el párrafo de indicación correspondiente. Finalmente, con este párrafo de indicación, AutoML-GPT realizará automáticamente los experimentos, desde el procesamiento de datos hasta la arquitectura del modelo, el ajuste de hiperparámetros y el registro de entrenamiento predicho. Al aprovechar las robustas capacidades lingüísticas de {\ours} y los modelos de IA disponibles, AutoML-GPT puede abordar numerosas tareas de IA complejas en diversos conjuntos de datos y tareas. Este enfoque logra resultados notables en visión por computadora, procesamiento del lenguaje natural y otras áreas desafiantes. Experimentos extensos y estudios de ablación demuestran que nuestro método puede ser general, efectivo y beneficioso para muchas tareas de IA.
La reciente mejora en las capacidades de generación de código, gracias al uso de modelos de lenguaje de gran escala, ha beneficiado principalmente a los lenguajes de programación de propósito general. Los lenguajes específicos de dominio, como los utilizados para la automatización de TI, han recibido mucha menos atención, a pesar de involucrar a muchos desarrolladores activos y ser un componente esencial de las plataformas en la nube modernas. Este trabajo se centra en la generación de Ansible-YAML, un lenguaje de marcado ampliamente utilizado para la automatización de TI. Presentamos Ansible Wisdom, una herramienta de generación de código de lenguaje natural a Ansible-YAML, diseñada para mejorar la productividad en la automatización de TI. Ansible Wisdom es un modelo basado en transformadores, ampliado mediante el entrenamiento con un nuevo conjunto de datos que contiene Ansible-YAML. También desarrollamos dos métricas de rendimiento novedosas para YAML y Ansible, con el fin de capturar las características específicas de este dominio. Los resultados muestran que Ansible Wisdom puede generar con precisión scripts de Ansible a partir de instrucciones en lenguaje natural, con un rendimiento comparable o superior al de los modelos de generación de código más avanzados existentes.
El seguimiento de objetos con persistencia en entornos desordenados y dinámicos sigue siendo un desafío difícil para los sistemas de visión por computadora. En este artículo, presentamos TCOW, un nuevo punto de referencia y modelo para el seguimiento visual a través de oclusiones severas y contención. Definimos una tarea en la que el objetivo es, dado una secuencia de video, segmentar tanto la extensión proyectada del objeto objetivo como el contenedor u oclusor circundante, siempre que exista uno. Para estudiar esta tarea, creamos una mezcla de conjuntos de datos sintéticos y reales anotados para apoyar tanto el aprendizaje supervisado como la evaluación estructurada del rendimiento del modelo bajo diversas formas de variación de la tarea, como la contención en movimiento o anidada. Evaluamos dos modelos recientes basados en transformadores para video y encontramos que, aunque pueden ser sorprendentemente capaces de rastrear objetivos bajo ciertos ajustes de variación de la tarea, aún existe una brecha de rendimiento considerable antes de poder afirmar que un modelo de seguimiento ha adquirido una verdadera noción de permanencia del objeto.
Las texturas son un aspecto fundamental para crear modelos 3D visualmente atractivos y realistas. En este artículo, estudiamos el problema de generar texturas de alta fidelidad dadas las formas de activos 3D, un área que ha sido relativamente menos explorada en comparación con el modelado genérico de formas 3D. Nuestro objetivo es facilitar un proceso de generación de texturas controlable, de modo que un código de textura pueda corresponder a un estilo de apariencia particular independientemente de cualquier forma de entrada de una categoría. Introducimos Texture UV Radiance Fields (TUVF), que generan texturas en un espacio esférico UV aprendible en lugar de hacerlo directamente sobre la forma 3D. Esto permite que la textura se desacople de la forma subyacente y sea transferible a otras formas que comparten el mismo espacio UV, es decir, de la misma categoría. Integramos el espacio esférico UV con el campo de radiancia, lo que proporciona una representación más eficiente y precisa de las texturas en comparación con los mapas de textura tradicionales. Realizamos nuestros experimentos en conjuntos de datos de objetos del mundo real, donde logramos no solo una síntesis realista, sino también mejoras sustanciales sobre los métodos más avanzados en el control y edición de texturas. Página del proyecto: https://www.anjiecheng.me/TUVF
Nos enfocamos en reconstruir campos de radiancia de alta fidelidad de cabezas humanas, capturar sus animaciones a lo largo del tiempo y sintetizar re-renderizaciones desde puntos de vista novedosos en pasos de tiempo arbitrarios. Para ello, proponemos una nueva configuración de captura multi-vista compuesta por 16 cámaras de visión artificial calibradas que graban imágenes sincronizadas en el tiempo con una resolución de 7.1 MP y 73 cuadros por segundo. Con nuestra configuración, recopilamos un nuevo conjunto de datos de más de 4700 secuencias de alta resolución y alta frecuencia de cuadros de más de 220 cabezas humanas, a partir del cual introducimos un nuevo punto de referencia para la reconstrucción de cabezas humanas. Las secuencias grabadas cubren una amplia gama de dinámicas faciales, incluyendo movimientos de cabeza, expresiones naturales, emociones y lenguaje hablado. Para reconstruir cabezas humanas de alta fidelidad, proponemos Campos de Radiancia Neural Dinámicos utilizando Conjuntos de Hash (NeRSemble). Representamos las dinámicas de la escena combinando un campo de deformación y un conjunto de codificaciones de hash 3D multi-resolución. El campo de deformación permite modelar con precisión movimientos simples de la escena, mientras que el conjunto de codificaciones de hash ayuda a representar dinámicas complejas. Como resultado, obtenemos representaciones de campos de radiancia de cabezas humanas que capturan el movimiento a lo largo del tiempo y facilitan la re-renderización de puntos de vista novedosos arbitrarios. En una serie de experimentos, exploramos las decisiones de diseño de nuestro método y demostramos que nuestro enfoque supera significativamente a los métodos de campos de radiancia dinámicos más avanzados.
Presentamos los Modelos de Trayectorias Enmascaradas (MTM, por sus siglas en inglés) como una abstracción genérica para la toma de decisiones secuenciales. MTM toma una trayectoria, como una secuencia de estados-acciones, y busca reconstruir la trayectoria condicionada a subconjuntos aleatorios de la misma trayectoria. Al entrenarse con un patrón de enmascaramiento altamente aleatorizado, MTM aprende redes versátiles que pueden asumir diferentes roles o capacidades, simplemente eligiendo máscaras apropiadas en el momento de la inferencia. Por ejemplo, la misma red MTM puede usarse como un modelo de dinámica directa, un modelo de dinámica inversa o incluso como un agente de aprendizaje por refuerzo (RL) offline. A través de experimentos exhaustivos en varias tareas de control continuo, demostramos que la misma red MTM —es decir, con los mismos pesos— puede igualar o superar a redes especializadas entrenadas para las capacidades mencionadas. Además, encontramos que las representaciones de estado aprendidas por MTM pueden acelerar significativamente la velocidad de aprendizaje de los algoritmos tradicionales de RL. Finalmente, en benchmarks de RL offline, encontramos que MTM es competitivo con algoritmos especializados de RL offline, a pesar de que MTM es un método genérico de aprendizaje autosupervisado sin componentes explícitos de RL. El código está disponible en https://github.com/facebookresearch/mtm.
Recientemente, DeepNorm ha escalado Transformers a profundidades extremas (es decir, 1000 capas) y ha revelado el potencial prometedor del escalado profundo. Para estabilizar el entrenamiento de modelos profundos, DeepNorm (Wang et al., 2022) intenta restringir la actualización del modelo a un valor constante. Aunque aplicar tal restricción puede beneficiar la etapa inicial del entrenamiento del modelo, puede resultar en modelos subentrenados durante todo el procedimiento de entrenamiento. En este artículo, proponemos BranchNorm, que reescala dinámicamente la rama no residual del Transformer de acuerdo con el período de entrenamiento. BranchNorm no solo estabiliza teóricamente el entrenamiento con normas de gradiente suaves en la etapa inicial, sino que también fomenta una mejor convergencia en la etapa posterior de entrenamiento. Los resultados experimentales en múltiples tareas de traducción demuestran que BranchNorm logra un mejor equilibrio entre la estabilidad del entrenamiento y el rendimiento de convergencia.
Presentamos un sistema completo para la renderización en tiempo real de escenas con apariencia compleja que anteriormente estaba reservada para uso offline. Esto se logra mediante una combinación de innovaciones algorítmicas y a nivel de sistema. Nuestro modelo de apariencia utiliza texturas jerárquicas aprendidas que se interpretan mediante decodificadores neuronales, los cuales producen valores de reflectancia y direcciones muestreadas por importancia. Para aprovechar al máximo la capacidad de modelado de los decodificadores, los equipamos con dos prioridades gráficas. La primera prioridad —la transformación de direcciones en marcos de sombreado aprendidos— facilita la reconstrucción precisa de efectos a mesoescala. La segunda prioridad —una distribución de muestreo de microfacetas— permite que el decodificador neuronal realice muestreo por importancia de manera eficiente. El modelo de apariencia resultante admite muestreo anisotrópico y renderización por nivel de detalle, y permite convertir gráficos de materiales profundamente estratificados en una representación neuronal unificada y compacta. Al exponer operaciones tensoriales aceleradas por hardware a los sombreadores de trazado de rayos, demostramos que es posible integrar y ejecutar los decodificadores neuronales de manera eficiente dentro de un trazador de rutas en tiempo real. Analizamos la escalabilidad con un número creciente de materiales neuronales y proponemos mejorar el rendimiento utilizando código optimizado para ejecución coherente y divergente. Nuestros sombreadores de materiales neuronales pueden ser más de un orden de magnitud más rápidos que los materiales estratificados no neuronales. Esto abre la puerta al uso de gráficos de calidad cinematográfica en aplicaciones en tiempo real, como videojuegos y vistas previas en vivo.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) impulsan muchos de los sistemas más avanzados en el procesamiento del lenguaje natural. Sin embargo, estos modelos son extremadamente costosos desde el punto de vista computacional, incluso durante la inferencia, lo que plantea la pregunta natural: ¿cuándo vale la pena el costo adicional de implementar un modelo más grande por el aumento anticipado en sus capacidades? Comprender mejor este equilibrio fundamental podría beneficiarse de una métrica de eficiencia de inferencia que sea tanto (i) fácilmente comparable entre modelos de diferentes proveedores, como (ii) representativa del costo real de ejecutar consultas en un entorno de rendimiento aislado. Lamentablemente, el acceso a los LLMs hoy en día está mayormente restringido a APIs de generación de texto de caja negra, y los tiempos de ejecución brutos medidos a través de esta interfaz no satisfacen estos requisitos: los proveedores de modelos pueden aplicar diversas optimizaciones de software y hardware independientes del modelo, y los modelos servidos en infraestructura compartida son susceptibles a la contención de rendimiento. Para sortear estos problemas, proponemos una nueva métrica para comparar la eficiencia de inferencia entre modelos. Esta métrica coloca a los modelos en igualdad de condiciones, como si fueran servidos (i) en hardware y software uniformes, y (ii) sin contención de rendimiento. Llamamos a esta métrica el tiempo de ejecución idealizado, y proponemos una metodología para estimar eficientemente esta métrica para modelos de Transformadores autoregresivos. También proponemos variantes conscientes del costo que incorporan el número de aceleradores necesarios para servir el modelo. Utilizando estas métricas, comparamos diez LLMs de última generación para proporcionar el primer análisis de los equilibrios entre eficiencia de inferencia y capacidades; realizamos varias observaciones a partir de este análisis, incluido el hecho de que el rendimiento superior en tiempo de ejecución de inferencia de ciertas APIs es a menudo un subproducto de optimizaciones dentro de la API en lugar del modelo subyacente. Nuestra metodología también facilita la comparación eficiente de diferentes pilas de software y hardware.
Los modelos de lenguaje preentrenados a gran escala (LLMs, por sus siglas en inglés) capturan conocimiento procedimental sobre el mundo. Trabajos recientes han aprovechado la capacidad de los LLMs para generar planes abstractos con el fin de simplificar tareas de control desafiantes, ya sea mediante la puntuación de acciones o el modelado de acciones (ajuste fino). Sin embargo, la arquitectura Transformer hereda varias limitaciones que dificultan que el LLM funcione directamente como agente: por ejemplo, longitudes de entrada limitadas, ineficiencia en el ajuste fino, sesgos del preentrenamiento e incompatibilidad con entornos no textuales. Para mantener la compatibilidad con un actor entrenable de bajo nivel, proponemos utilizar el conocimiento de los LLMs para simplificar el problema de control, en lugar de resolverlo. Proponemos el marco Planificar, Eliminar y Rastrear (PET, por sus siglas en inglés). El módulo Planificar traduce una descripción de la tarea en una lista de subtareas de alto nivel. El módulo Eliminar oculta objetos y receptáculos irrelevantes de la observación para la subtarea actual. Finalmente, el módulo Rastrear determina si el agente ha completado cada subtarea. En el benchmark AlfWorld de seguimiento de instrucciones, el marco PET logra una mejora significativa del 15% sobre el estado del arte (SOTA) en la generalización de especificaciones de objetivos humanos.