Artículos de investigación en IA seleccionados diariamente con traducciones
Los sistemas de recomendación modernos utilizan modelos de recuperación a gran escala que constan de dos etapas: entrenar un modelo de doble codificador para incrustar consultas y candidatos en el mismo espacio, seguido de una búsqueda de vecinos más cercanos aproximada (ANN, por sus siglas en inglés) para seleccionar los mejores candidatos dada la incrustación de una consulta. En este artículo, proponemos un nuevo paradigma de una sola etapa: un modelo de recuperación generativo que decodifica de manera autoregresiva los identificadores de los candidatos objetivo en una sola fase. Para lograr esto, en lugar de asignar identificadores atómicos generados aleatoriamente a cada ítem, generamos IDs semánticos: una tupla de códigos con significado semántico para cada ítem que sirve como su identificador único. Utilizamos un método jerárquico llamado RQ-VAE para generar estos códigos. Una vez que tenemos los IDs semánticos para todos los ítems, entrenamos un modelo secuencia a secuencia basado en Transformer para predecir el ID semántico del siguiente ítem. Dado que este modelo predice la tupla de códigos que identifica el siguiente ítem directamente de manera autoregresiva, puede considerarse un modelo de recuperación generativo. Demostramos que nuestro sistema de recomendación entrenado bajo este nuevo paradigma mejora los resultados obtenidos por los modelos actuales de última generación (SOTA) en el conjunto de datos de Amazon. Además, mostramos que el modelo secuencia a secuencia combinado con IDs semánticos jerárquicos ofrece una mejor generalización y, por lo tanto, mejora la recuperación de ítems de inicio en frío para recomendaciones.
Las redes neuronales profundas han demostrado un rendimiento notable en tareas de aprendizaje supervisado, pero requieren grandes cantidades de datos etiquetados. El aprendizaje autosupervisado ofrece un paradigma alternativo, permitiendo que el modelo aprenda de los datos sin etiquetas explícitas. La teoría de la información ha sido fundamental para comprender y optimizar las redes neuronales profundas. Específicamente, el principio del cuello de botella de la información se ha aplicado para optimizar el equilibrio entre la compresión y la preservación de información relevante en entornos supervisados. Sin embargo, el objetivo óptimo de información en el aprendizaje autosupervisado sigue sin estar claro. En este artículo, revisamos diversos enfoques del aprendizaje autosupervisado desde una perspectiva de la teoría de la información y presentamos un marco unificado que formaliza el problema de aprendizaje autosupervisado basado en la teoría de la información. Integramos investigaciones existentes en un marco coherente, examinamos métodos recientes de aprendizaje autosupervisado e identificamos oportunidades y desafíos de investigación. Además, discutimos la medición empírica de cantidades teóricas de la información y sus estimadores. Este artículo ofrece una revisión exhaustiva de la intersección entre la teoría de la información, el aprendizaje autosupervisado y las redes neuronales profundas.
Los modelos de lenguaje más recientes, como ChatGPT y GPT-4, han captado una atención significativa debido a su capacidad para generar respuestas de alta calidad a entradas humanas. A pesar de las extensas pruebas realizadas con ChatGPT y GPT-4 en corpus de texto genéricos, que demuestran sus impresionantes capacidades, aún no se ha realizado un estudio centrado en corpus financieros. En este estudio, buscamos cerrar esta brecha examinando el potencial de ChatGPT y GPT-4 como solucionadores de problemas típicos de análisis de texto financiero en entornos de zero-shot o few-shot. Específicamente, evaluamos sus capacidades en cuatro tareas representativas utilizando cinco conjuntos de datos textuales financieros distintos. El estudio preliminar muestra que ChatGPT y GPT-4 tienen dificultades en tareas como el reconocimiento de entidades nombradas (NER) financieras y el análisis de sentimientos, donde se requiere conocimiento específico del dominio, mientras que sobresalen en tareas de razonamiento numérico. Reportamos tanto las fortalezas como las limitaciones de las versiones actuales de ChatGPT y GPT-4, comparándolas con modelos ajustados (finetuned) de última generación, así como con modelos generativos preentrenados específicos del dominio. Nuestros experimentos incluyen estudios cualitativos, a través de los cuales esperamos contribuir a comprender las capacidades de los modelos existentes y facilitar mejoras futuras.
En una serie de trabajos recientes, se ha demostrado que las arquitecturas centradas en objetos son adecuadas para la descomposición de escenas no supervisada en el dominio visual. Inspirados por estos métodos, presentamos AudioSlots, un modelo generativo centrado en slots para la separación ciega de fuentes en el dominio auditivo. AudioSlots está construido utilizando redes codificadoras y decodificadoras permutacionalmente equivariantes. La red codificadora, basada en la arquitectura Transformer, aprende a mapear un espectrograma de audio mixto a un conjunto no ordenado de embeddings de fuentes independientes. La red decodificadora de difusión espacial aprende a generar los espectrogramas de las fuentes a partir de los embeddings de las fuentes. Entrenamos el modelo de extremo a extremo utilizando una función de pérdida invariante a permutaciones. Nuestros resultados en la separación de habla de Libri2Mix constituyen una prueba de concepto de que este enfoque es prometedor. Discutimos en detalle los resultados y limitaciones de nuestro enfoque, y además esbozamos posibles formas de superar las limitaciones y direcciones para trabajos futuros.
Tras el notable éxito de los modelos de difusión en la generación de imágenes, trabajos recientes también han demostrado su impresionante capacidad para abordar una serie de problemas inversos de manera no supervisada, restringiendo adecuadamente el proceso de muestreo basado en una entrada de condicionamiento. Motivados por esto, en este artículo presentamos el primer enfoque que utiliza modelos de difusión como un previo para la reconstrucción altamente precisa de BRDF faciales 3D a partir de una sola imagen. Comenzamos aprovechando un conjunto de datos UV de alta calidad de reflectancia facial (albedo difuso y especular, y normales), que renderizamos bajo diferentes configuraciones de iluminación para simular texturas RGB naturales y, luego, entrenamos un modelo de difusión no condicional en pares concatenados de texturas renderizadas y componentes de reflectancia. En el momento de la prueba, ajustamos un modelo morfable 3D a la imagen dada y desplegamos la cara en una textura UV parcial. Al muestrear desde el modelo de difusión, manteniendo intacta la parte observada de la textura, el modelo rellena no solo las áreas auto-oclusivas sino también los componentes de reflectancia desconocidos, en una única secuencia de pasos de eliminación de ruido. A diferencia de los métodos existentes, adquirimos directamente la textura observada a partir de la imagen de entrada, lo que resulta en una estimación de reflectancia más fiel y consistente. A través de una serie de comparaciones cualitativas y cuantitativas, demostramos un rendimiento superior tanto en la tarea de completado de texturas como en la reconstrucción de reflectancia.
La proliferación de contenido en video exige enfoques eficientes y flexibles basados en redes neuronales para la generación de nuevo contenido audiovisual. En este artículo, proponemos un método novedoso que combina la generación de texto a video en modo zero-shot con ControlNet para mejorar la salida de estos modelos. Nuestro método toma como entrada múltiples marcos esbozados y genera una salida en video que coincide con el flujo de estos marcos, basándose en la arquitectura Text-to-Video Zero e incorporando ControlNet para habilitar condiciones de entrada adicionales. Al interpolar primero los marcos entre los esbozos de entrada y luego ejecutar Text-to-Video Zero utilizando el video de marcos interpolados como técnica de control, aprovechamos los beneficios tanto de la generación de texto a video en modo zero-shot como del control robusto proporcionado por ControlNet. Los experimentos demuestran que nuestro método sobresale en la producción de contenido en video de alta calidad y notablemente consistente que se alinea con mayor precisión con el movimiento previsto por el usuario para el sujeto dentro del video. Proporcionamos un paquete de recursos completo, que incluye un video de demostración, un sitio web del proyecto, un repositorio de GitHub de código abierto y un entorno de Colab para fomentar la investigación y aplicación adicionales de nuestro método propuesto.
Para que un robot pueda personalizar la asistencia física de manera efectiva, debe aprender las preferencias del usuario que puedan aplicarse de forma generalizada a escenarios futuros. En este trabajo, investigamos la personalización de la limpieza del hogar con robots que pueden ordenar habitaciones recogiendo objetos y guardándolos. Un desafío clave es determinar el lugar adecuado para colocar cada objeto, ya que las preferencias de las personas pueden variar enormemente según el gusto personal o el trasfondo cultural. Por ejemplo, una persona puede preferir guardar las camisas en el cajón, mientras que otra puede preferirlas en el estante. Nuestro objetivo es construir sistemas que puedan aprender dichas preferencias a partir de solo un puñado de ejemplos mediante interacciones previas con una persona en particular. Demostramos que los robots pueden combinar la planificación y percepción basadas en lenguaje con las capacidades de resumen de pocos ejemplos (few-shot) de los modelos de lenguaje grandes (LLMs) para inferir preferencias generalizadas del usuario que sean ampliamente aplicables a interacciones futuras. Este enfoque permite una adaptación rápida y alcanza un 91.2% de precisión en objetos no vistos en nuestro conjunto de datos de referencia. También demostramos nuestro enfoque en un manipulador móvil del mundo real llamado TidyBot, que logra guardar el 85.0% de los objetos en escenarios de prueba del mundo real.
En los últimos años, los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) han demostrado la capacidad de seguir instrucciones y realizar tareas novedosas a partir de unos pocos ejemplos. La posibilidad de parametrizar un LLM mediante estos ejemplos en contexto amplía sus capacidades a un costo mucho menor que el ajuste fino (finetuning). Extendemos esta línea de razonamiento y presentamos un método que expande aún más las capacidades de un LLM al integrarlo dentro de un algoritmo o programa. Para demostrar los beneficios de este enfoque, presentamos un ejemplo ilustrativo de respuesta a preguntas respaldadas por evidencia. Obtenemos una mejora del 6.4 % sobre la línea base de cadena de pensamiento (chain of thought) mediante un enfoque más algorítmico, sin necesidad de ajuste fino. Además, destacamos trabajos recientes desde esta perspectiva y discutimos las ventajas y desventajas en comparación con los enfoques estándar.
La optimización y renderizado de Campos de Radiancia Neural (NeRF) es computacionalmente costoso debido al gran número de muestras requeridas por la renderización volumétrica. Trabajos recientes han incluido enfoques de muestreo alternativos para acelerar sus métodos; sin embargo, estos no suelen ser el foco principal del estudio. En este artículo, investigamos y comparamos múltiples enfoques de muestreo y demostramos que un muestreo mejorado es generalmente aplicable en variantes de NeRF bajo un concepto unificado de estimador de transmitancia. Para facilitar experimentos futuros, desarrollamos NerfAcc, una caja de herramientas en Python que proporciona APIs flexibles para incorporar métodos avanzados de muestreo en técnicas relacionadas con NeRF. Demostramos su flexibilidad al mostrar que puede reducir el tiempo de entrenamiento de varios métodos recientes de NeRF entre 1.5x y 20x con modificaciones mínimas en el código existente. Además, NeRFs altamente personalizados, como Instant-NGP, pueden implementarse en PyTorch nativo utilizando NerfAcc.
La ejecución de código es un aspecto fundamental de la semántica de los lenguajes de programación que refleja el comportamiento exacto del código. Sin embargo, la mayoría de los modelos preentrenados para la inteligencia de código ignoran la traza de ejecución y se basan únicamente en el código fuente y las estructuras sintácticas. En este artículo, investigamos qué tan bien los modelos preentrenados pueden comprender y realizar la ejecución de código. Desarrollamos una técnica de aumento de datos basada en mutaciones para crear un conjunto de datos y una tarea de ejecución de código en Python a gran escala y realista, que desafía a modelos existentes como Codex. Luego presentamos CodeExecutor, un modelo Transformer que aprovecha el preentrenamiento en ejecución de código y el aprendizaje curricular para mejorar su comprensión semántica. Evaluamos CodeExecutor en la ejecución de código y mostramos su rendimiento prometedor y sus limitaciones. También demostramos sus beneficios potenciales para tareas de inteligencia de código, como la búsqueda de código a código en modo zero-shot y la generación de texto a código. Nuestro análisis proporciona información sobre las capacidades de aprendizaje y generalización de los modelos preentrenados para la ejecución de código.
Las páginas web han sido un recurso valioso para tareas de lenguaje y visión-lenguaje. Sin embargo, solo se conservan fragmentos de estas páginas: pares de imagen-texto, artículos de texto extenso o HTML crudo, pero nunca todos estos elementos en un mismo lugar. Como resultado, las tareas relacionadas con páginas web han recibido poca atención y los datos estructurados de imagen-texto han sido subutilizados. Para estudiar la comprensión multimodal de páginas web, presentamos el conjunto Wikipedia Webpage 2M (WikiWeb2M); el primero en conservar el conjunto completo de imágenes, texto y datos de estructura disponibles en una página. WikiWeb2M puede utilizarse para tareas como la generación de descripciones de páginas, la resumen de secciones y la generación de subtítulos contextuales de imágenes.