Artículos de investigación en IA seleccionados diariamente con traducciones
En este artículo, presentamos Writing in the Margins (WiM), un nuevo patrón de inferencia para Modelos de Lenguaje Grandes diseñado para optimizar el manejo de secuencias de entrada largas en tareas orientadas a la recuperación. Este enfoque aprovecha el precargado segmentado de la caché de clave-valor para realizar inferencia por segmentos, lo que permite el procesamiento eficiente de contextos extensos junto con la generación y clasificación de información intermedia ("márgenes") que guían al modelo hacia tareas específicas. Este método aumenta mínimamente la carga computacional mientras mejora significativamente el rendimiento de modelos listos para usar sin necesidad de ajustes finos. Específicamente, observamos que WiM proporciona un aumento promedio del 7.5% en precisión para habilidades de razonamiento (HotpotQA, MultiHop-RAG) y más de un 30.0% en el puntaje F1 para tareas de agregación (CWE). Además, mostramos cómo el patrón propuesto encaja en un diseño interactivo de recuperación que brinda a los usuarios finales actualizaciones continuas sobre el progreso del procesamiento del contexto, y señala la integración de información relevante en la respuesta final. Publicamos nuestra implementación de WiM utilizando la biblioteca Hugging Face Transformers en https://github.com/writer/writing-in-the-margins.
Presentamos GameNGen, el primer motor de juego impulsado completamente por un modelo neuronal que permite la interacción en tiempo real con un entorno complejo a lo largo de trayectorias extensas y de alta calidad. GameNGen puede simular interactivamente el juego clásico DOOM a más de 20 cuadros por segundo en una sola TPU. La predicción del siguiente fotograma logra un PSNR de 29.4, comparable a la compresión JPEG con pérdida. Los evaluadores humanos son solo ligeramente mejores que el azar al distinguir clips cortos del juego de clips de la simulación. GameNGen se entrena en dos fases: (1) un agente de RL aprende a jugar el juego y las sesiones de entrenamiento se graban, y (2) se entrena un modelo de difusión para producir el siguiente fotograma, condicionado a la secuencia de fotogramas y acciones pasadas. Las mejoras de condicionamiento permiten una generación auto-regresiva estable a lo largo de trayectorias extensas.
Las arquitecturas lineales de RNN, como Mamba, pueden ser competitivas con los modelos Transformer en modelado de lenguaje, al mismo tiempo que presentan características de implementación ventajosas. Dado el enfoque en el entrenamiento de modelos Transformer a gran escala, consideramos el desafío de convertir estos modelos preentrenados para su implementación. Demostramos que es factible destilar grandes Transformers en RNN lineales reutilizando los pesos de proyección lineal de las capas de atención con recursos académicos de GPU. El modelo híbrido resultante, que incorpora un cuarto de las capas de atención, logra un rendimiento comparable al Transformer original en pruebas de chat y supera a los modelos híbridos Mamba de código abierto entrenados desde cero con billones de tokens tanto en pruebas de chat como en pruebas generales. Además, presentamos un algoritmo de decodificación especulativa consciente del hardware que acelera la velocidad de inferencia de los modelos Mamba y híbridos. En general, mostramos cómo, con recursos computacionales limitados, podemos eliminar muchas de las capas de atención originales y generar a partir del modelo resultante de manera más eficiente. Nuestro modelo de mejor rendimiento, destilado de Llama3-8B-Instruct, logra una tasa de victoria controlada por longitud del 29.61 en AlpacaEval 2 contra GPT-4 y 7.35 en MT-Bench, superando al mejor modelo de RNN lineal ajustado a instrucciones.
Presentamos un método para generar secuencias de video con movimiento coherente entre un par de fotogramas clave de entrada. Adaptamos un modelo de difusión de imagen a video a gran escala preentrenado (originalmente entrenado para generar videos avanzando en el tiempo a partir de una sola imagen de entrada) para la interpolación de fotogramas clave, es decir, para producir un video entre dos fotogramas de entrada. Logramos esta adaptación a través de una técnica de ajuste fino ligera que produce una versión del modelo que en lugar de predecir videos avanzando en el tiempo a partir de una sola imagen de entrada, predice videos retrocediendo en el tiempo. Este modelo (junto con el modelo original de avance) se utiliza posteriormente en un proceso de muestreo de difusión bidireccional que combina las estimaciones del modelo superpuestas a partir de cada uno de los dos fotogramas clave. Nuestros experimentos muestran que nuestro método supera tanto a los métodos basados en difusión existentes como a las técnicas tradicionales de interpolación de fotogramas.
Los sistemas de IA que responden preguntas en lenguaje natural sobre bases de datos prometen desbloquear un valor tremendo. Tales sistemas permitirían a los usuarios aprovechar el poderoso razonamiento y las capacidades de conocimiento de los modelos de lenguaje (LMs) junto con la escalabilidad computacional de los sistemas de gestión de datos. Estas capacidades combinadas capacitarían a los usuarios para hacer preguntas arbitrarias en lenguaje natural sobre fuentes de datos personalizadas. Sin embargo, los métodos y benchmarks existentes exploran de manera insuficiente este escenario. Los métodos Text2SQL se centran únicamente en preguntas en lenguaje natural que pueden expresarse en álgebra relacional, representando un pequeño subconjunto de las preguntas que los usuarios reales desean hacer. Del mismo modo, Retrieval-Augmented Generation (RAG) considera el subconjunto limitado de consultas que pueden responderse con búsquedas puntuales en uno o unos pocos registros de datos dentro de la base de datos. Proponemos Table-Augmented Generation (TAG), un paradigma unificado y de propósito general para responder preguntas en lenguaje natural sobre bases de datos. El modelo TAG representa una amplia gama de interacciones entre el LM y la base de datos que no se han explorado previamente y crea emocionantes oportunidades de investigación para aprovechar el conocimiento mundial y las capacidades de razonamiento de los LMs sobre los datos. Desarrollamos sistemáticamente benchmarks para estudiar el problema TAG y encontramos que los métodos estándar responden correctamente a no más del 20% de las consultas, confirmando la necesidad de una mayor investigación en esta área. Publicamos el código del benchmark en https://github.com/TAG-Research/TAG-Bench.
Proponemos un enfoque basado en difusión para la generación de Texto-a-Imagen (T2I) con control interactivo de diseño 3D. El control de diseño ha sido ampliamente estudiado para mitigar las deficiencias de los modelos de difusión T2I en la comprensión de la ubicación y relaciones de objetos a partir de descripciones de texto. Sin embargo, los enfoques existentes para el control de diseño se limitan a diseños 2D, requieren que el usuario proporcione un diseño estático de antemano y no logran preservar las imágenes generadas ante cambios en el diseño. Esto hace que estos enfoques no sean adecuados para aplicaciones que requieren control tridimensional de objetos y refinamientos iterativos, por ejemplo, diseño de interiores y generación de escenas complejas. Con este fin, aprovechamos los avances recientes en modelos T2I condicionados por profundidad y proponemos un enfoque novedoso para el control interactivo de diseño 3D. Reemplazamos los tradicionales cuadros 2D utilizados en el control de diseño con cuadros 3D. Además, transformamos la tarea T2I en un proceso de generación multi-etapa, donde en cada etapa, el usuario puede insertar, cambiar y mover un objeto en 3D mientras se preservan los objetos de etapas anteriores. Logramos esto a través de nuestro módulo propuesto de Autoatención Dinámica (DSA) y la estrategia de traducción de objetos 3D coherente. Los experimentos muestran que nuestro enfoque puede generar escenas complicadas basadas en diseños 3D, aumentando la tasa de éxito en la generación de objetos en un 2x en comparación con los métodos estándar de T2I condicionados por profundidad. Además, supera a otros métodos en la preservación de objetos ante cambios en el diseño. Página del Proyecto: https://abdo-eldesokey.github.io/build-a-scene/
Los avatares en 3D fotorrealistas y controlables son cruciales para diversas aplicaciones como la realidad virtual y mixta (RV/RM), la telepresencia, los videojuegos y la producción cinematográfica. Los métodos tradicionales para la creación de avatares a menudo implican procesos de escaneo y reconstrucción que consumen mucho tiempo para cada avatar, lo que limita su escalabilidad. Además, estos métodos no ofrecen la flexibilidad para muestrear nuevas identidades o modificar las existentes. Por otro lado, al aprender una fuerte prioridad a partir de datos, los modelos generativos ofrecen una alternativa prometedora a los métodos tradicionales de reconstrucción, aliviando las restricciones de tiempo tanto para la captura de datos como para el procesamiento. Además, los métodos generativos permiten aplicaciones posteriores más allá de la reconstrucción, como la edición y la estilización. Sin embargo, la investigación sobre avatares generativos en 3D todavía está en sus inicios, por lo que los métodos actuales todavía tienen limitaciones como la creación de avatares estáticos, la falta de fotorrealismo, detalles faciales incompletos o una capacidad de control limitada. Para abordar esto, proponemos un modelo generativo condicionado por texto que puede generar avatares faciales fotorrealistas de identidades diversas, con detalles más completos como cabello, ojos e interior de la boca, y que pueden ser controlados a través de un potente espacio de expresión latente no paramétrico. Específicamente, integramos las capacidades generativas y de edición de modelos de difusión latente con un modelo prior fuerte para el control de la expresión del avatar. Nuestro modelo puede generar y controlar avatares de alta fidelidad, incluso aquellos fuera de la distribución. También destacamos su potencial para aplicaciones posteriores, incluida la edición de avatares y la reconstrucción de avatares en una sola toma.
La lectura de texto en imágenes (ya sean escenas naturales o documentos) ha sido un tema de investigación de larga data durante décadas, debido al alto desafío técnico y amplio rango de aplicaciones. Anteriormente, se desarrollaban modelos especializados individuales para abordar las sub tareas de lectura de texto (por ejemplo, reconocimiento de texto en escenas, reconocimiento de texto manuscrito y reconocimiento de expresiones matemáticas). Sin embargo, dichos modelos especializados generalmente no pueden generalizar de manera efectiva entre diferentes sub tareas. Recientemente, modelos generalistas (como GPT-4V), entrenados con enormes cantidades de datos de manera unificada, han mostrado un enorme potencial en la lectura de texto en varios escenarios, pero con las desventajas de una precisión limitada y baja eficiencia. En este trabajo, proponemos Platypus, un modelo especializado generalizado para la lectura de texto. Específicamente, Platypus combina lo mejor de ambos mundos: siendo capaz de reconocer texto de diversas formas con una arquitectura unificada única, al mismo tiempo que logra una excelente precisión y alta eficiencia. Para explotar mejor la ventaja de Platypus, también construimos un conjunto de datos de lectura de texto (llamado Worms), cuyas imágenes son seleccionadas de conjuntos de datos anteriores y parcialmente re-etiquetadas. Experimentos en bancos de pruebas estándar demuestran la efectividad y superioridad del modelo Platypus propuesto. El modelo y los datos estarán disponibles públicamente en https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
Presentamos SHADOW, un modelo de lenguaje afinado entrenado en una tarea intermedia utilizando razonamiento deductivo asociativo, y medimos su rendimiento en una tarea de construcción de base de conocimientos utilizando la completación de triples de Wikidata. Evaluamos SHADOW en el desafío LM-KBC 2024 y demostramos que supera la solución base en un 20% con un puntaje F1 de 68.72%.
Presentamos las torres semánticas, un método de representación de conocimiento extrínseco, y lo comparamos con el conocimiento intrínseco en modelos de lenguaje grandes para el aprendizaje de ontologías. Nuestros experimentos muestran un equilibrio entre el rendimiento y el fundamento semántico para el conocimiento extrínseco en comparación con un modelo intrínseco afinado. Informamos nuestros hallazgos en el desafío de Modelos de Lenguaje Grandes para el Aprendizaje de Ontologías (LLMs4OL) 2024.
Este documento aborda la reconstrucción en 3D de aves marinas, que recientemente ha cobrado importancia entre los científicos ambientales como valiosos bioindicadores de cambio ambiental. Tal información en 3D es beneficiosa para analizar el comportamiento y la forma fisiológica de las aves, por ejemplo, mediante el seguimiento de cambios en el movimiento, la forma y la apariencia. Desde una perspectiva de visión por computadora, las aves son especialmente desafiantes debido a sus movimientos rápidos y a menudo no rígidos. Proponemos un enfoque para reconstruir la pose y forma en 3D a partir de videos monoculares de una especie específica de ave marina, el arao común. Nuestro enfoque comprende un proceso completo de detección, seguimiento, segmentación y reconstrucción en 3D temporalmente consistente. Además, proponemos una pérdida temporal que extiende los estimadores de pose en 3D de aves de imagen única actuales al dominio temporal. Además, proporcionamos un conjunto de datos del mundo real de 10000 fotogramas de observaciones en video que en promedio capturan nueve aves simultáneamente, que incluyen una amplia variedad de movimientos e interacciones, e incluyen un conjunto de prueba más pequeño con etiquetas de puntos clave específicas de las aves. Utilizando nuestra optimización temporal, logramos un rendimiento de vanguardia para las secuencias desafiantes en nuestro conjunto de datos.
La Industria 4.0 ha revolucionado la fabricación al impulsar la digitalización y cambiar el paradigma hacia la fabricación aditiva (FA). La Modelado por Deposición Fundida (FDM), una tecnología clave de FA, permite la creación de productos altamente personalizados y rentables con un mínimo desperdicio de material a través de la extrusión capa por capa, planteando un desafío significativo a los métodos tradicionales de sustracción. Sin embargo, la susceptibilidad de las técnicas de extrusión de material a errores a menudo requiere la intervención de expertos para detectar y mitigar defectos que pueden comprometer gravemente la calidad del producto. Aunque existen la detección automatizada de errores y modelos de aprendizaje automático, su generalización en configuraciones diversas de impresoras 3D, firmware y sensores es limitada, y los métodos de aprendizaje profundo requieren conjuntos de datos etiquetados extensos, lo que dificulta la escalabilidad y adaptabilidad. Para abordar estos desafíos, presentamos un marco de monitoreo y control del proceso que aprovecha Modelos de Lenguaje Grandes (LLMs) pre-entrenados junto con impresoras 3D para detectar y abordar defectos de impresión. El LLM evalúa la calidad de impresión analizando imágenes capturadas después de cada capa o segmento de impresión, identificando modos de falla y consultando a la impresora sobre los parámetros relevantes. Luego genera y ejecuta un plan de acción correctivo. Validamos la efectividad del marco propuesto en la identificación de defectos al compararlo con un grupo de control de ingenieros con experiencia diversa en FA. Nuestra evaluación demostró que los agentes basados en LLM identifican con precisión errores comunes de impresión 3D, como la extrusión inconsistente, el stringing, el warping y la adhesión de capas, y también determinan de manera efectiva los parámetros que causan estos fallos y los corrigen de forma autónoma sin necesidad de intervención humana.