Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Escribiendo en los Márgenes: Mejor Patrón de Inferencia para la Recuperación de Contextos Largos
Writing in the Margins: Better Inference Pattern for Long Context Retrieval

Aug 27

ByMelisa Russak, Umar Jamil, Christopher Bryant, Kiran Kamble, Axel Magnuson, Mateusz Russak, Waseem AlShikh

144

En este artículo, presentamos Writing in the Margins (WiM), un nuevo patrón de inferencia para Modelos de Lenguaje Grandes diseñado para optimizar el manejo de secuencias de entrada largas en tareas orientadas a la recuperación. Este enfoque aprovecha el precargado segmentado de la caché de clave-valor para realizar inferencia por segmentos, lo que permite el procesamiento eficiente de contextos extensos junto con la generación y clasificación de información intermedia ("márgenes") que guían al modelo hacia tareas específicas. Este método aumenta mínimamente la carga computacional mientras mejora significativamente el rendimiento de modelos listos para usar sin necesidad de ajustes finos. Específicamente, observamos que WiM proporciona un aumento promedio del 7.5% en precisión para habilidades de razonamiento (HotpotQA, MultiHop-RAG) y más de un 30.0% en el puntaje F1 para tareas de agregación (CWE). Además, mostramos cómo el patrón propuesto encaja en un diseño interactivo de recuperación que brinda a los usuarios finales actualizaciones continuas sobre el progreso del procesamiento del contexto, y señala la integración de información relevante en la respuesta final. Publicamos nuestra implementación de WiM utilizando la biblioteca Hugging Face Transformers en https://github.com/writer/writing-in-the-margins.

Los Modelos de Difusión son Motores de Juegos en Tiempo Real.
Diffusion Models Are Real-Time Game Engines

Aug 27

ByDani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter

126

Presentamos GameNGen, el primer motor de juego impulsado completamente por un modelo neuronal que permite la interacción en tiempo real con un entorno complejo a lo largo de trayectorias extensas y de alta calidad. GameNGen puede simular interactivamente el juego clásico DOOM a más de 20 cuadros por segundo en una sola TPU. La predicción del siguiente fotograma logra un PSNR de 29.4, comparable a la compresión JPEG con pérdida. Los evaluadores humanos son solo ligeramente mejores que el azar al distinguir clips cortos del juego de clips de la simulación. GameNGen se entrena en dos fases: (1) un agente de RL aprende a jugar el juego y las sesiones de entrenamiento se graban, y (2) se entrena un modelo de difusión para producir el siguiente fotograma, condicionado a la secuencia de fotogramas y acciones pasadas. Las mejoras de condicionamiento permiten una generación auto-regresiva estable a lo largo de trayectorias extensas.

La Mamba en la Llama: Destilación y Aceleración de Modelos Híbridos
The Mamba in the Llama: Distilling and Accelerating Hybrid Models

Aug 27

ByJunxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao

Las arquitecturas lineales de RNN, como Mamba, pueden ser competitivas con los modelos Transformer en modelado de lenguaje, al mismo tiempo que presentan características de implementación ventajosas. Dado el enfoque en el entrenamiento de modelos Transformer a gran escala, consideramos el desafío de convertir estos modelos preentrenados para su implementación. Demostramos que es factible destilar grandes Transformers en RNN lineales reutilizando los pesos de proyección lineal de las capas de atención con recursos académicos de GPU. El modelo híbrido resultante, que incorpora un cuarto de las capas de atención, logra un rendimiento comparable al Transformer original en pruebas de chat y supera a los modelos híbridos Mamba de código abierto entrenados desde cero con billones de tokens tanto en pruebas de chat como en pruebas generales. Además, presentamos un algoritmo de decodificación especulativa consciente del hardware que acelera la velocidad de inferencia de los modelos Mamba y híbridos. En general, mostramos cómo, con recursos computacionales limitados, podemos eliminar muchas de las capas de atención originales y generar a partir del modelo resultante de manera más eficiente. Nuestro modelo de mejor rendimiento, destilado de Llama3-8B-Instruct, logra una tasa de victoria controlada por longitud del 29.61 en AlpacaEval 2 contra GPT-4 y 7.35 en MT-Bench, superando al mejor modelo de RNN lineal ajustado a instrucciones.

Interpolación generativa: Adaptación de modelos de imagen a video para la interpolación de fotogramas clave.
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

Aug 27

ByXiaojuan Wang, Boyang Zhou, Brian Curless, Ira Kemelmacher-Shlizerman, Aleksander Holynski, Steven M. Seitz

Presentamos un método para generar secuencias de video con movimiento coherente entre un par de fotogramas clave de entrada. Adaptamos un modelo de difusión de imagen a video a gran escala preentrenado (originalmente entrenado para generar videos avanzando en el tiempo a partir de una sola imagen de entrada) para la interpolación de fotogramas clave, es decir, para producir un video entre dos fotogramas de entrada. Logramos esta adaptación a través de una técnica de ajuste fino ligera que produce una versión del modelo que en lugar de predecir videos avanzando en el tiempo a partir de una sola imagen de entrada, predice videos retrocediendo en el tiempo. Este modelo (junto con el modelo original de avance) se utiliza posteriormente en un proceso de muestreo de difusión bidireccional que combina las estimaciones del modelo superpuestas a partir de cada uno de los dos fotogramas clave. Nuestros experimentos muestran que nuestro método supera tanto a los métodos basados en difusión existentes como a las técnicas tradicionales de interpolación de fotogramas.

Text2SQL no es Suficiente: Unificando la IA y las Bases de Datos con TAG
Text2SQL is Not Enough: Unifying AI and Databases with TAG

Aug 27

ByAsim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia

Los sistemas de IA que responden preguntas en lenguaje natural sobre bases de datos prometen desbloquear un valor tremendo. Tales sistemas permitirían a los usuarios aprovechar el poderoso razonamiento y las capacidades de conocimiento de los modelos de lenguaje (LMs) junto con la escalabilidad computacional de los sistemas de gestión de datos. Estas capacidades combinadas capacitarían a los usuarios para hacer preguntas arbitrarias en lenguaje natural sobre fuentes de datos personalizadas. Sin embargo, los métodos y benchmarks existentes exploran de manera insuficiente este escenario. Los métodos Text2SQL se centran únicamente en preguntas en lenguaje natural que pueden expresarse en álgebra relacional, representando un pequeño subconjunto de las preguntas que los usuarios reales desean hacer. Del mismo modo, Retrieval-Augmented Generation (RAG) considera el subconjunto limitado de consultas que pueden responderse con búsquedas puntuales en uno o unos pocos registros de datos dentro de la base de datos. Proponemos Table-Augmented Generation (TAG), un paradigma unificado y de propósito general para responder preguntas en lenguaje natural sobre bases de datos. El modelo TAG representa una amplia gama de interacciones entre el LM y la base de datos que no se han explorado previamente y crea emocionantes oportunidades de investigación para aprovechar el conocimiento mundial y las capacidades de razonamiento de los LMs sobre los datos. Desarrollamos sistemáticamente benchmarks para estudiar el problema TAG y encontramos que los métodos estándar responden correctamente a no más del 20% de las consultas, confirmando la necesidad de una mayor investigación en esta área. Publicamos el código del benchmark en https://github.com/TAG-Research/TAG-Bench.

Construcción de Escenas: Control Interactivo de Diseño 3D para la Generación de Imágenes basada en Difusión
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

Aug 27

ByAbdelrahman Eldesokey, Peter Wonka

Proponemos un enfoque basado en difusión para la generación de Texto-a-Imagen (T2I) con control interactivo de diseño 3D. El control de diseño ha sido ampliamente estudiado para mitigar las deficiencias de los modelos de difusión T2I en la comprensión de la ubicación y relaciones de objetos a partir de descripciones de texto. Sin embargo, los enfoques existentes para el control de diseño se limitan a diseños 2D, requieren que el usuario proporcione un diseño estático de antemano y no logran preservar las imágenes generadas ante cambios en el diseño. Esto hace que estos enfoques no sean adecuados para aplicaciones que requieren control tridimensional de objetos y refinamientos iterativos, por ejemplo, diseño de interiores y generación de escenas complejas. Con este fin, aprovechamos los avances recientes en modelos T2I condicionados por profundidad y proponemos un enfoque novedoso para el control interactivo de diseño 3D. Reemplazamos los tradicionales cuadros 2D utilizados en el control de diseño con cuadros 3D. Además, transformamos la tarea T2I en un proceso de generación multi-etapa, donde en cada etapa, el usuario puede insertar, cambiar y mover un objeto en 3D mientras se preservan los objetos de etapas anteriores. Logramos esto a través de nuestro módulo propuesto de Autoatención Dinámica (DSA) y la estrategia de traducción de objetos 3D coherente. Los experimentos muestran que nuestro enfoque puede generar escenas complicadas basadas en diseños 3D, aumentando la tasa de éxito en la generación de objetos en un 2x en comparación con los métodos estándar de T2I condicionados por profundidad. Además, supera a otros métodos en la preservación de objetos ante cambios en el diseño. Página del Proyecto: https://abdo-eldesokey.github.io/build-a-scene/

GenCA: Un modelo generativo condicionado por texto para avatares de códec realistas y conducibles.
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

Aug 24

ByKeqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz

Los avatares en 3D fotorrealistas y controlables son cruciales para diversas aplicaciones como la realidad virtual y mixta (RV/RM), la telepresencia, los videojuegos y la producción cinematográfica. Los métodos tradicionales para la creación de avatares a menudo implican procesos de escaneo y reconstrucción que consumen mucho tiempo para cada avatar, lo que limita su escalabilidad. Además, estos métodos no ofrecen la flexibilidad para muestrear nuevas identidades o modificar las existentes. Por otro lado, al aprender una fuerte prioridad a partir de datos, los modelos generativos ofrecen una alternativa prometedora a los métodos tradicionales de reconstrucción, aliviando las restricciones de tiempo tanto para la captura de datos como para el procesamiento. Además, los métodos generativos permiten aplicaciones posteriores más allá de la reconstrucción, como la edición y la estilización. Sin embargo, la investigación sobre avatares generativos en 3D todavía está en sus inicios, por lo que los métodos actuales todavía tienen limitaciones como la creación de avatares estáticos, la falta de fotorrealismo, detalles faciales incompletos o una capacidad de control limitada. Para abordar esto, proponemos un modelo generativo condicionado por texto que puede generar avatares faciales fotorrealistas de identidades diversas, con detalles más completos como cabello, ojos e interior de la boca, y que pueden ser controlados a través de un potente espacio de expresión latente no paramétrico. Específicamente, integramos las capacidades generativas y de edición de modelos de difusión latente con un modelo prior fuerte para el control de la expresión del avatar. Nuestro modelo puede generar y controlar avatares de alta fidelidad, incluso aquellos fuera de la distribución. También destacamos su potencial para aplicaciones posteriores, incluida la edición de avatares y la reconstrucción de avatares en una sola toma.

Ornitorrinco: Un Modelo Especializado Generalizado para Leer Texto en Variadas Formas
Platypus: A Generalized Specialist Model for Reading Text in Various Forms

Aug 27

ByPeng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao

La lectura de texto en imágenes (ya sean escenas naturales o documentos) ha sido un tema de investigación de larga data durante décadas, debido al alto desafío técnico y amplio rango de aplicaciones. Anteriormente, se desarrollaban modelos especializados individuales para abordar las sub tareas de lectura de texto (por ejemplo, reconocimiento de texto en escenas, reconocimiento de texto manuscrito y reconocimiento de expresiones matemáticas). Sin embargo, dichos modelos especializados generalmente no pueden generalizar de manera efectiva entre diferentes sub tareas. Recientemente, modelos generalistas (como GPT-4V), entrenados con enormes cantidades de datos de manera unificada, han mostrado un enorme potencial en la lectura de texto en varios escenarios, pero con las desventajas de una precisión limitada y baja eficiencia. En este trabajo, proponemos Platypus, un modelo especializado generalizado para la lectura de texto. Específicamente, Platypus combina lo mejor de ambos mundos: siendo capaz de reconocer texto de diversas formas con una arquitectura unificada única, al mismo tiempo que logra una excelente precisión y alta eficiencia. Para explotar mejor la ventaja de Platypus, también construimos un conjunto de datos de lectura de texto (llamado Worms), cuyas imágenes son seleccionadas de conjuntos de datos anteriores y parcialmente re-etiquetadas. Experimentos en bancos de pruebas estándar demuestran la efectividad y superioridad del modelo Platypus propuesto. El modelo y los datos estarán disponibles públicamente en https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Reconstrucción 3D temporalmente consistente de aves
Temporally-consistent 3D Reconstruction of Birds

Aug 24

ByJohannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt

Este documento aborda la reconstrucción en 3D de aves marinas, que recientemente ha cobrado importancia entre los científicos ambientales como valiosos bioindicadores de cambio ambiental. Tal información en 3D es beneficiosa para analizar el comportamiento y la forma fisiológica de las aves, por ejemplo, mediante el seguimiento de cambios en el movimiento, la forma y la apariencia. Desde una perspectiva de visión por computadora, las aves son especialmente desafiantes debido a sus movimientos rápidos y a menudo no rígidos. Proponemos un enfoque para reconstruir la pose y forma en 3D a partir de videos monoculares de una especie específica de ave marina, el arao común. Nuestro enfoque comprende un proceso completo de detección, seguimiento, segmentación y reconstrucción en 3D temporalmente consistente. Además, proponemos una pérdida temporal que extiende los estimadores de pose en 3D de aves de imagen única actuales al dominio temporal. Además, proporcionamos un conjunto de datos del mundo real de 10000 fotogramas de observaciones en video que en promedio capturan nueve aves simultáneamente, que incluyen una amplia variedad de movimientos e interacciones, e incluyen un conjunto de prueba más pequeño con etiquetas de puntos clave específicas de las aves. Utilizando nuestra optimización temporal, logramos un rendimiento de vanguardia para las secuencias desafiantes en nuestro conjunto de datos.

Proyecto SHADOW: Razonamiento Deductivo Asociativo de Orden Superior Sintáctico en Wikidata utilizando la exploración de LM
Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing

Aug 27

ByHanna Abi Akl

Presentamos SHADOW, un modelo de lenguaje afinado entrenado en una tarea intermedia utilizando razonamiento deductivo asociativo, y medimos su rendimiento en una tarea de construcción de base de conocimientos utilizando la completación de triples de Wikidata. Evaluamos SHADOW en el desafío LM-KBC 2024 y demostramos que supera la solución base en un 20% con un puntaje F1 de 68.72%.

DSTI en LLMs4OL 2024 Tarea A: Conocimiento intrínseco versus extrínseco para la clasificación de tipos
DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification

Aug 26

ByHanna Abi Akl

Presentamos las torres semánticas, un método de representación de conocimiento extrínseco, y lo comparamos con el conocimiento intrínseco en modelos de lenguaje grandes para el aprendizaje de ontologías. Nuestros experimentos muestran un equilibrio entre el rendimiento y el fundamento semántico para el conocimiento extrínseco en comparación con un modelo intrínseco afinado. Informamos nuestros hallazgos en el desafío de Modelos de Lenguaje Grandes para el Aprendizaje de Ontologías (LLMs4OL) 2024.

LLM-3D Imprimir: Modelos de Lenguaje Grandes para Monitorear y Controlar la Impresión 3D
LLM-3D Print: Large Language Models To Monitor and Control 3D Printing

Aug 26

ByYayati Jadhav, Peter Pak, Amir Barati Farimani

La Industria 4.0 ha revolucionado la fabricación al impulsar la digitalización y cambiar el paradigma hacia la fabricación aditiva (FA). La Modelado por Deposición Fundida (FDM), una tecnología clave de FA, permite la creación de productos altamente personalizados y rentables con un mínimo desperdicio de material a través de la extrusión capa por capa, planteando un desafío significativo a los métodos tradicionales de sustracción. Sin embargo, la susceptibilidad de las técnicas de extrusión de material a errores a menudo requiere la intervención de expertos para detectar y mitigar defectos que pueden comprometer gravemente la calidad del producto. Aunque existen la detección automatizada de errores y modelos de aprendizaje automático, su generalización en configuraciones diversas de impresoras 3D, firmware y sensores es limitada, y los métodos de aprendizaje profundo requieren conjuntos de datos etiquetados extensos, lo que dificulta la escalabilidad y adaptabilidad. Para abordar estos desafíos, presentamos un marco de monitoreo y control del proceso que aprovecha Modelos de Lenguaje Grandes (LLMs) pre-entrenados junto con impresoras 3D para detectar y abordar defectos de impresión. El LLM evalúa la calidad de impresión analizando imágenes capturadas después de cada capa o segmento de impresión, identificando modos de falla y consultando a la impresora sobre los parámetros relevantes. Luego genera y ejecuta un plan de acción correctivo. Validamos la efectividad del marco propuesto en la identificación de defectos al compararlo con un grupo de control de ingenieros con experiencia diversa en FA. Nuestra evaluación demostró que los agentes basados en LLM identifican con precisión errores comunes de impresión 3D, como la extrusión inconsistente, el stringing, el warping y la adhesión de capas, y también determinan de manera efectiva los parámetros que causan estos fallos y los corrigen de forma autónoma sin necesidad de intervención humana.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Escribiendo en los Márgenes: Mejor Patrón de Inferencia para la Recuperación de Contextos Largos
Writing in the Margins: Better Inference Pattern for Long Context Retrieval

Aug 27

ByMelisa Russak, Umar Jamil, Christopher Bryant, Kiran Kamble, Axel Magnuson, Mateusz Russak, Waseem AlShikh

144

Los Modelos de Difusión son Motores de Juegos en Tiempo Real.
Diffusion Models Are Real-Time Game Engines

Aug 27

ByDani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter

126

La Mamba en la Llama: Destilación y Aceleración de Modelos Híbridos
The Mamba in the Llama: Distilling and Accelerating Hybrid Models

Aug 27

ByJunxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao

Interpolación generativa: Adaptación de modelos de imagen a video para la interpolación de fotogramas clave.
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

Aug 27

ByXiaojuan Wang, Boyang Zhou, Brian Curless, Ira Kemelmacher-Shlizerman, Aleksander Holynski, Steven M. Seitz

Text2SQL no es Suficiente: Unificando la IA y las Bases de Datos con TAG
Text2SQL is Not Enough: Unifying AI and Databases with TAG

Aug 27

ByAsim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia

Construcción de Escenas: Control Interactivo de Diseño 3D para la Generación de Imágenes basada en Difusión
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

Aug 27

ByAbdelrahman Eldesokey, Peter Wonka

GenCA: Un modelo generativo condicionado por texto para avatares de códec realistas y conducibles.
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

Aug 24

ByKeqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz

Ornitorrinco: Un Modelo Especializado Generalizado para Leer Texto en Variadas Formas
Platypus: A Generalized Specialist Model for Reading Text in Various Forms

Aug 27

ByPeng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao

Reconstrucción 3D temporalmente consistente de aves
Temporally-consistent 3D Reconstruction of Birds

Aug 24

ByJohannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt

Proyecto SHADOW: Razonamiento Deductivo Asociativo de Orden Superior Sintáctico en Wikidata utilizando la exploración de LM
Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing

Aug 27

ByHanna Abi Akl

DSTI en LLMs4OL 2024 Tarea A: Conocimiento intrínseco versus extrínseco para la clasificación de tipos
DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification

Aug 26

ByHanna Abi Akl

LLM-3D Imprimir: Modelos de Lenguaje Grandes para Monitorear y Controlar la Impresión 3D
LLM-3D Print: Large Language Models To Monitor and Control 3D Printing

Aug 26

ByYayati Jadhav, Peter Pak, Amir Barati Farimani