Artículos de investigación en IA seleccionados diariamente con traducciones
El conocimiento científico se almacena predominantemente en libros y revistas científicas, a menudo en formato PDF. Sin embargo, el formato PDF conlleva una pérdida de información semántica, particularmente en el caso de expresiones matemáticas. Proponemos Nougat (Neural Optical Understanding for Academic Documents), un modelo de Transformador Visual que realiza una tarea de Reconocimiento Óptico de Caracteres (OCR) para procesar documentos científicos en un lenguaje de marcado, y demostramos la efectividad de nuestro modelo en un nuevo conjunto de datos de documentos científicos. El enfoque propuesto ofrece una solución prometedora para mejorar la accesibilidad del conocimiento científico en la era digital, al cerrar la brecha entre documentos legibles por humanos y texto legible por máquinas. Publicamos los modelos y el código para acelerar futuros trabajos en el reconocimiento de texto científico.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado las tareas de procesamiento de lenguaje natural. Sin embargo, su implementación práctica se ve obstaculizada por sus enormes requisitos de memoria y computación. Aunque los métodos recientes de cuantización posterior al entrenamiento (PTQ) son efectivos para reducir la huella de memoria y mejorar la eficiencia computacional de los LLMs, estos diseñan manualmente los parámetros de cuantización, lo que resulta en un bajo rendimiento y no logra manejar la cuantización de bits extremadamente bajos. Para abordar este problema, presentamos una técnica de Cuantización Calibrada Omnidireccional (OmniQuant) para LLMs, que logra un buen rendimiento en diversos ajustes de cuantización mientras mantiene la eficiencia computacional de PTQ al optimizar eficientemente varios parámetros de cuantización. OmniQuant consta de dos componentes innovadores: Recorte de Peso Aprendible (LWC) y Transformación Equivalente Aprendible (LET). LWC modula los valores extremos de los pesos optimizando el umbral de recorte. Mientras tanto, LET aborda los valores atípicos en las activaciones trasladando el desafío de la cuantización de las activaciones a los pesos mediante una transformación equivalente aprendible. Operando dentro de un marco diferenciable utilizando minimización de error por bloques, OmniQuant puede optimizar eficientemente el proceso de cuantización tanto para la cuantización solo de pesos como para la cuantización de pesos y activaciones. Por ejemplo, la familia de modelos LLaMA-2 con un tamaño de 7-70B puede procesarse con OmniQuant en una sola GPU A100-40G en 1-16 horas utilizando 128 muestras. Experimentos extensos validan el rendimiento superior de OmniQuant en diversas configuraciones de cuantización como W4A4, W6A6, W4A16, W3A16 y W2A16. Además, OmniQuant demuestra su efectividad en modelos ajustados por instrucciones y ofrece mejoras notables en la velocidad de inferencia y la reducción de memoria en dispositivos reales. Los códigos y modelos están disponibles en https://github.com/OpenGVLab/OmniQuant.
El desarrollo de software desempeña un papel crucial en impulsar la innovación y la eficiencia en las sociedades modernas. Para satisfacer las demandas de este campo dinámico, existe una creciente necesidad de un asistente efectivo para el desarrollo de software. Sin embargo, los modelos de lenguaje grandes existentes, representados por ChatGPT, sufren de accesibilidad limitada, incluyendo datos de entrenamiento y pesos del modelo. Aunque otros modelos grandes de código abierto como LLaMA han mostrado potencial, aún tienen dificultades para comprender la intención humana. En este artículo, presentamos SoTaNa, un asistente de desarrollo de software de código abierto. SoTaNa utiliza ChatGPT para generar datos de alta calidad basados en instrucciones para el dominio de la ingeniería de software y emplea un enfoque de ajuste fino eficiente en parámetros para mejorar el modelo base de código abierto, LLaMA. Evaluamos la efectividad de SoTaNa al responder preguntas de Stack Overflow y demostramos sus capacidades. Además, discutimos sus habilidades en la generación y resumen de código, así como el impacto de variar el volumen de datos generados en el rendimiento del modelo. Notablemente, SoTaNa puede ejecutarse en una sola GPU, lo que lo hace accesible para una gama más amplia de investigadores. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/DeepSoftwareAnalytics/SoTaNa.
Los Transformers de Visión logran una precisión impresionante en una variedad de tareas de reconocimiento visual. Lamentablemente, su precisión frecuentemente viene acompañada de altos costos computacionales. Esto es un problema particular en el reconocimiento de video, donde los modelos a menudo se aplican repetidamente a través de fotogramas o segmentos temporales. En este trabajo, aprovechamos la redundancia temporal entre entradas posteriores para reducir el costo de los Transformers en el procesamiento de video. Describimos un método para identificar y reprocesar solo aquellos tokens que han cambiado significativamente con el tiempo. Nuestra familia propuesta de modelos, Eventful Transformers, puede convertirse a partir de Transformers existentes (a menudo sin necesidad de reentrenamiento) y ofrece control adaptativo sobre el costo computacional en tiempo de ejecución. Evaluamos nuestro método en conjuntos de datos a gran escala para detección de objetos en video (ImageNet VID) y reconocimiento de acciones (EPIC-Kitchens 100). Nuestro enfoque conduce a ahorros computacionales significativos (del orden de 2-4x) con solo reducciones menores en la precisión.
Este artículo presenta una novedosa representación neural implícita de radiancia para la reiluminación desde puntos de vista libres, utilizando un pequeño conjunto de fotografías no estructuradas de un objeto iluminado por una fuente de luz puntual en movimiento, diferente a la posición de la cámara. Representamos la forma como una función de distancia con signo modelada por un perceptrón multicapa. A diferencia de representaciones neurales implícitas reiluminables previas, no separamos los diferentes componentes de reflectancia, sino que modelamos tanto la reflectancia local como global en cada punto mediante un segundo perceptrón multicapa que, además de las características de densidad, la posición actual, la normal (derivada de la función de distancia con signo), la dirección de visión y la posición de la luz, también incorpora sugerencias de sombras y reflejos para ayudar a la red a modelar los correspondientes efectos de transporte de luz de alta frecuencia. Estas sugerencias se proporcionan como indicaciones, dejando que la red decida cómo incorporarlas en el resultado final reiluminado. Demostramos y validamos nuestra representación neural implícita en escenas sintéticas y reales que exhiben una amplia variedad de formas, propiedades de materiales y transporte de iluminación global.