Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son fundamentales en el procesamiento moderno del lenguaje natural, ofreciendo un rendimiento excepcional en diversas tareas. Sin embargo, sus intensivos requisitos computacionales y de memoria presentan desafíos, especialmente para dispositivos con capacidad limitada de DRAM. Este artículo aborda el desafío de ejecutar eficientemente LLMs que superan la capacidad de DRAM disponible, almacenando los parámetros del modelo en memoria flash y llevándolos a DRAM bajo demanda. Nuestro método implica la construcción de un modelo de coste de inferencia que se armoniza con el comportamiento de la memoria flash, guiándonos para optimizar en dos áreas críticas: reducir el volumen de datos transferidos desde la flash y leer datos en fragmentos más grandes y contiguos. Dentro de este marco informado por la memoria flash, introducimos dos técnicas principales. Primero, la "ventana" reduce estratégicamente la transferencia de datos reutilizando neuronas previamente activadas, y segundo, el "agrupamiento fila-columna", adaptado a las fortalezas de acceso secuencial de la memoria flash, aumenta el tamaño de los fragmentos de datos leídos desde la memoria flash. Estos métodos permiten colectivamente ejecutar modelos de hasta el doble del tamaño de la DRAM disponible, con un aumento de 4-5x y 20-25x en la velocidad de inferencia en comparación con enfoques de carga ingenuos en CPU y GPU, respectivamente. Nuestra integración de conciencia de dispersión, carga adaptativa al contexto y un diseño orientado al hardware allana el camino para una inferencia efectiva de LLMs en dispositivos con memoria limitada.
Los gráficos vectoriales escalables (SVG, por sus siglas en inglés) se han convertido en elementos fundamentales en las aplicaciones modernas de renderizado de imágenes debido a su escalabilidad infinita en resolución, versatilidad de uso y capacidades de edición. Los SVG son especialmente populares en los campos del desarrollo web y el diseño gráfico. Los enfoques existentes para el modelado de SVG utilizando aprendizaje profundo a menudo tienen dificultades para generar SVG complejos y se limitan a aquellos más simples que requieren un procesamiento y simplificación extensos. Este artículo presenta StarVector, un modelo multimodal de generación de SVG que integra eficazmente modelos de lenguaje de gran escala para generación de código (CodeLLMs) y modelos de visión. Nuestro enfoque utiliza un codificador de imágenes CLIP para extraer representaciones visuales de imágenes basadas en píxeles, las cuales se transforman en tokens visuales mediante un módulo adaptador. Estos tokens visuales se anteponen a las incrustaciones de tokens de SVG, y la secuencia es modelada por el modelo StarCoder utilizando la predicción del siguiente token, aprendiendo efectivamente a alinear los tokens visuales y de código. Esto permite a StarVector generar SVG sin restricciones que representan con precisión imágenes de píxeles. Para evaluar el rendimiento de StarVector, presentamos SVG-Bench, un punto de referencia integral para evaluar métodos de SVG en múltiples conjuntos de datos y métricas relevantes. Dentro de este punto de referencia, introducimos nuevos conjuntos de datos, incluido SVG-Stack, un conjunto de datos a gran escala de ejemplos de SVG del mundo real, y lo utilizamos para preentrenar StarVector como un modelo base de gran escala para SVG. Nuestros resultados demuestran mejoras significativas en la calidad visual y el manejo de la complejidad en comparación con los métodos actuales, marcando un avance notable en la tecnología de generación de SVG. Código y modelos: https://github.com/joanrod/star-vector.
La reconstrucción de estructuras 3D y cámaras a partir de puntos de referencia 2D es fundamental en toda la disciplina de la visión por computadora. Los métodos tradicionales se han limitado a objetos rígidos específicos, como los presentes en problemas de Perspectiva-n-Punto (PnP), pero el aprendizaje profundo ha ampliado nuestra capacidad para reconstruir una amplia gama de clases de objetos (por ejemplo, C3PDO y PAUL) con resistencia al ruido, oclusiones y distorsiones de perspectiva. Sin embargo, todas estas técnicas se han visto limitadas por la necesidad fundamental de establecer correspondencias en los datos de entrenamiento 3D, lo que restringe significativamente su utilidad a aplicaciones donde se dispone de una abundancia de datos 3D "en correspondencia". Nuestro enfoque aprovecha la equvarianza a permutaciones inherente de los transformadores para manejar un número variable de puntos por instancia de datos 3D, resistir oclusiones y generalizar a categorías no vistas. Demostramos un rendimiento de vanguardia en los puntos de referencia de tareas de reconstrucción 2D-3D. Dado que nuestro enfoque puede entrenarse en una clase tan amplia de estructuras, lo denominamos simplemente como un Modelo Fundacional de Reconstrucción 3D (3D-LFM, por sus siglas en inglés), el primero de su tipo.
La capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para procesar entradas visuales ha dado lugar a sistemas de visión de propósito general, unificando diversas tareas de visión y lenguaje (VL) mediante el ajuste por instrucciones. Sin embargo, debido a la enorme diversidad en los formatos de entrada y salida en el dominio de la visión, los modelos de propósito general existentes no logran integrar con éxito la segmentación y las entradas de múltiples imágenes con tareas de nivel grueso en un único marco. En este trabajo, presentamos VistaLLM, un potente sistema visual que aborda tareas VL tanto de nivel grueso como fino sobre imágenes individuales y múltiples utilizando un marco unificado. VistaLLM utiliza un tokenizador de imágenes guiado por instrucciones que filtra las incrustaciones globales utilizando descripciones de tareas para extraer características comprimidas y refinadas de numerosas imágenes. Además, VistaLLM emplea una técnica de muestreo adaptativo sensible al gradiente para representar máscaras de segmentación binaria como secuencias, mejorando significativamente sobre el muestreo uniforme utilizado anteriormente. Para fortalecer la capacidad deseada de VistaLLM, hemos creado CoinIt, un conjunto de datos integral de ajuste por instrucciones de nivel grueso a fino con 6.8 millones de muestras. También abordamos la falta de conjuntos de datos de anclaje de múltiples imágenes introduciendo una nueva tarea, AttCoSeg (Co-Segmentación a Nivel de Atributos), que mejora la capacidad de razonamiento y anclaje del modelo sobre múltiples imágenes de entrada. Experimentos exhaustivos en una amplia gama de tareas V y VL demuestran la efectividad de VistaLLM al lograr un rendimiento consistente y de vanguardia sobre líneas base sólidas en todas las tareas posteriores. Nuestra página del proyecto se puede encontrar en https://shramanpramanick.github.io/VistaLLM/.
Presentamos HAAR, un nuevo modelo generativo basado en hebras para peinados humanos en 3D. Específicamente, a partir de entradas textuales, HAAR produce peinados 3D que podrían utilizarse como recursos de nivel de producción en motores gráficos modernos. Los modelos generativos actuales basados en IA aprovechan potentes priors 2D para reconstruir contenido 3D en forma de nubes de puntos, mallas o funciones volumétricas. Sin embargo, al utilizar estos priors 2D, están intrínsecamente limitados a recuperar únicamente las partes visibles. Las estructuras de cabello altamente ocluidas no pueden reconstruirse con estos métodos, y solo modelan la "capa exterior", que no está lista para usarse en pipelines de renderizado o simulación basados en física. En contraste, proponemos un primer método generativo guiado por texto que utiliza hebras de cabello 3D como representación subyacente. Aprovechando sistemas de respuesta visual a preguntas (VQA) en 2D, anotamos automáticamente modelos sintéticos de cabello generados a partir de un pequeño conjunto de peinados creados por artistas. Esto nos permite entrenar un modelo de difusión latente que opera en un espacio UV común de peinados. En estudios cualitativos y cuantitativos, demostramos las capacidades del modelo propuesto y lo comparamos con enfoques existentes de generación de peinados.
La percepción amodal, la capacidad de comprender estructuras completas de objetos a partir de una visibilidad parcial, es una habilidad fundamental, incluso para los bebés. Su importancia se extiende a aplicaciones como la conducción autónoma, donde es esencial una comprensión clara de objetos fuertemente ocluidos. Sin embargo, los algoritmos modernos de detección y seguimiento a menudo pasan por alto esta capacidad crítica, quizás debido a la prevalencia de anotaciones modales en la mayoría de los conjuntos de datos. Para abordar la escasez de datos amodales, presentamos el benchmark TAO-Amodal, que incluye 880 categorías diversas en miles de secuencias de video. Nuestro conjunto de datos contiene cajas delimitadoras amodales y modales para objetos visibles y ocluidos, incluyendo objetos que están parcialmente fuera del cuadro. Para mejorar el seguimiento amodal con permanencia de objetos, utilizamos un módulo complementario ligero, el expansor amodal, para transformar rastreadores modales estándar en amodales mediante ajuste fino en unos cientos de secuencias de video con aumento de datos. Logramos una mejora del 3.3% y 1.6% en la detección y seguimiento de objetos ocluidos en TAO-Amodal. Al evaluar en personas, nuestro método produce mejoras dramáticas de 2x en comparación con los baselines modales de última generación.
Neural Radiance Field (NeRF) ha surgido como una técnica líder para la síntesis de nuevas vistas, gracias a su impresionante capacidad de reconstrucción y renderizado fotorrealista. Sin embargo, lograr el renderizado en tiempo real de NeRF en escenas a gran escala ha presentado desafíos, lo que a menudo ha llevado a la adopción de representaciones de mallas complejas con un número sustancial de triángulos o a un costoso trazado de rayos en representaciones precalculadas. Cuestionamos estas convenciones, observando que una geometría de alta calidad, representada por mallas con un gran número de triángulos, no es necesaria para alcanzar una calidad de renderizado fotorrealista. En consecuencia, proponemos MixRT, una nueva representación de NeRF que incluye una malla de baja calidad, un mapa de desplazamiento dependiente de la vista y un modelo de NeRF comprimido. Este diseño aprovecha eficazmente las capacidades del hardware gráfico existente, permitiendo así el renderizado en tiempo real de NeRF en dispositivos de borde. Utilizando un marco de renderizado altamente optimizado basado en WebGL, nuestro MixRT propuesto alcanza velocidades de renderizado en tiempo real en dispositivos de borde (más de 30 FPS a una resolución de 1280 x 720 en un portátil MacBook M1 Pro), una mejor calidad de renderizado (0.2 PSNR más alto en escenas interiores de los conjuntos de datos Unbounded-360) y un tamaño de almacenamiento más reducido (menos del 80% en comparación con los métodos más avanzados).
Las técnicas de super-resolución (SR) se han propuesto recientemente para aumentar la escala de las salidas de los campos de radiancia neural (NeRF) y generar imágenes de alta calidad con velocidades de inferencia mejoradas. Sin embargo, los métodos existentes de NeRF+SR incrementan la sobrecarga de entrenamiento al utilizar características de entrada adicionales, funciones de pérdida y/o procedimientos de entrenamiento costosos como la destilación de conocimiento. En este artículo, buscamos aprovechar la SR para obtener ganancias de eficiencia sin costosos cambios en el entrenamiento o la arquitectura. Específicamente, construimos una canalización simple de NeRF+SR que combina directamente módulos existentes, y proponemos una técnica de aumento ligera, el muestreo aleatorio de parches, para el entrenamiento. En comparación con los métodos existentes de NeRF+SR, nuestra canalización mitiga la sobrecarga computacional de la SR y puede entrenarse hasta 23 veces más rápido, lo que la hace factible de ejecutar en dispositivos de consumo como el Apple MacBook. Los experimentos muestran que nuestra canalización puede aumentar la escala de las salidas de NeRF de 2 a 4 veces manteniendo una alta calidad, incrementando las velocidades de inferencia hasta 18 veces en una GPU NVIDIA V100 y 12.8 veces en un chip M1 Pro. Concluimos que la SR puede ser una técnica simple pero efectiva para mejorar la eficiencia de los modelos NeRF en dispositivos de consumo.
En este artículo, presentamos un enfoque novedoso de dos etapas que aprovecha al máximo la información proporcionada por la imagen de referencia para establecer un conocimiento previo personalizado en la generación de imagen a 3D. Mientras que los enfoques anteriores dependen principalmente de un prior de difusión general, que tiene dificultades para producir resultados consistentes con la imagen de referencia, proponemos un modelo de difusión específico para el sujeto y multimodal. Este modelo no solo ayuda a la optimización de NeRF al considerar el modo de sombreado para mejorar la geometría, sino que también refina la textura a partir de los resultados iniciales para lograr un acabado superior. Ambos aspectos contribuyen a alinear fielmente el contenido 3D con el sujeto. Experimentos exhaustivos demuestran la superioridad de nuestro método, Customize-It-3D, superando a trabajos anteriores por un margen considerable. Produce reconstrucciones fieles de 360 grados con una calidad visual impresionante, lo que lo hace adecuado para diversas aplicaciones, incluida la creación de texto a 3D.
Los videos son una fuente de datos altamente redundante y, a menudo, es suficiente identificar unos pocos momentos clave para resolver cualquier tarea dada. En este artículo, presentamos un módulo de remuestreo de video condicionado por texto (TCR, por sus siglas en inglés) que utiliza un codificador visual preentrenado y congelado, junto con un modelo de lenguaje grande (LLM, por sus siglas en inglés), para procesar secuencias de video largas para una tarea. TCR localiza características visuales relevantes del video dado un condicionamiento de texto y las proporciona a un LLM para generar una respuesta en texto. Debido a su diseño ligero y al uso de atención cruzada, TCR puede procesar más de 100 fotogramas a la vez, lo que permite al modelo utilizar fragmentos de video mucho más largos que en trabajos anteriores. Hacemos las siguientes contribuciones: (i) diseñamos una arquitectura de muestreo basada en transformadores que puede procesar videos largos condicionados a una tarea, junto con un método de entrenamiento que le permite conectar modelos visuales y de lenguaje preentrenados; (ii) validamos empíricamente su eficacia en una amplia variedad de tareas de evaluación y establecemos un nuevo estado del arte en NextQA, EgoSchema y el desafío EGO4D-LTA; y (iii) determinamos tareas que requieren contextos de video más largos y que, por lo tanto, pueden utilizarse de manera efectiva para una evaluación adicional de modelos de video de largo alcance.
Los modelos de difusión impulsados por texto han ganado popularidad creciente en diversas tareas de edición de imágenes, como la restauración de áreas dañadas, la estilización y el reemplazo de objetos. Sin embargo, sigue siendo un problema de investigación abierto adaptar este paradigma de lenguaje-visión para tareas de procesamiento de imágenes más detalladas, como la eliminación de ruido, la superresolución, la corrección de desenfoques y la eliminación de artefactos de compresión. En este artículo, desarrollamos TIP, un marco de Procesamiento de Imágenes Impulsado por Texto que aprovecha el lenguaje natural como una interfaz amigable para controlar el proceso de restauración de imágenes. Consideramos la capacidad de la información textual en dos dimensiones. Primero, utilizamos indicaciones relacionadas con el contenido para mejorar la alineación semántica, mitigando efectivamente la ambigüedad de identidad en los resultados de restauración. Segundo, nuestro enfoque es el primer marco que admite instrucciones detalladas mediante la especificación cuantitativa basada en lenguaje de la intensidad de restauración, sin necesidad de un diseño explícito específico para cada tarea. Además, introducimos un novedoso mecanismo de fusión que mejora la arquitectura existente de ControlNet al aprender a reescalar el prior generativo, logrando así una mejor fidelidad en la restauración. Nuestros extensos experimentos demuestran el rendimiento superior de TIP en comparación con los métodos más avanzados, junto con la flexibilidad de control basado en texto sobre los efectos de restauración.
Este artículo presenta un enfoque novedoso para el modelado de temas utilizando codebooks latentes de un Autoencoder Variacional Cuantizado Vectorial (VQ-VAE), encapsulando discretamente la rica información de los embeddings preentrenados, como los de un modelo de lenguaje preentrenado. A partir de una nueva interpretación de los codebooks latentes y los embeddings como una bolsa de palabras conceptual, proponemos un nuevo modelo generativo de temas llamado Topic-VQ-VAE (TVQ-VAE), que genera inversamente los documentos originales relacionados con el codebook latente respectivo. El TVQ-VAE puede visualizar los temas con diversas distribuciones generativas, incluyendo la distribución tradicional de bolsa de palabras (BoW) y la generación autoregresiva de imágenes. Nuestros resultados experimentales en análisis de documentos y generación de imágenes demuestran que el TVQ-VAE captura efectivamente el contexto temático, revelando las estructuras subyacentes del conjunto de datos y permitiendo formas flexibles de generación de documentos. La implementación oficial del TVQ-VAE propuesto está disponible en https://github.com/clovaai/TVQ-VAE.