Artículos de investigación en IA seleccionados diariamente con traducciones
El preentrenamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en grandes corpus de datos textuales es ahora un paradigma estándar. Al utilizar estos LLMs para muchas aplicaciones posteriores, es común incorporar adicionalmente nuevos conocimientos (por ejemplo, noticias de actualidad o conocimiento específico de un dominio) en el modelo preentrenado, ya sea mediante técnicas basadas en RAG (Retrieval-Augmented Generation) o mediante ajuste fino (fine-tuning). Sin embargo, la metodología óptima para que el modelo adquiera dichos conocimientos sigue siendo una pregunta abierta. En este artículo, presentamos Retrieval Augmented FineTuning (RAFT), una receta de entrenamiento que mejora la capacidad del modelo para responder preguntas en entornos de "libro abierto" dentro de un dominio específico. En RAFT, dada una pregunta y un conjunto de documentos recuperados, entrenamos al modelo para ignorar aquellos documentos que no ayudan a responder la pregunta, a los que llamamos documentos distractores. RAFT logra esto citando textualmente la secuencia correcta del documento relevante que ayudaría a responder la pregunta. Esto, junto con la respuesta estilo cadena de pensamiento (chain-of-thought) de RAFT, mejora la capacidad del modelo para razonar. En RAG específico de dominio, RAFT mejora consistentemente el rendimiento del modelo en los conjuntos de datos PubMed, HotpotQA y Gorilla, presentando una receta posterior al entrenamiento para mejorar LLMs preentrenados en RAG dentro de un dominio. El código y la demostración de RAFT están disponibles en github.com/ShishirPatil/gorilla.
En la investigación científica y su aplicación, el análisis de la literatura científica es crucial, ya que permite a los investigadores construir sobre el trabajo de otros. Sin embargo, el rápido crecimiento del conocimiento científico ha llevado a un aumento masivo de artículos académicos, haciendo que el análisis profundo de la literatura sea cada vez más desafiante y consumidor de tiempo. La aparición de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha ofrecido una nueva forma de abordar este desafío. Conocidos por su capacidad para resumir textos, los LLMs son vistos como una herramienta potencial para mejorar el análisis de la literatura científica. No obstante, los LLMs existentes tienen sus propias limitaciones. La literatura científica a menudo incluye una amplia gama de elementos multimodales, como estructuras moleculares, tablas y gráficos, que son difíciles de entender y analizar para los LLMs centrados en texto. Este problema señala la necesidad urgente de nuevas soluciones que puedan comprender y analizar completamente el contenido multimodal en la literatura científica. Para responder a esta demanda, presentamos Uni-SMART (Transformador Universal de Análisis e Investigación Multimodal en Ciencia), un modelo innovador diseñado para la comprensión profunda de la literatura científica multimodal. A través de una evaluación cuantitativa rigurosa en varios dominios, Uni-SMART demuestra un rendimiento superior en comparación con los principales LLMs centrados en texto. Además, nuestra exploración se extiende a aplicaciones prácticas, incluyendo la detección de infracciones de patentes y el análisis detallado de gráficos. Estas aplicaciones no solo resaltan la adaptabilidad de Uni-SMART, sino también su potencial para revolucionar la forma en que interactuamos con la literatura científica.
La comprensión de videos de larga duración representa un desafío significativo dentro de la visión por computadora, ya que requiere un modelo capaz de razonar sobre secuencias multimodales extensas. Inspirados por el proceso cognitivo humano para la comprensión de videos de larga duración, enfatizamos el razonamiento interactivo y la planificación sobre la capacidad de procesar entradas visuales extensas. Introducimos un sistema novedoso basado en agentes, VideoAgent, que emplea un modelo de lenguaje grande como agente central para identificar y compilar de manera iterativa información crucial para responder a una pregunta, utilizando modelos fundamentales de visión y lenguaje como herramientas para traducir y recuperar información visual. Evaluado en los desafiantes benchmarks EgoSchema y NExT-QA, VideoAgent alcanza un 54.1% y un 71.3% de precisión en zero-shot, utilizando en promedio solo 8.4 y 8.2 frames respectivamente. Estos resultados demuestran la superior efectividad y eficiencia de nuestro método frente a los métodos más avanzados actuales, destacando el potencial de los enfoques basados en agentes para avanzar en la comprensión de videos de larga duración.
La alineación de los modelos de lenguaje grandes generalmente la realizan los proveedores de modelos para agregar o controlar comportamientos que son comunes o universalmente comprendidos en diversos casos de uso y contextos. En contraste, en este artículo presentamos un enfoque y una arquitectura que permite a los desarrolladores de aplicaciones ajustar un modelo a sus valores particulares, normas sociales, leyes y otras regulaciones, y orquestar entre requisitos potencialmente conflictivos en contexto. Describimos tres componentes principales de dicha arquitectura de Estudio de Alineación: Enmarcadores, Instructores y Auditores, que trabajan en conjunto para controlar el comportamiento de un modelo de lenguaje. Ilustramos este enfoque con un ejemplo continuo de alineación de un chatbot empresarial interno de una compañía con sus pautas de conducta empresarial.
En este artículo, presentamos un enfoque mejorado de decodificación especulativa destinado a mejorar la eficiencia en el servicio de modelos de lenguaje grandes. Nuestro método aprovecha las fortalezas de dos técnicas establecidas: el enfoque clásico de decodificación especulativa con dos modelos y el enfoque más reciente de un solo modelo, Medusa. Inspirándonos en Medusa, nuestro enfoque adopta una estrategia de un solo modelo para la decodificación especulativa. Sin embargo, nuestro método se distingue al emplear una única cabeza de borrador ligera con un diseño de dependencia recurrente, similar en esencia al uso de un modelo de borrador pequeño en la decodificación especulativa clásica, pero sin las complejidades de la arquitectura completa de transformadores. Y debido a la dependencia recurrente, podemos utilizar búsqueda por haz para filtrar rápidamente candidatos no deseados con la cabeza de borrador. El resultado es un método que combina la simplicidad del diseño de un solo modelo y evita la necesidad de crear una estructura de atención en árbol dependiente de datos solo para la inferencia en Medusa. Demostramos empíricamente la efectividad del método propuesto en varios modelos de lenguaje de código abierto populares, junto con un análisis exhaustivo de las compensaciones involucradas al adoptar este enfoque.
Los modelos de generación de audio y música basados en difusión suelen generar música construyendo una representación en forma de imagen del audio (por ejemplo, un mel-espectrograma) y luego convirtiéndolo en audio utilizando un modelo de reconstrucción de fase o un vocoder. Sin embargo, los vocoders típicos producen audio monofónico en resoluciones más bajas (por ejemplo, 16-24 kHz), lo que limita su efectividad. Proponemos MusicHiFi, un vocoder estereofónico de alta fidelidad y eficiente. Nuestro método emplea una cascada de tres redes generativas adversarias (GANs) que convierten mel-espectrogramas de baja resolución en audio, aumentan la resolución a audio de alta calidad mediante expansión de ancho de banda y convierten el audio a formato estereofónico. En comparación con trabajos anteriores, proponemos 1) una arquitectura unificada de generador y discriminador basada en GANs, junto con un procedimiento de entrenamiento para cada etapa de nuestra cascada, 2) un nuevo módulo de extensión de ancho de banda rápido y casi compatible con el submuestreo, y 3) un nuevo mezclador mono a estéreo rápido y compatible con el downmix que asegura la preservación del contenido monofónico en la salida. Evaluamos nuestro enfoque utilizando pruebas de escucha tanto objetivas como subjetivas y encontramos que nuestro método produce una calidad de audio comparable o superior, un mejor control de espacialización y una velocidad de inferencia significativamente más rápida en comparación con trabajos anteriores. Los ejemplos de sonido están disponibles en https://MusicHiFi.github.io/web/.
Reconstruir objetos 3D detallados a partir de imágenes de una sola vista sigue siendo una tarea desafiante debido a la información limitada disponible. En este artículo, presentamos FDGaussian, un marco novedoso de dos etapas para la reconstrucción 3D a partir de una sola imagen. Los métodos recientes suelen utilizar modelos de difusión 2D preentrenados para generar vistas novedosas plausibles a partir de la imagen de entrada, pero se enfrentan a problemas de inconsistencia multivista o falta de fidelidad geométrica. Para superar estos desafíos, proponemos un mecanismo de descomposición en planos ortogonales para extraer características geométricas 3D a partir de la entrada 2D, lo que permite la generación de imágenes multivista consistentes. Además, aceleramos el estado del arte en Gaussian Splatting incorporando atención epipolar para fusionar imágenes desde diferentes puntos de vista. Demostramos que FDGaussian genera imágenes con alta consistencia entre diferentes vistas y reconstruye objetos 3D de alta calidad, tanto cualitativa como cuantitativamente. Más ejemplos pueden encontrarse en nuestro sitio web https://qjfeng.net/FDGaussian/.
Los esfuerzos previos en el desarrollo de modelos ligeros se centraron principalmente en diseños basados en CNN y Transformers, pero enfrentaron desafíos persistentes. Las CNN, hábiles en la extracción de características locales, comprometen la resolución, mientras que los Transformers ofrecen alcance global pero aumentan las demandas computacionales O(N^2). Este equilibrio continuo entre precisión y eficiencia sigue siendo un obstáculo significativo. Recientemente, los modelos de espacio de estados (SSMs), como Mamba, han mostrado un rendimiento excepcional y competitividad en diversas tareas, como el modelado de lenguaje y la visión por computadora, al reducir la complejidad temporal de la extracción de información global a O(N). Inspirados por esto, este trabajo propone explorar el potencial de los modelos de espacio de estados visuales en el diseño de modelos ligeros e introduce una nueva variante eficiente denominada EfficientVMamba. Concretamente, nuestro EfficientVMamba integra un enfoque de escaneo selectivo basado en atrous mediante muestreo eficiente de saltos, constituyendo bloques diseñados para aprovechar tanto las características de representación global como local. Además, investigamos la integración entre bloques SSM y convoluciones, e introducimos un bloque eficiente de espacio de estados visuales combinado con una rama adicional de convolución, lo que eleva aún más el rendimiento del modelo. Los resultados experimentales muestran que EfficientVMamba reduce la complejidad computacional mientras ofrece resultados competitivos en una variedad de tareas de visión. Por ejemplo, nuestro EfficientVMamba-S con 1.3G FLOPs supera a Vim-Ti con 1.5G FLOPs por un amplio margen de 5.6% de precisión en ImageNet. El código está disponible en: https://github.com/TerryPei/EfficientVMamba.
Impulsados por la creciente disponibilidad de modelos de difusión 2D preentrenados, la generación de imágenes a 3D mediante el uso de Score Distillation Sampling (SDS) está logrando avances notables. La mayoría de los métodos existentes combinan la elevación de nuevas vistas a partir de modelos de difusión 2D, que suelen tomar la imagen de referencia como condición, mientras aplican una supervisión estricta L2 en la vista de referencia. Sin embargo, adherirse demasiado a la imagen tiende a corromper el conocimiento inductivo del modelo de difusión 2D, lo que frecuentemente resulta en generaciones 3D planas o distorsionadas. En este trabajo, reexaminamos la generación de imágenes a 3D desde una nueva perspectiva y presentamos Isotropic3D, una pipeline de generación de imágenes a 3D que toma únicamente un embedding CLIP de imagen como entrada. Isotropic3D permite que la optimización sea isotrópica con respecto al ángulo azimutal al basarse únicamente en la pérdida SDS. El núcleo de nuestro marco radica en un ajuste fino del modelo de difusión en dos etapas. En primer lugar, ajustamos un modelo de difusión de texto a 3D sustituyendo su codificador de texto por un codificador de imágenes, con lo cual el modelo adquiere preliminarmente capacidades de imagen a imagen. En segundo lugar, realizamos un ajuste fino utilizando nuestro Explicit Multi-view Attention (EMA), que combina imágenes multivista ruidosas con la imagen de referencia libre de ruido como una condición explícita. El embedding CLIP se envía al modelo de difusión durante todo el proceso, mientras que las imágenes de referencia se descartan una vez finalizado el ajuste fino. Como resultado, con un solo embedding CLIP de imagen, Isotropic3D es capaz de generar imágenes multivista mutuamente consistentes y también un modelo 3D con contenido más simétrico y ordenado, geometría bien proporcionada, textura rica en color y menos distorsión en comparación con los métodos existentes de imagen a 3D, al mismo tiempo que preserva en gran medida la similitud con la imagen de referencia. La página del proyecto está disponible en https://isotropic3d.github.io/. El código y los modelos están disponibles en https://github.com/pkunliu/Isotropic3D.
Si bien las tareas de generación de texto-a-3D e imagen-a-3D han recibido considerable atención, un campo importante pero poco explorado entre ellas es la generación controlada de texto-a-3D, en la cual nos enfocamos principalmente en este trabajo. Para abordar esta tarea, 1) presentamos Multi-view ControlNet (MVControl), una novedosa arquitectura de red neuronal diseñada para mejorar los modelos de difusión multi-vista preentrenados existentes mediante la integración de condiciones de entrada adicionales, como mapas de bordes, profundidad, normales y garabatos. Nuestra innovación radica en la introducción de un módulo de condicionamiento que controla el modelo de difusión base utilizando tanto incrustaciones locales como globales, las cuales se calculan a partir de las imágenes de condición de entrada y las poses de la cámara. Una vez entrenado, MVControl es capaz de ofrecer guía de difusión 3D para la generación de 3D basada en optimización. Y, 2) proponemos una canalización eficiente de generación 3D en múltiples etapas que aprovecha los beneficios de los modelos recientes de reconstrucción a gran escala y el algoritmo de destilación de puntuación. Basándonos en nuestra arquitectura MVControl, empleamos un método único de guía de difusión híbrida para dirigir el proceso de optimización. En busca de la eficiencia, adoptamos Gaussianas 3D como nuestra representación en lugar de las representaciones implícitas comúnmente utilizadas. También somos pioneros en el uso de SuGaR, una representación híbrida que vincula Gaussianas a las caras de triángulos de malla. Este enfoque mitiga el problema de la geometría deficiente en las Gaussianas 3D y permite el esculpido directo de geometría de grano fino en la malla. Experimentos extensos demuestran que nuestro método logra una generalización robusta y permite la generación controlada de contenido 3D de alta calidad.
La estimación de flujo óptico de alta precisión en tiempo real es un componente crucial en diversas aplicaciones, incluyendo la localización y mapeo en robótica, el seguimiento de objetos y el reconocimiento de actividades en visión por computadora. Si bien los métodos recientes de flujo óptico basados en aprendizaje han logrado una alta precisión, a menudo conllevan costos computacionales elevados. En este artículo, proponemos una arquitectura de flujo óptico altamente eficiente, denominada NeuFlow, que aborda tanto la alta precisión como los costos computacionales. La arquitectura sigue un esquema de global a local. Dadas las características de las imágenes de entrada extraídas a diferentes resoluciones espaciales, se emplea un emparejamiento global para estimar un flujo óptico inicial en la resolución 1/16, capturando grandes desplazamientos, el cual luego se refina en la resolución 1/8 con capas CNN ligeras para una mayor precisión. Evaluamos nuestro enfoque en Jetson Orin Nano y RTX 2080 para demostrar mejoras en eficiencia en diferentes plataformas de computación. Logramos una notable aceleración de 10x a 80x en comparación con varios métodos de vanguardia, manteniendo una precisión comparable. Nuestro enfoque alcanza alrededor de 30 FPS en plataformas de computación de borde, lo que representa un avance significativo en la implementación de tareas complejas de visión por computadora, como SLAM, en pequeños robots como drones. El código completo de entrenamiento y evaluación está disponible en https://github.com/neufieldrobotics/NeuFlow.