Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo aborda un desafío significativo que enfrentan los Transformers de Visión (ViTs): su escalabilidad limitada en diferentes resoluciones de imagen. Por lo general, los ViTs experimentan una disminución en el rendimiento al procesar resoluciones diferentes a las vistas durante el entrenamiento. Nuestro trabajo introduce dos innovaciones clave para abordar este problema. En primer lugar, proponemos un nuevo módulo para el ajuste dinámico de resolución, diseñado con un solo bloque Transformer, específicamente para lograr una integración incremental de tokens altamente eficiente. En segundo lugar, introducimos la codificación posicional difusa en el Transformer de Visión para proporcionar una conciencia posicional consistente en múltiples resoluciones, evitando así el sobreajuste a cualquier resolución de entrenamiento específica. Nuestro modelo resultante, ViTAR (Vision Transformer con Cualquier Resolución), demuestra una impresionante adaptabilidad, alcanzando un 83.3\% de precisión top-1 en una resolución de 1120x1120 y un 80.4\% de precisión en una resolución de 4032x4032, todo ello reduciendo los costos computacionales. ViTAR también muestra un fuerte rendimiento en tareas posteriores como la segmentación de instancias y semántica, y puede combinarse fácilmente con técnicas de aprendizaje autosupervisado como el AutoEncoder Enmascarado. Nuestro trabajo proporciona una solución rentable para mejorar la escalabilidad de resolución de los ViTs, allanando el camino para un procesamiento de imágenes de alta resolución más versátil y eficiente.
En este trabajo, presentamos Mini-Gemini, un marco simple y efectivo que mejora los Modelos de Lenguaje Visual (VLMs) multimodales. A pesar de los avances en los VLMs que facilitan el diálogo visual básico y el razonamiento, persiste una brecha de rendimiento en comparación con modelos avanzados como GPT-4 y Gemini. Intentamos reducir esta brecha explotando el potencial de los VLMs para un mejor rendimiento y un flujo de trabajo de cualquier-a-cualquier desde tres aspectos: tokens visuales de alta resolución, datos de alta calidad y generación guiada por VLM. Para mejorar los tokens visuales, proponemos utilizar un codificador visual adicional para el refinamiento de alta resolución sin aumentar el número de tokens visuales. Además, construimos un conjunto de datos de alta calidad que promueve una comprensión precisa de las imágenes y una generación basada en el razonamiento, ampliando el alcance operativo de los VLMs actuales. En general, Mini-Gemini explota aún más el potencial de los VLMs y potencia los marcos actuales con comprensión de imágenes, razonamiento y generación simultáneamente. Mini-Gemini admite una serie de Modelos de Lenguaje de Gran Escala (LLMs) densos y MoE desde 2B hasta 34B. Se demuestra que logra un rendimiento líder en varios benchmarks de zero-shot e incluso supera a los modelos privados desarrollados. El código y los modelos están disponibles en https://github.com/dvlab-research/MiniGemini.
Los modelos de difusión han revolucionado la edición de imágenes, pero a menudo generan imágenes que violan las leyes físicas, particularmente los efectos de los objetos en la escena, como oclusiones, sombras y reflejos. Al analizar las limitaciones de los enfoques auto-supervisados, proponemos una solución práctica centrada en un conjunto de datos contrafactuales. Nuestro método implica capturar una escena antes y después de eliminar un solo objeto, minimizando otros cambios. Al ajustar un modelo de difusión en este conjunto de datos, logramos no solo eliminar objetos, sino también sus efectos en la escena. Sin embargo, descubrimos que aplicar este enfoque para la inserción fotorealista de objetos requiere un conjunto de datos impracticablemente grande. Para abordar este desafío, proponemos supervisión por bootstrap; aprovechando nuestro modelo de eliminación de objetos entrenado en un pequeño conjunto de datos contrafactuales, expandimos sintéticamente este conjunto de datos de manera considerable. Nuestro enfoque supera significativamente los métodos anteriores en la eliminación e inserción fotorealista de objetos, particularmente en la modelización de los efectos de los objetos en la escena.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen generar contenido que contiene errores factuales al responder a solicitudes de búsqueda de hechos sobre temas de carácter abierto. Para evaluar la factualidad a largo plazo de un modelo en dominios abiertos, primero utilizamos GPT-4 para generar LongFact, un conjunto de preguntas que abarca miles de cuestiones en 38 temas. Luego, proponemos que los agentes basados en LLMs pueden utilizarse como evaluadores automatizados de la factualidad en formato extenso mediante un método que denominamos Evaluador de Factualidad Aumentado por Búsqueda (SAFE, por sus siglas en inglés). SAFE emplea un LLM para descomponer una respuesta extensa en un conjunto de hechos individuales y evaluar la precisión de cada hecho mediante un proceso de razonamiento de múltiples pasos que incluye enviar consultas de búsqueda a Google Search y determinar si un hecho está respaldado por los resultados de la búsqueda. Además, proponemos extender la puntuación F1 como una métrica agregada para la factualidad en formato extenso. Para ello, equilibramos el porcentaje de hechos respaldados en una respuesta (precisión) con el porcentaje de hechos proporcionados en relación con un hiperparámetro que representa la longitud de respuesta preferida por el usuario (recall). Empíricamente, demostramos que los agentes basados en LLMs pueden alcanzar un rendimiento de evaluación superior al humano: en un conjunto de ~16k hechos individuales, SAFE coincide con anotadores humanos reclutados mediante crowdsourcing el 72% de las veces, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% de las veces. Al mismo tiempo, SAFE es más de 20 veces más económico que los anotadores humanos. También evaluamos trece modelos de lenguaje en LongFact, abarcando cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2), y encontramos que los modelos de lenguaje más grandes generalmente logran una mejor factualidad en formato extenso. LongFact, SAFE y todo el código experimental están disponibles en https://github.com/google-deepmind/long-form-factuality.
Presentamos Garment3DGen, un nuevo método para sintetizar activos de prendas 3D a partir de una malla base utilizando una única imagen de entrada como guía. Nuestro enfoque propuesto permite a los usuarios generar prendas 3D texturizadas basadas tanto en imágenes reales como sintéticas, como aquellas generadas mediante indicaciones de texto. Los activos generados pueden ser directamente drapeados y simulados sobre cuerpos humanos. Primero, aprovechamos los avances recientes en métodos de difusión de imagen a 3D para generar geometrías de prendas en 3D. Sin embargo, dado que estas geometrías no pueden utilizarse directamente para tareas posteriores, proponemos utilizarlas como pseudo-verdad de referencia y establecer un procedimiento de optimización de deformación de mallas que deforma una malla base para que coincida con el objetivo 3D generado. En segundo lugar, introducimos funciones de pérdida cuidadosamente diseñadas que permiten que la malla base de entrada se deforme libremente hacia el objetivo deseado, pero preserven la calidad y la topología de la malla para que puedan ser simuladas. Finalmente, un módulo de estimación de texturas genera mapas de textura de alta fidelidad que son global y localmente consistentes y capturan fielmente la guía de entrada, lo que nos permite renderizar los activos 3D generados. Con Garment3DGen, los usuarios pueden generar la prenda 3D texturizada de su elección sin necesidad de intervención artística. Uno puede proporcionar una indicación textual que describa la prenda que desea generar para obtener un activo 3D listo para simulación. Presentamos una gran cantidad de comparaciones cuantitativas y cualitativas en varios activos, tanto reales como generados, y proporcionamos casos de uso sobre cómo se pueden generar prendas 3D listas para simulación.
Modelos como GPT-4 y Med-PaLM 2 han demostrado un rendimiento impresionante en una amplia variedad de tareas de procesamiento de lenguaje natural (PLN) biomédico. Sin embargo, estos modelos tienen cientos de miles de millones de parámetros, son computacionalmente costosos de ejecutar, requieren que los usuarios envíen sus datos de entrada a través de internet y están entrenados con fuentes de datos desconocidas. ¿Pueden los modelos más pequeños y específicos competir? Para abordar esta pregunta, construimos y publicamos BioMedLM, un modelo autoregresivo estilo GPT con 2.7 mil millones de parámetros, entrenado exclusivamente con resúmenes y artículos completos de PubMed. Cuando se ajusta, BioMedLM puede producir resultados sólidos en tareas de preguntas y respuestas de opción múltiple en biomedicina, compitiendo con modelos mucho más grandes, como lograr un puntaje de 57.3% en MedMCQA (dev) y 69.0% en el examen de Genética Médica de MMLU. BioMedLM también puede ajustarse para generar respuestas útiles a preguntas de pacientes sobre temas médicos. Esto demuestra que los modelos más pequeños pueden servir potencialmente como bases transparentes, respetuosas con la privacidad, económicas y ecológicas para aplicaciones específicas de PLN, como en biomedicina. El modelo está disponible en el Hugging Face Hub: https://huggingface.co/stanford-crfm/BioMedLM.
Abordamos el desafío de reconstruir eficientemente un activo 3D a partir de una sola imagen, ante la creciente demanda de pipelines automatizados para la creación de contenido 3D. Los métodos anteriores se basan principalmente en Score Distillation Sampling (SDS) y Neural Radiance Fields (NeRF). A pesar de su éxito significativo, estos enfoques enfrentan limitaciones prácticas debido a la optimización prolongada y al uso considerable de memoria. En este informe, presentamos Gamba, un modelo de reconstrucción 3D amortizado de extremo a extremo a partir de imágenes de vista única, destacando dos ideas principales: (1) Representación 3D: aprovechar un gran número de Gaussianas 3D para un proceso eficiente de splatting con Gaussianas 3D; (2) Diseño de la arquitectura: introducir una red secuencial basada en Mamba que facilita el razonamiento dependiente del contexto y la escalabilidad lineal con la longitud de la secuencia (tokens), permitiendo manejar un número sustancial de Gaussianas. Gamba incorpora avances significativos en el preprocesamiento de datos, diseño de regularización y metodologías de entrenamiento. Evaluamos Gamba frente a enfoques existentes de generación 3D basados en optimización y de avance directo utilizando el conjunto de datos OmniObject3D escaneado del mundo real. Aquí, Gamba demuestra capacidades de generación competitivas, tanto cualitativa como cuantitativamente, mientras logra una velocidad notable, aproximadamente 0.6 segundos en una sola GPU NVIDIA A100.
En este artículo presentamos EgoLifter, un sistema novedoso que puede segmentar automáticamente escenas capturadas por sensores egocéntricos en una descomposición completa de objetos 3D individuales. El sistema está específicamente diseñado para datos egocéntricos donde las escenas contienen cientos de objetos capturados a partir de movimientos naturales (no de escaneo). EgoLifter adopta gaussianas 3D como representación subyacente de escenas y objetos 3D, y utiliza máscaras de segmentación del modelo Segment Anything Model (SAM) como supervisión débil para aprender definiciones flexibles y prompteras de instancias de objetos, libres de cualquier taxonomía de objetos específica. Para abordar el desafío de los objetos dinámicos en videos egocéntricos, diseñamos un módulo de predicción transitoria que aprende a filtrar objetos dinámicos en la reconstrucción 3D. El resultado es una pipeline completamente automática capaz de reconstruir instancias de objetos 3D como colecciones de gaussianas 3D que componen colectivamente toda la escena. Creamos un nuevo benchmark en el conjunto de datos Aria Digital Twin que demuestra cuantitativamente su rendimiento de vanguardia en la segmentación 3D de mundo abierto a partir de entradas egocéntricas naturales. Ejecutamos EgoLifter en varios conjuntos de datos de actividades egocéntricas, lo que muestra el potencial del método para la percepción egocéntrica 3D a gran escala.
Nuestro trabajo aborda las limitaciones observadas en enfoques previos para problemas de edición centrados en objetos, como resultados poco realistas debido a discrepancias en la forma y control limitado en el reemplazo o inserción de objetos. Para ello, presentamos FlexEdit, un marco de edición flexible y controlable para objetos donde ajustamos iterativamente los latentes en cada paso de eliminación de ruido utilizando nuestro bloque FlexEdit. Inicialmente, optimizamos los latentes en tiempo de prueba para alinearlos con las restricciones de objetos especificadas. Luego, nuestro marco emplea una máscara adaptativa, extraída automáticamente durante la eliminación de ruido, para proteger el fondo mientras integramos de manera fluida nuevo contenido en la imagen objetivo. Demostramos la versatilidad de FlexEdit en diversas tareas de edición de objetos y creamos un conjunto de pruebas de evaluación con muestras de imágenes tanto reales como sintéticas, junto con métricas de evaluación novedosas diseñadas para la edición centrada en objetos. Realizamos experimentos extensos en diferentes escenarios de edición, demostrando la superioridad de nuestro marco de edición sobre métodos avanzados recientes de edición de imágenes guiados por texto. Nuestra página del proyecto está publicada en https://flex-edit.github.io/.
Los Modelos de Lenguaje basados en Redes Neuronales (NNLMs) para Asistentes Virtuales (VAs) suelen ser dependientes del idioma, la región y, en algunos casos, del dispositivo, lo que incrementa el esfuerzo para escalarlos y mantenerlos. Combinar NNLMs para una o más de estas categorías es una forma de mejorar la escalabilidad. En este trabajo, combinamos variantes regionales del inglés para construir un NNLM de "Inglés Global" para VAs en dispositivos. En particular, investigamos la aplicación de cuellos de botella adaptadores para modelar características específicas de dialectos en nuestros NNLMs de producción existentes {y mejorar las líneas base multi-dialecto}. Descubrimos que los módulos adaptadores son más efectivos para modelar dialectos que especializar subredes completas. Basándonos en esta idea y aprovechando el diseño de nuestros modelos de producción, introducimos una nueva arquitectura para el NNLM de Inglés Global que cumple con las restricciones de precisión, latencia y memoria de nuestros modelos de un solo dialecto.