Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) son útiles en muchas tareas de procesamiento de lenguaje natural (NLP) y se vuelven más capaces a medida que aumentan de tamaño, con los mejores modelos de código abierto superando los 50 mil millones de parámetros. Sin embargo, utilizar estos modelos de 50B+ requiere hardware de alta gama, lo que los hace inaccesibles para la mayoría de los investigadores. En este trabajo, investigamos métodos para la inferencia y el ajuste fino de LLMs de manera eficiente en términos de costos, comparando estrategias locales y distribuidas. Observamos que un modelo lo suficientemente grande (50B+) puede ejecutarse eficientemente incluso en dispositivos geodistribuidos en una red de nivel consumidor. Esto podría permitir ejecutar LLMs de manera eficiente al agrupar recursos de computación inactivos de múltiples grupos de investigación y voluntarios. Abordamos dos problemas abiertos: (1) cómo realizar inferencia y ajuste fino de manera confiable si cualquier dispositivo puede desconectarse abruptamente y (2) cómo particionar LLMs entre dispositivos con hardware desigual, uniéndose y abandonando a voluntad. Para lograrlo, desarrollamos algoritmos especiales de inferencia tolerante a fallos y protocolos de balanceo de carga que asignan automáticamente dispositivos para maximizar el rendimiento total del sistema. Mostramos estos algoritmos en Petals, un sistema descentralizado que ejecuta Llama 2 (70B) y BLOOM (176B) a través de Internet hasta 10 veces más rápido que la descarga para generación interactiva. Evaluamos el rendimiento de nuestro sistema en condiciones simuladas y en una configuración del mundo real que abarca dos continentes.
Los métodos existentes de segmentación de imágenes de vocabulario abierto requieren un paso de ajuste fino en anotaciones de máscaras y/o conjuntos de datos de imagen-texto. Las etiquetas de máscaras son intensivas en mano de obra, lo que limita el número de categorías en los conjuntos de datos de segmentación. Como resultado, la capacidad de vocabulario abierto de los modelos de lenguaje visual (VLMs) preentrenados se reduce severamente después del ajuste fino. Sin embargo, sin ajuste fino, los VLMs entrenados bajo una supervisión débil de imagen-texto tienden a hacer predicciones de máscaras subóptimas cuando hay consultas de texto que se refieren a conceptos inexistentes en la imagen. Para mitigar estos problemas, introducimos un marco recurrente novedoso que filtra progresivamente textos irrelevantes y mejora la calidad de las máscaras sin esfuerzos de entrenamiento. La unidad recurrente es un segmentador de dos etapas construido sobre un VLM con pesos congelados. Por lo tanto, nuestro modelo conserva el amplio espacio de vocabulario del VLM y fortalece su capacidad de segmentación. Los resultados experimentales muestran que nuestro método supera no solo a las contrapartes sin entrenamiento, sino también a aquellas ajustadas con millones de muestras de datos adicionales, y establece nuevos récords de última generación tanto para las tareas de segmentación semántica de cero disparo como para la segmentación de imágenes referenciales. Específicamente, mejoramos el récord actual en 28.8, 16.0 y 6.9 mIoU en Pascal VOC, COCO Object y Pascal Context.
Los entornos simulados en 3D desempeñan un papel crucial en la Inteligencia Artificial Embebida (Embodied AI), pero su creación requiere experiencia y un esfuerzo manual extenso, lo que limita su diversidad y alcance. Para mitigar esta limitación, presentamos Holodeck, un sistema que genera entornos en 3D que coinciden con una indicación proporcionada por el usuario de manera completamente automatizada. Holodeck puede generar escenas diversas, como salas de juegos, spas y museos, ajustar los diseños según estilos y capturar la semántica de consultas complejas como "apartamento para un investigador con un gato" y "oficina de un profesor fanático de Star Wars". Holodeck aprovecha un modelo de lenguaje grande (GPT-4) para obtener conocimiento de sentido común sobre cómo podría verse la escena y utiliza una amplia colección de recursos 3D de Objaverse para poblar la escena con objetos diversos. Para abordar el desafío de posicionar los objetos correctamente, solicitamos a GPT-4 que genere restricciones de relaciones espaciales entre los objetos y luego optimizamos el diseño para satisfacer esas restricciones. Nuestra evaluación humana a gran escala muestra que los anotadores prefieren Holodeck sobre líneas base procedimentales diseñadas manualmente en escenas residenciales, y que Holodeck puede producir resultados de alta calidad para diversos tipos de escenas. También demostramos una aplicación emocionante de Holodeck en Embodied AI, entrenando agentes para navegar en escenas novedosas como salas de música y guarderías sin datos construidos por humanos, lo que representa un avance significativo en el desarrollo de agentes embebidos de propósito general.
Este trabajo tiene como objetivo mejorar la eficiencia de los modelos de difusión de texto a imagen. Si bien los modelos de difusión utilizan operaciones de eliminación de ruido basadas en UNet que son computacionalmente costosas en cada paso de generación, identificamos que no todas las operaciones son igualmente relevantes para la calidad final de la salida. En particular, observamos que las capas de UNet que operan en mapas de características de alta resolución son relativamente sensibles a pequeñas perturbaciones. En contraste, los mapas de características de baja resolución influyen en la disposición semántica de la imagen final y a menudo pueden ser perturbados sin cambios perceptibles en la salida. Basándonos en esta observación, proponemos Clockwork Diffusion, un método que reutiliza periódicamente cálculos de pasos previos de eliminación de ruido para aproximar mapas de características de baja resolución en uno o más pasos posteriores. Para múltiples líneas base, y tanto para la generación de texto a imagen como para la edición de imágenes, demostramos que Clockwork logra puntajes perceptuales comparables o mejorados con una complejidad computacional drásticamente reducida. Como ejemplo, para Stable Diffusion v1.5 con 8 pasos de DPM++, ahorramos un 32% de FLOPs con cambios insignificantes en FID y CLIP.
Presentamos FoundationPose, un modelo fundacional unificado para la estimación y seguimiento de la pose 6D de objetos, compatible tanto con configuraciones basadas en modelos como libres de modelos. Nuestro enfoque puede aplicarse instantáneamente en tiempo de prueba a un objeto nuevo sin necesidad de ajuste fino, siempre que se proporcione su modelo CAD o se capture un pequeño número de imágenes de referencia. Cerramos la brecha entre estas dos configuraciones mediante una representación implícita neuronal que permite una síntesis efectiva de nuevas vistas, manteniendo los módulos de estimación de pose invariantes bajo el mismo marco unificado. Se logra una fuerte generalizabilidad mediante entrenamiento sintético a gran escala, asistido por un modelo de lenguaje grande (LLM), una arquitectura novedosa basada en transformadores y una formulación de aprendizaje contrastivo. Una evaluación extensa en múltiples conjuntos de datos públicos que involucran escenarios y objetos desafiantes indica que nuestro enfoque unificado supera ampliamente a los métodos existentes especializados para cada tarea. Además, incluso alcanza resultados comparables a los métodos a nivel de instancia a pesar de las suposiciones reducidas. Página del proyecto: https://nvlabs.github.io/FoundationPose/
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan desafíos al resolver problemas matemáticos complejos que requieren capacidades integrales para analizar los enunciados, asociar conocimientos del dominio, realizar razonamientos lógicos compuestos e integrar las racionalidades intermedias. Abordar todos estos problemas de una vez puede ser arduo para los LLMs, lo que lleva a confusiones en la generación. En este trabajo, exploramos el potencial de mejorar los LLMs mediante agentes a través de una descomposición y modelado meticuloso del proceso de razonamiento matemático. Específicamente, proponemos una descripción formal de la resolución matemática y extendemos los LLMs con un marco de trabajo de cero disparos basado en agentes llamado Planner-Reasoner-Executor-Reflector (PRER). Además, proporcionamos e implementamos dos MathAgents que definen las formas lógicas y las relaciones inherentes a través de un conjunto de acciones en diferentes niveles y orientaciones: MathAgent-M adapta sus acciones a los LLMs, mientras que MathAgent-H se alinea con la humanidad. Los experimentos en miniF2F y MATH han demostrado la efectividad de PRER y los MathAgents propuestos, logrando un aumento del 12.3% (53.9% a 66.2%) en miniF2F, 9.2% (49.8% a 59.0%) en MATH, y 13.2% (23.2% a 35.4%) para problemas de nivel 5 de MATH en comparación con GPT-4. Los resultados analíticos adicionales proporcionan perspectivas más profundas sobre la explotación de los comportamientos de los LLMs como agentes.
El descubrimiento de la racionalidad se define como la búsqueda de un subconjunto de los datos de entrada que maximice el soporte para la predicción de tareas posteriores. En el contexto del aprendizaje automático en grafos, la racionalidad del grafo se define como la localización del subgrafo crítico dentro de la topología del grafo dado, el cual determina fundamentalmente los resultados de la predicción. En contraste con el subgrafo de racionalidad, el subgrafo restante se denomina subgrafo de entorno. La racionalización de grafos puede mejorar el rendimiento del modelo, ya que se asume que la relación entre el grafo de racionalidad y la etiqueta de predicción es invariante. Para garantizar el poder discriminativo de los subgrafos de racionalidad extraídos, se aplica una técnica clave llamada "intervención". La idea central de la intervención es que, ante cualquier cambio en los subgrafos de entorno, la semántica del subgrafo de racionalidad permanece invariante, lo que asegura el resultado correcto de la predicción. Sin embargo, la mayoría, si no todos, de los trabajos existentes sobre racionalización en datos de grafos desarrollan sus estrategias de intervención a nivel de grafo, lo cual es de grano grueso. En este artículo, proponemos estrategias de intervención bien adaptadas para datos de grafos. Nuestra idea está impulsada por el desarrollo de modelos Transformer, cuyo módulo de autoatención proporciona interacciones ricas entre los nodos de entrada. Basándonos en el módulo de autoatención, nuestro Transformer de grafos invariante (IGT, por sus siglas en inglés) puede lograr intervenciones de grano fino, más específicamente, a nivel de nodo y a nivel de nodo virtual. Nuestros experimentos exhaustivos involucran 7 conjuntos de datos del mundo real, y el IGT propuesto muestra ventajas significativas en rendimiento en comparación con 13 métodos de referencia.
Los avances recientes en renderizado neuronal han demostrado que, aunque lentos, los modelos compactos implícitos pueden aprender las geometrías de una escena y las apariencias dependientes de la vista a partir de múltiples perspectivas. Para mantener una huella de memoria tan pequeña pero lograr tiempos de inferencia más rápidos, trabajos recientes han adoptado redes `sampler' que muestrean de manera adaptativa un subconjunto pequeño de puntos a lo largo de cada rayo en los campos de radiancia neural implícitos. Aunque estos métodos logran una reducción de hasta 10 veces en el tiempo de renderizado, todavía sufren una degradación considerable en la calidad en comparación con el NeRF convencional. En contraste, proponemos ProNeRF, que ofrece un equilibrio óptimo entre huella de memoria (similar a NeRF), velocidad (más rápido que HyperReel) y calidad (mejor que K-Planes). ProNeRF está equipado con una novedosa red de muestreo consciente de la proyección (PAS, por sus siglas en inglés) junto con una nueva estrategia de entrenamiento para la exploración y explotación de rayos, permitiendo un muestreo eficiente de partículas a nivel fino. Nuestro ProNeRF obtiene métricas de vanguardia, siendo 15-23 veces más rápido con un PSNR 0.65 dB más alto que NeRF y logrando un PSNR 0.95 dB más alto que el mejor método basado en sampler publicado, HyperReel. Nuestra estrategia de entrenamiento de exploración y explotación permite a ProNeRF aprender las distribuciones de color y densidad de las escenas completas, mientras también aprende un muestreo eficiente de rayos enfocado en las regiones de mayor densidad. Proporcionamos resultados experimentales extensos que respaldan la efectividad de nuestro método en los conjuntos de datos ampliamente adoptados de vistas frontales y 360 grados, LLFF y Blender, respectivamente.