Artículos de investigación en IA seleccionados diariamente con traducciones
La optimización de instrucciones ha sido ampliamente adoptada para asegurar que los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) sigan las instrucciones de los usuarios de manera efectiva. Las capacidades resultantes de seguir instrucciones de los LLMs dependen en gran medida de los conjuntos de datos de instrucciones utilizados para la optimización. Recientemente, han surgido conjuntos de datos de instrucciones sintéticas como una solución económicamente viable para proporcionar a los LLMs instrucciones diversas y de alta calidad. Sin embargo, los enfoques existentes suelen asumir que los modelos más grandes o más fuertes son mejores maestros para la optimización de instrucciones, y por lo tanto simplemente adoptan estos modelos como generadores de respuestas a las instrucciones sintéticas. En este artículo, desafiamos esta suposición comúnmente adoptada. Nuestros extensos experimentos con cinco modelos base y veinte generadores de respuestas revelan que los modelos más grandes y más fuertes no son necesariamente mejores maestros para los modelos más pequeños. Nos referimos a este fenómeno como la Paradoja de los Modelos Más Grandes. Observamos que las métricas existentes no pueden predecir con precisión la efectividad de los generadores de respuestas ya que ignoran la compatibilidad entre los maestros y los modelos base que se están ajustando finamente. Por lo tanto, desarrollamos una métrica novedosa, denominada Recompensa Ajustada por Compatibilidad (CAR, por sus siglas en inglés) para medir la efectividad de los generadores de respuestas. Nuestros experimentos con cinco modelos base demuestran que CAR supera casi todos los valores de referencia.
Presentamos JanusFlow, un marco poderoso que unifica la comprensión y generación de imágenes en un solo modelo. JanusFlow introduce una arquitectura minimalista que integra modelos de lenguaje autoregresivos con flujo rectificado, un método de vanguardia en modelado generativo. Nuestro hallazgo clave demuestra que el flujo rectificado puede ser entrenado de manera sencilla dentro del marco del gran modelo de lenguaje, eliminando la necesidad de modificaciones arquitectónicas complejas. Para mejorar aún más el rendimiento de nuestro modelo unificado, adoptamos dos estrategias clave: (i) desacoplar los codificadores de comprensión y generación, y (ii) alinear sus representaciones durante el entrenamiento unificado. Experimentos extensos muestran que JanusFlow logra un rendimiento comparable o superior a modelos especializados en sus respectivos dominios, mientras supera significativamente a enfoques unificados existentes en los benchmarks estándar. Este trabajo representa un paso hacia modelos visión-lenguaje más eficientes y versátiles.
La segmentación de partes en 3D es una tarea crucial y desafiante en la percepción 3D, desempeñando un papel vital en aplicaciones como la robótica, la generación en 3D y la edición en 3D. Métodos recientes aprovechan los potentes Modelos de Visión y Lenguaje (VLMs, por sus siglas en inglés) para la destilación de conocimiento de 2D a 3D, logrando la segmentación de partes en 3D sin entrenamiento previo. Sin embargo, estos métodos están limitados por su dependencia de indicaciones de texto, lo que restringe la escalabilidad a conjuntos de datos no etiquetados a gran escala y la flexibilidad para manejar ambigüedades en las partes. En este trabajo, presentamos SAMPart3D, un marco escalable de segmentación de partes en 3D sin entrenamiento previo que segmenta cualquier objeto en 3D en partes semánticas a múltiples niveles de granularidad, sin necesidad de conjuntos de etiquetas de partes predefinidas como indicaciones de texto. Para la escalabilidad, utilizamos modelos de visión fundamentales agnósticos al texto para destilar una columna vertebral de extracción de características en 3D, permitiendo la expansión a grandes conjuntos de datos en 3D no etiquetados para aprender prioridades en 3D detalladas. Para la flexibilidad, destilamos características en 3D conscientes de la escala y de las partes para la segmentación de partes en 3D a múltiples niveles de granularidad. Una vez que se obtienen las partes segmentadas a partir de las características en 3D conscientes de la escala y de las partes, utilizamos los VLMs para asignar etiquetas semánticas a cada parte basándonos en las representaciones de múltiples vistas. En comparación con los métodos anteriores, nuestro SAMPart3D puede expandirse al reciente conjunto de datos de objetos en 3D a gran escala, Objaverse, y manejar objetos complejos y no ordinarios. Además, contribuimos con un nuevo banco de pruebas de segmentación de partes en 3D para abordar la falta de diversidad y complejidad de objetos y partes en los bancos de pruebas existentes. Los experimentos muestran que nuestro SAMPart3D supera significativamente a los métodos existentes de segmentación de partes en 3D sin entrenamiento previo, y puede facilitar diversas aplicaciones como la edición a nivel de partes y la segmentación interactiva.
Presentamos BLIP3-KALE, un conjunto de datos de 218 millones de pares de imágenes y textos que cubre la brecha entre descripciones sintéticas de leyendas y textos alternativos factuales a escala web. KALE amplía las descripciones sintéticas densas de imágenes con textos alternativos a escala web para generar leyendas de imágenes fundamentadas en hechos. Nuestro enfoque de dos etapas aprovecha modelos grandes de visión-lenguaje y modelos de lenguaje para crear leyendas enriquecidas con conocimiento, las cuales luego se utilizan para entrenar un VLM especializado para escalar el conjunto de datos. Entrenamos modelos de visión-lenguaje en KALE y demostramos mejoras en tareas de visión-lenguaje. Nuestros experimentos muestran la utilidad de KALE para entrenar modelos multimodales más capaces y conocedores. Publicamos el conjunto de datos KALE en https://huggingface.co/datasets/Salesforce/blip3-kale.
En este artículo, argumentamos que la computación iterativa con modelos de difusión ofrece un paradigma poderoso no solo para la generación, sino también para tareas de percepción visual. Unificamos tareas como la estimación de profundidad, el flujo óptico y la segmentación bajo la traducción de imagen a imagen, y mostramos cómo los modelos de difusión se benefician del escalado del entrenamiento y del cálculo en tiempo de prueba para estas tareas de percepción. A través de un análisis cuidadoso de estos comportamientos de escalado, presentamos diversas técnicas para entrenar de manera eficiente modelos de difusión para tareas de percepción visual. Nuestros modelos logran un rendimiento mejorado o comparable a los métodos de vanguardia utilizando significativamente menos datos y cálculos. Para utilizar nuestro código y modelos, consulte https://scaling-diffusion-perception.github.io.
Los modelos generativos 3D a gran escala requieren recursos computacionales sustanciales pero a menudo no logran capturar detalles finos y geometrías complejas a altas resoluciones. Atribuimos esta limitación a la ineficiencia de las representaciones actuales, que carecen de la compacidad necesaria para modelar de manera efectiva los modelos generativos. Para abordar esto, presentamos un enfoque novedoso llamado Difusión Latente Wavelet, o WaLa, que codifica formas 3D en codificaciones latentes compactas basadas en wavelets. Específicamente, comprimimos un campo de distancias firmadas de 256^3 en una cuadrícula latente de 12^3 por 4, logrando una impresionante relación de compresión de 2427 veces con una pérdida mínima de detalle. Este alto nivel de compresión permite que nuestro método entrene eficientemente redes generativas a gran escala sin aumentar el tiempo de inferencia. Nuestros modelos, tanto condicionales como incondicionales, contienen aproximadamente mil millones de parámetros y generan con éxito formas 3D de alta calidad a una resolución de 256^3. Además, WaLa ofrece una inferencia rápida, produciendo formas en dos a cuatro segundos dependiendo de la condición, a pesar de la escala del modelo. Demostramos un rendimiento de vanguardia en múltiples conjuntos de datos, con mejoras significativas en la calidad de generación, diversidad y eficiencia computacional. Publicamos nuestro código y, hasta donde sabemos, liberamos los modelos generativos 3D preentrenados más grandes en diferentes modalidades.
La síntesis de audio realista que captura fenómenos acústicos precisos es esencial para crear experiencias inmersivas en realidad virtual y aumentada. Sintetizar el sonido recibido en cualquier posición depende de la estimación de la respuesta al impulso (RI), que caracteriza cómo se propaga el sonido en una escena a lo largo de diferentes trayectorias antes de llegar a la posición del oyente. En este artículo, presentamos el Renderizado de Volumen Acústico (AVR), un enfoque novedoso que adapta técnicas de renderizado de volumen para modelar respuestas al impulso acústico. Si bien el renderizado de volumen ha tenido éxito en modelar campos de radiación para imágenes y representaciones de escenas neuronales, las RIs presentan desafíos únicos como señales de series temporales. Para abordar estos desafíos, introducimos el renderizado de volumen en el dominio de frecuencia y utilizamos la integración esférica para ajustar las mediciones de la RI. Nuestro método construye un campo de respuesta al impulso que codifica inherentemente los principios de propagación de ondas y logra un rendimiento de vanguardia en la síntesis de respuestas al impulso para poses novedosas. Los experimentos muestran que AVR supera con creces a los métodos líderes actuales. Además, desarrollamos una plataforma de simulación acústica, AcoustiX, que proporciona simulaciones de RI más precisas y realistas que los simuladores existentes. El código para AVR y AcoustiX está disponible en https://zitonglan.github.io/avr.
Ahora es una práctica comercial común comprar acceso a la inferencia de grandes modelos de lenguaje (LLM, por sus siglas en inglés) en lugar de autohospedarse, debido a los significativos costos iniciales de infraestructura de hardware y energía. Sin embargo, como comprador, no existe un mecanismo para verificar la autenticidad del servicio anunciado, incluida la plataforma de hardware de servicio, por ejemplo, que realmente se esté utilizando un NVIDIA H100. Además, hay informes que sugieren que los proveedores de modelos pueden entregar modelos ligeramente diferentes a los anunciados, a menudo para hacerlos funcionar en hardware menos costoso. De esta manera, un cliente paga un precio premium por acceder a un modelo capaz en hardware más caro, pero termina siendo atendido por un modelo más barato (potencialmente menos capaz) en hardware más económico. En este documento presentamos la inferencia de plataforma de hardware y software (HSPI, por sus siglas en inglés) - un método para identificar la arquitectura subyacente y la pila de software de un modelo de aprendizaje automático (caja negra) basándose únicamente en su comportamiento de entrada-salida. Nuestro método aprovecha las diferencias inherentes de varias arquitecturas y compiladores para distinguir entre diferentes tipos y pilas de software. Al analizar los patrones numéricos en las salidas del modelo, proponemos un marco de clasificación capaz de identificar con precisión el hardware utilizado para la inferencia del modelo, así como la configuración de software subyacente. Nuestros hallazgos demuestran la viabilidad de inferir el tipo de hardware a partir de modelos de caja negra. Evaluamos HSPI frente a modelos servidos en diferentes hardware reales y encontramos que en un entorno de caja blanca podemos distinguir entre diferentes tipos con una precisión entre 83.9% y 100%. Incluso en un entorno de caja negra, logramos obtener resultados hasta tres veces más altos que la precisión de una suposición aleatoria.