Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos el escalado en profundidad (DUS, por sus siglas en inglés), una técnica novedosa para escalar de manera eficiente y efectiva modelos de lenguaje grandes (LLM) de forma sencilla. A diferencia de los enfoques de mezcla de expertos (MoE), DUS no requiere cambios complejos en el entrenamiento ni en la inferencia. Utilizando DUS, construimos SOLAR 10.7B, un modelo de lenguaje grande con 10.7 mil millones de parámetros, que demuestra un rendimiento superior en diversas tareas de procesamiento de lenguaje natural (NLP). Las evaluaciones comparativas muestran que SOLAR 10.7B supera a los LLM preentrenados de código abierto existentes, como Llama 2 y Mistral 7B. Además, presentamos SOLAR 10.7B-Instruct, una variante ajustada para capacidades de seguimiento de instrucciones, que supera a Mixtral-8x7B. SOLAR 10.7B está disponible públicamente bajo la licencia Apache 2.0, promoviendo un acceso amplio y su aplicación en el campo de los LLM.
Este artículo presenta 26 principios guía diseñados para optimizar el proceso de consulta y generación de instrucciones para modelos de lenguaje a gran escala. Nuestro objetivo es simplificar los conceptos fundamentales relacionados con la formulación de preguntas para diferentes escalas de modelos de lenguaje, examinar sus capacidades y mejorar la comprensión de los usuarios sobre el comportamiento de estos modelos al recibir diferentes instrucciones. Se llevaron a cabo experimentos exhaustivos en LLaMA-1/2 (7B, 13B y 70B) y GPT-3.5/4 para verificar la efectividad de los principios propuestos en el diseño de instrucciones y prompts. Esperamos que este trabajo sirva como una guía útil para los investigadores que trabajan en la generación de instrucciones para modelos de lenguaje a gran escala. La página del proyecto está disponible en https://github.com/VILA-Lab/ATLAS.
Existe una demanda creciente de personajes 3D personalizados y expresivos con el surgimiento de agentes de IA y el Metaverso, pero la creación de personajes 3D utilizando herramientas tradicionales de gráficos por computadora es una tarea compleja y que consume mucho tiempo. Para abordar estos desafíos, proponemos un marco de trabajo fácil de usar llamado Make-A-Character (Mach) para crear avatares 3D realistas a partir de descripciones textuales. El marco aprovecha el poder de los grandes modelos de lenguaje y visión para la comprensión de intenciones textuales y la generación de imágenes intermedias, seguido de una serie de módulos de percepción visual orientados al ser humano y generación 3D. Nuestro sistema ofrece un enfoque intuitivo para que los usuarios creen personajes 3D controlables, realistas y completamente realizados que cumplan con sus expectativas en menos de 2 minutos, al mismo tiempo que permite una fácil integración con las tuberías de gráficos por computadora existentes para una expresividad dinámica. Para obtener más información, visite la página del proyecto en https://human3daigc.github.io/MACH/.
Las tareas de segmentación de objetos basadas en referencias, específicamente la segmentación de imágenes por referencia (RIS), la segmentación de imágenes con pocos ejemplos (FSS), la segmentación de objetos en video por referencia (RVOS) y la segmentación de objetos en video (VOS), tienen como objetivo segmentar un objeto específico utilizando ya sea lenguaje o máscaras anotadas como referencias. A pesar de los avances significativos en cada campo respectivo, los métodos actuales están diseñados y desarrollados de manera específica para cada tarea, lo que dificulta la activación de capacidades multitarea para estas tareas. En este trabajo, ponemos fin a la situación fragmentada actual y proponemos UniRef++ para unificar las cuatro tareas de segmentación de objetos basadas en referencias con una única arquitectura. En el núcleo de nuestro enfoque se encuentra el módulo UniFusion propuesto, que realiza una fusión multidireccional para manejar diferentes tareas con respecto a sus referencias especificadas. Luego, se adopta una arquitectura unificada de Transformer para lograr la segmentación a nivel de instancia. Con estos diseños unificados, UniRef++ puede entrenarse conjuntamente en una amplia gama de benchmarks y puede completar de manera flexible múltiples tareas en tiempo de ejecución especificando las referencias correspondientes. Evaluamos nuestros modelos unificados en varios benchmarks. Los extensos resultados experimentales indican que nuestro UniRef++ propuesto alcanza un rendimiento de vanguardia en RIS y RVOS, y compite de manera competitiva en FSS y VOS con una red de parámetros compartidos. Además, demostramos que el módulo UniFusion propuesto podría incorporarse fácilmente en el modelo base avanzado actual SAM y obtener resultados satisfactorios con un ajuste eficiente de parámetros. Los códigos y modelos están disponibles en https://github.com/FoundationVision/UniRef.
El sector en rápida evolución de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se encuentra a la vanguardia de la integración del procesamiento lingüístico y visual en la inteligencia artificial. Este artículo presenta un estudio comparativo en profundidad de dos modelos pioneros: Gemini de Google y GPT-4V(isión) de OpenAI. Nuestro estudio implica una evaluación multifacética de ambos modelos en dimensiones clave como la Capacidad Visión-Lenguaje, la Interacción con Humanos, la Comprensión Temporal y las evaluaciones tanto en Cociente Intelectual como Emocional. El núcleo de nuestro análisis profundiza en las distintas habilidades de comprensión visual de cada modelo. Realizamos una serie de experimentos estructurados para evaluar su desempeño en diversos escenarios de aplicación industrial, ofreciendo una perspectiva integral sobre su utilidad práctica. No solo incluimos comparaciones directas de rendimiento, sino también ajustes en los prompts y escenarios para garantizar un análisis equilibrado y justo. Nuestros hallazgos iluminan las fortalezas y nichos únicos de ambos modelos. GPT-4V se distingue por su precisión y concisión en las respuestas, mientras que Gemini sobresale al proporcionar respuestas detalladas y expansivas acompañadas de imágenes y enlaces relevantes. Estas comprensiones no solo arrojan luz sobre los méritos comparativos de Gemini y GPT-4V, sino que también subrayan el panorama en evolución de los modelos fundamentales multimodales, allanando el camino para futuros avances en esta área. Después de la comparación, intentamos lograr mejores resultados combinando ambos modelos. Finalmente, nos gustaría expresar nuestro profundo agradecimiento a los equipos detrás de GPT-4V y Gemini por sus contribuciones pioneras en el campo. Nuestros agradecimientos también se extienden al análisis cualitativo exhaustivo presentado en 'Dawn' de Yang et al. Este trabajo, con su extensa colección de muestras de imágenes, prompts y resultados relacionados con GPT-4V, proporcionó una base fundamental para nuestro análisis.
El audio es una parte esencial de nuestra vida, pero su creación suele requerir experiencia y es un proceso que consume mucho tiempo. Las comunidades de investigación han logrado grandes avances durante el último año al mejorar el rendimiento de los modelos generativos de audio a gran escala para una sola modalidad (voz, sonido o música), mediante la adopción de modelos generativos más potentes y el escalado de datos. Sin embargo, estos modelos carecen de controlabilidad en varios aspectos: los modelos de generación de voz no pueden sintetizar estilos novedosos basados en descripciones textuales y tienen limitaciones en la cobertura de dominios, como entornos exteriores; los modelos de generación de sonido solo ofrecen un control de grano grueso basado en descripciones como "una persona hablando" y solo generan voces humanas ininteligibles. Este artículo presenta Audiobox, un modelo unificado basado en flow-matching que es capaz de generar diversas modalidades de audio. Diseñamos indicaciones basadas en descripciones y ejemplos para mejorar la controlabilidad y unificar los paradigmas de generación de voz y sonido. Permitimos que la transcripción, la voz y otros estilos de audio se controlen de manera independiente al generar voz. Para mejorar la generalización del modelo con etiquetas limitadas, adaptamos un objetivo de rellenado auto-supervisado para preentrenar con grandes cantidades de audio no etiquetado. Audiobox establece nuevos puntos de referencia en la generación de voz y sonido (0.745 de similitud en Librispeech para TTS zero-shot; 0.77 FAD en AudioCaps para texto a sonido) y desbloquea nuevos métodos para generar audio con estilos vocales y acústicos novedosos. Además, integramos Bespoke Solvers, que acelera la generación en más de 25 veces en comparación con el solucionador de EDO predeterminado para flow-matching, sin pérdida de rendimiento en varias tareas. Nuestra demostración está disponible en https://audiobox.metademolab.com/.
Los seres humanos viven en un mundo tridimensional y comúnmente utilizan el lenguaje natural para interactuar con una escena 3D. Modelar un campo de lenguaje 3D para soportar consultas de lenguaje abierto en 3D ha ganado creciente atención recientemente. Este artículo presenta LangSplat, que construye un campo de lenguaje 3D que permite consultas de vocabulario abierto precisas y eficientes dentro de espacios 3D. A diferencia de los métodos existentes que anclan los embeddings de lenguaje CLIP en un modelo NeRF, LangSplat avanza el campo al utilizar una colección de Gaussianas 3D, cada una codificando características de lenguaje destiladas de CLIP, para representar el campo de lenguaje. Al emplear una técnica de splatting basada en mosaicos para renderizar las características de lenguaje, evitamos el costoso proceso de renderizado inherente a NeRF. En lugar de aprender directamente los embeddings de CLIP, LangSplat primero entrena un autoencoder de lenguaje por escena y luego aprende características de lenguaje en el espacio latente específico de la escena, aliviando así las demandas sustanciales de memoria impuestas por el modelado explícito. Los métodos existentes luchan con campos de lenguaje 3D imprecisos y vagos, que no logran discernir límites claros entre objetos. Profundizamos en este problema y proponemos aprender semántica jerárquica utilizando SAM, eliminando así la necesidad de consultar extensamente el campo de lenguaje a varias escalas y la regularización de características DINO. Experimentos extensos en localización de objetos 3D de vocabulario abierto y segmentación semántica demuestran que LangSplat supera significativamente al método anterior más avanzado, LERF, por un amplio margen. Notablemente, LangSplat es extremadamente eficiente, logrando una aceleración de {\speed} veces en comparación con LERF a una resolución de 1440 por 1080. Recomendamos encarecidamente a los lectores ver nuestros resultados en video en https://langsplat.github.io.
La generación de texto a vídeo basada en difusión ha experimentado un progreso impresionante en el último año, pero aún se encuentra por detrás de la generación de texto a imagen. Una de las razones clave es la escala limitada de datos disponibles públicamente (por ejemplo, 10M pares de vídeo-texto en WebVid10M frente a 5B pares de imagen-texto en LAION), considerando el alto costo de la descripción de vídeos. En cambio, podría ser mucho más fácil recopilar clips sin etiquetar de plataformas de vídeo como YouTube. Motivados por esto, proponemos un nuevo marco de generación de texto a vídeo, denominado TF-T2V, que puede aprender directamente con vídeos sin texto. La lógica subyacente es separar el proceso de decodificación de texto del modelado temporal. Para ello, empleamos una rama de contenido y una rama de movimiento, que se optimizan conjuntamente con pesos compartidos. Siguiendo este enfoque, estudiamos el efecto de duplicar la escala del conjunto de entrenamiento (es decir, WebVid10M solo con vídeos) con algunos vídeos sin texto recopilados aleatoriamente, y nos alienta observar la mejora en el rendimiento (FID de 9.67 a 8.19 y FVD de 484 a 441), demostrando la escalabilidad de nuestro enfoque. También encontramos que nuestro modelo podría disfrutar de una ganancia sostenible en el rendimiento (FID de 8.19 a 7.64 y FVD de 441 a 366) después de reintroducir algunas etiquetas de texto para el entrenamiento. Finalmente, validamos la efectividad y generalizabilidad de nuestra ideología tanto en la generación nativa de texto a vídeo como en los paradigmas de síntesis de vídeo composicional. El código y los modelos estarán disponibles públicamente en https://tf-t2v.github.io/.
Los avances recientes en la generación 3D a partir de una sola imagen destacan la importancia de la coherencia multi-vista, aprovechando conocimientos previos en 3D de modelos de difusión a gran escala preentrenados con imágenes a escala de Internet. Sin embargo, el aspecto de la diversidad en vistas novedosas sigue siendo poco explorado en el panorama de investigación debido a la ambigüedad en la conversión de una imagen 2D en contenido 3D, donde pueden surgir numerosas formas potenciales. Aquí, nuestro objetivo es abordar esta brecha de investigación al considerar simultáneamente tanto la consistencia como la diversidad. No obstante, lograr un equilibrio entre estos dos aspectos representa un desafío considerable debido a sus inherentes compensaciones. Este trabajo presenta HarmonyView, una técnica de muestreo de difusión simple pero efectiva, capaz de descomponer dos aspectos intrincados en la generación 3D a partir de una sola imagen: consistencia y diversidad. Este enfoque abre el camino para una exploración más matizada de estas dos dimensiones críticas dentro del proceso de muestreo. Además, proponemos una nueva métrica de evaluación basada en los codificadores de imagen y texto de CLIP para evaluar de manera integral la diversidad de las vistas generadas, la cual se alinea estrechamente con los juicios de evaluadores humanos. En los experimentos, HarmonyView logra un equilibrio armonioso, demostrando un escenario de beneficio mutuo en consistencia y diversidad.
El uso generalizado de modelos de difusión comerciales y de código abierto (DMs) para la generación de imágenes a partir de texto ha impulsado la necesidad de mitigar riesgos para prevenir comportamientos no deseados. Los métodos existentes en el ámbito académico para la eliminación de conceptos se basan en ajustes finos de parámetros completos o especificaciones, lo que presenta los siguientes problemas: 1) Alteración en la generación hacia la erosión: La deriva de parámetros durante la eliminación del objetivo causa alteraciones y posibles deformaciones en todas las generaciones, incluso erosionando otros conceptos en diversos grados, lo cual es más evidente cuando se eliminan múltiples conceptos; 2) Incapacidad de transferencia e ineficiencia en el despliegue: La eliminación específica del modelo anterior dificulta la combinación flexible de conceptos y la transferencia sin entrenamiento hacia otros modelos, lo que resulta en un crecimiento lineal de costos a medida que aumentan los escenarios de despliegue. Para lograr una eliminación no invasiva, precisa, personalizable y transferible, basamos nuestro marco de eliminación en adaptadores unidimensionales para eliminar múltiples conceptos de la mayoría de los DMs de una vez en diversas aplicaciones de eliminación. La estructura SemiPermeable de concepto se inyecta como una Membrana (SPM) en cualquier DM para aprender la eliminación específica, y al mismo tiempo se mitiga eficazmente el fenómeno de alteración y erosión mediante una novedosa estrategia de ajuste fino de Anclaje Latente. Una vez obtenidas, las SPMs pueden combinarse de manera flexible y utilizarse en otros DMs sin necesidad de un reajuste específico, permitiendo una adaptación rápida y eficiente a diversos escenarios. Durante la generación, nuestro mecanismo de Transporte Facilitado regula dinámicamente la permeabilidad de cada SPM para responder a diferentes indicaciones de entrada, minimizando aún más el impacto en otros conceptos. Los resultados cuantitativos y cualitativos en aproximadamente 40 conceptos, 7 DMs y 4 aplicaciones de eliminación han demostrado la superioridad de las SPMs en la eliminación. Nuestro código y las SPMs preajustadas estarán disponibles en la página del proyecto https://lyumengyao.github.io/projects/spm.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben habilidades emergentes de aprendizaje en contexto a través de la ingeniería de prompts. Los avances recientes en modelos generativos a gran escala han ampliado aún más su uso en aplicaciones lingüísticas del mundo real. Sin embargo, el desafío crítico de mejorar la generalización y la factualidad de los LLMs en la comprensión del lenguaje natural y la respuesta a preguntas sigue siendo poco explorado. Mientras que investigaciones previas sobre el aprendizaje en contexto se han centrado en mejorar los modelos para adherirse a las instrucciones específicas y expectativas de calidad de los usuarios, y para evitar salidas no deseadas, poco o ningún trabajo ha explorado el uso de Modelos de Lenguaje Específicos de Tarea (SLMs, por sus siglas en inglés) ajustados finamente para mejorar el aprendizaje en contexto de los LLMs durante la etapa de inferencia. Nuestra contribución principal es el establecimiento de un marco simple pero efectivo que mejora la confiabilidad de los LLMs al: 1) generalizar datos fuera de distribución, 2) elucidar cómo los LLMs se benefician de modelos discriminativos, y 3) minimizar las alucinaciones en tareas generativas. Utilizando nuestro método propuesto de complemento, versiones mejoradas de Llama 2 y ChatGPT superan a sus versiones originales en términos de generalización y factualidad. Ofrecemos un conjunto completo de recursos, que incluyen 16 conjuntos de datos curados, prompts, puntos de control de modelos y salidas de LLMs en 9 tareas distintas. Nuestro análisis empírico arroja luz sobre las ventajas de incorporar modelos discriminativos en los LLMs y destaca el potencial de nuestra metodología para fomentar LLMs más confiables.
La reconstrucción del cuerpo humano a partir de vídeos de una sola vista desempeña un papel fundamental en el ámbito de la realidad virtual. Un escenario de aplicación común exige la reconstrucción rápida de humanos digitales 3D de alta fidelidad, al mismo tiempo que se garantiza la renderización e interacción en tiempo real. Los métodos existentes suelen tener dificultades para cumplir ambos requisitos. En este artículo, presentamos Human101, un marco novedoso capaz de generar reconstrucciones 3D dinámicas de alta fidelidad a partir de vídeos de 1 vista, entrenando Gaussianas 3D en 100 segundos y renderizando a más de 100 FPS. Nuestro método aprovecha las ventajas de la técnica de "Splatting" con Gaussianas 3D, que proporciona una representación explícita y eficiente de humanos en 3D. A diferencia de los enfoques basados en NeRF anteriores, Human101 aplica de manera ingeniosa un método de Animación Gaussiana Centrada en Humanos para deformar los parámetros de las Gaussianas 3D, mejorando así la velocidad de renderización (es decir, renderizando imágenes de 1024 píxeles de resolución a más de 60 FPS e imágenes de 512 píxeles a más de 100 FPS). Los resultados experimentales indican que nuestro enfoque supera ampliamente a los métodos actuales, alcanzando un aumento de hasta 10 veces en los fotogramas por segundo y ofreciendo una calidad de renderización comparable o superior. El código y las demostraciones estarán disponibles en https://github.com/longxiang-ai/Human101.