Artículos de investigación en IA seleccionados diariamente con traducciones
Este informe presenta una nueva familia de modelos multimodales, Gemini, que exhiben capacidades notables en la comprensión de imágenes, audio, video y texto. La familia Gemini consta de los tamaños Ultra, Pro y Nano, adecuados para aplicaciones que van desde tareas de razonamiento complejo hasta casos de uso con restricciones de memoria en dispositivos. La evaluación en una amplia gama de benchmarks muestra que nuestro modelo más capaz, Gemini Ultra, avanza el estado del arte en 30 de 32 de estos benchmarks, destacándose por ser el primer modelo en alcanzar un rendimiento comparable al de expertos humanos en el conocido benchmark de exámenes MMLU, y mejorando el estado del arte en cada uno de los 20 benchmarks multimodales que examinamos. Creemos que las nuevas capacidades de los modelos Gemini en razonamiento multimodal y comprensión del lenguaje permitirán una amplia variedad de casos de uso, y discutimos nuestro enfoque para implementarlos de manera responsable para los usuarios.
Presentamos VecFusion, una nueva arquitectura neuronal capaz de generar fuentes vectoriales con estructuras topológicas variables y posiciones precisas de puntos de control. Nuestro enfoque es un modelo de difusión en cascada que consta de un modelo de difusión raster seguido de un modelo de difusión vectorial. El modelo raster genera fuentes rasterizadas de baja resolución con información auxiliar de puntos de control, capturando el estilo global y la forma de la fuente, mientras que el modelo vectorial sintetiza fuentes vectoriales condicionadas por las fuentes raster de baja resolución de la primera etapa. Para sintetizar curvas largas y complejas, nuestro modelo de difusión vectorial utiliza una arquitectura transformer y una novedosa representación vectorial que permite modelar geometría vectorial diversa y predecir con precisión los puntos de control. Nuestros experimentos muestran que, en contraste con modelos generativos previos para gráficos vectoriales, nuestro nuevo modelo de difusión vectorial en cascada genera fuentes vectoriales de mayor calidad, con estructuras complejas y estilos diversos.
Los modelos de difusión de imágenes se han utilizado en diversas tareas, como la generación de imágenes a partir de texto y la síntesis de imágenes controlable. Investigaciones recientes han introducido métodos de ajuste que realizan modificaciones sutiles a los modelos originales, obteniendo resultados prometedores en adaptaciones específicas de modelos generativos de difusión fundamentales. En lugar de modificar la estructura principal del modelo de difusión, profundizamos en el papel de las conexiones de salto (skip connections) en U-Net y revelamos que las características jerárquicas que agregan información de larga distancia entre el codificador y el decodificador tienen un impacto significativo en el contenido y la calidad de la generación de imágenes. Basándonos en esta observación, proponemos un marco eficiente de ajuste generativo, denominado SCEdit, que integra y edita las conexiones de salto utilizando un módulo de ajuste ligero llamado SC-Tuner. Además, el marco propuesto permite una extensión directa a la síntesis de imágenes controlable mediante la inyección de diferentes condiciones con el Controllable SC-Tuner, simplificando y unificando el diseño de la red para entradas de múltiples condiciones. Nuestro SCEdit reduce sustancialmente los parámetros de entrenamiento, el uso de memoria y el costo computacional debido a sus ajustadores ligeros, con la propagación hacia atrás solo pasando a los bloques del decodificador. Experimentos exhaustivos realizados en tareas de generación de imágenes a partir de texto y síntesis de imágenes controlable demuestran la superioridad de nuestro método en términos de eficiencia y rendimiento. Página del proyecto: https://scedit.github.io/
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una notable competencia en capacidades de razonamiento y generación a nivel humano, lo que fomenta una extensa investigación sobre su aplicación en la resolución de problemas matemáticos. Sin embargo, el trabajo actual se ha centrado principalmente en problemas matemáticos basados en texto, con una investigación limitada en problemas que involucran información geométrica. Para abordar esta brecha, nuestro objetivo es capacitar a los LLMs para resolver problemas geométricos mediante la comprensión de entradas de imágenes. Primero, analizamos las limitaciones de los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) en esta área: tienen dificultades para comprender con precisión los elementos geométricos básicos y sus relaciones. Para superar estos desafíos, aprovechamos las características únicas de los problemas geométricos (como la forma lógica geométrica única y la escalabilidad geométrica) y la capacidad de los LLMs textuales para construir un conjunto de datos multimodal enriquecido basado en datos existentes. El conjunto de datos aumentado, Geo170K, contiene más de 170K pares de imagen-leyenda y pregunta-respuesta geométricos. Utilizando nuestro conjunto de datos Geo170K construido, desarrollamos G-LLaVA, que demuestra un rendimiento excepcional en la resolución de problemas geométricos, superando significativamente a GPT-4-V en el benchmark MathVista con solo 7B parámetros.
Los modelos recientes de generación de texto a imagen (T2I), como Stable Diffusion e Imagen, han logrado avances significativos en la creación de imágenes de alta resolución basadas en descripciones textuales. Sin embargo, muchas de las imágenes generadas aún presentan problemas como artefactos/implausibilidad, desalineación con las descripciones textuales y baja calidad estética. Inspirados por el éxito del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) en modelos de lenguaje grandes, trabajos previos recopilaron puntuaciones proporcionadas por humanos como retroalimentación sobre las imágenes generadas y entrenaron un modelo de recompensa para mejorar la generación T2I. En este artículo, enriquecemos la señal de retroalimentación mediante (i) la marcación de regiones de la imagen que son implausibles o están desalineadas con el texto, y (ii) la anotación de qué palabras en el texto están mal representadas o faltan en la imagen. Recopilamos esta retroalimentación humana detallada en 18K imágenes generadas y entrenamos un transformador multimodal para predecir automáticamente esta retroalimentación enriquecida. Demostramos que la retroalimentación humana enriquecida predicha puede aprovecharse para mejorar la generación de imágenes, por ejemplo, seleccionando datos de entrenamiento de alta calidad para ajustar y mejorar los modelos generativos, o creando máscaras con mapas de calor predichos para rellenar las regiones problemáticas. Notablemente, las mejoras se generalizan a modelos (Muse) más allá de aquellos utilizados para generar las imágenes sobre las cuales se recopilaron los datos de retroalimentación humana (variantes de Stable Diffusion).
El splatting gaussiano ha surgido como una poderosa representación 3D que aprovecha las ventajas de las representaciones 3D tanto explícitas (mallas) como implícitas (NeRF). En este artículo, buscamos utilizar el splatting gaussiano para generar avatares animables realistas a partir de descripciones textuales, abordando las limitaciones (por ejemplo, flexibilidad y eficiencia) impuestas por las representaciones basadas en mallas o NeRF. Sin embargo, una aplicación ingenua del splatting gaussiano no puede generar avatares animables de alta calidad y sufre de inestabilidad en el aprendizaje; además, no puede capturar geometrías finas de los avatares y a menudo resulta en partes del cuerpo degeneradas. Para abordar estos problemas, primero proponemos una representación 3D gaussiana basada en primitivas, donde los gaussianos se definen dentro de primitivas impulsadas por la pose para facilitar la animación. Segundo, para estabilizar y amortizar el aprendizaje de millones de gaussianos, proponemos utilizar campos implícitos neuronales para predecir los atributos gaussianos (por ejemplo, colores). Finalmente, para capturar geometrías finas de los avatares y extraer mallas detalladas, proponemos un nuevo enfoque de aprendizaje de mallas implícitas basado en SDF para gaussianos 3D que regulariza las geometrías subyacentes y extrae mallas texturizadas altamente detalladas. Nuestro método propuesto, GAvatar, permite la generación a gran escala de diversos avatares animables utilizando únicamente indicaciones de texto. GAvatar supera significativamente a los métodos existentes en términos de calidad tanto de apariencia como de geometría, y logra una renderización extremadamente rápida (100 fps) en resolución 1K.
Recientemente, la comprensión 3D ha ganado popularidad para facilitar que los agentes autónomos realicen decisiones más avanzadas. Sin embargo, los conjuntos de datos y métodos 3D existentes suelen estar limitados a tareas específicas. Por otro lado, los avances recientes en Modelos de Lenguaje de Gran Escala (LLMs) y Modelos de Lenguaje Multimodal (MLMs) han demostrado un rendimiento excepcional en tareas generales de lenguaje y procesamiento de imágenes. Por lo tanto, es interesante desbloquear el potencial de los MLMs para convertirse en generalistas 3D capaces de abordar una gama más amplia de tareas. No obstante, la investigación actual sobre MLMs se ha centrado menos en tareas 3D debido a la falta de conjuntos de datos a gran escala que sigan instrucciones en 3D. En este trabajo, presentamos un conjunto de datos integral de seguimiento de instrucciones en 3D llamado M3DBench, que posee las siguientes características: 1) Admite instrucciones multimodales generales intercaladas con texto, imágenes, objetos 3D y otros estímulos visuales. 2) Unifica diversas tareas 3D tanto a nivel de región como de escena, cubriendo una variedad de habilidades fundamentales en entornos 3D del mundo real. 3) Es un conjunto de datos de seguimiento de instrucciones en 3D a gran escala con más de 320k pares de instrucción-respuesta. Además, establecemos un nuevo punto de referencia para evaluar el rendimiento de modelos grandes en la comprensión de estímulos multimodales en 3D. Experimentos extensos demuestran la efectividad de nuestro conjunto de datos y línea base, respaldando tareas generales centradas en 3D, lo que puede inspirar investigaciones futuras.
El creciente interés hacia los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), como GPT-4V(isión) de OpenAI, ha marcado una tendencia significativa tanto en el ámbito académico como en la industria. Estos modelos dotan a los Modelos de Lenguaje de Gran Escala (LLMs) de capacidades avanzadas en comprensión visual, permitiéndoles abordar diversas tareas multimodales. Recientemente, Google lanzó Gemini, su MLLM más nuevo y potente, diseñado desde cero para la multimodalidad. Dadas sus superiores capacidades de razonamiento, ¿puede Gemini desafiar la posición líder de GPT-4V en el aprendizaje multimodal? En este artículo, presentamos una exploración preliminar de la competencia de Gemini Pro en comprensión visual, que abarca de manera integral cuatro dominios: percepción básica, cognición avanzada, tareas visuales desafiantes y diversas capacidades expertas. Comparamos Gemini Pro con el estado del arte GPT-4V para evaluar sus límites superiores, junto con el MLLM de código abierto más reciente, Sphinx, lo que revela la brecha entre los esfuerzos manuales y los sistemas de caja negra. Las muestras cualitativas indican que, aunque GPT-4V y Gemini muestran estilos y preferencias de respuesta diferentes, pueden exhibir capacidades de razonamiento visual comparables, mientras que Sphinx aún se queda atrás en cuanto a la generalización de dominios. Específicamente, GPT-4V tiende a elaborar explicaciones detalladas y pasos intermedios, mientras que Gemini prefiere ofrecer respuestas directas y concisas. La evaluación cuantitativa en el popular benchmark MME también demuestra el potencial de Gemini para ser un fuerte competidor de GPT-4V. Nuestra investigación temprana sobre Gemini también observa algunos problemas comunes de los MLLMs, lo que indica que aún queda un camino considerable hacia la inteligencia artificial general. Nuestro proyecto para seguir el progreso de los MLLMs está disponible en https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
La narración visual a menudo utiliza imágenes con relaciones de aspecto atípicas, como pinturas en rollo, tiras cómicas y panoramas, para crear una narrativa expresiva y cautivadora. Si bien la IA generativa ha logrado un gran éxito y ha demostrado el potencial de transformar la industria creativa, sigue siendo un desafío generar contenido coherente y atractivo con un tamaño arbitrario y un estilo, concepto y diseño controlables, todos los cuales son esenciales para la narración visual. Para superar las limitaciones de métodos anteriores, como contenido repetitivo, inconsistencia de estilo y falta de controlabilidad, proponemos MagicScroll, un marco de generación de imágenes basado en difusión progresiva y multicapa con un novedoso proceso de eliminación de ruido semánticamente consciente. El modelo permite un control detallado sobre la imagen generada a nivel de objetos, escenas y fondos, utilizando condiciones de texto, imagen y diseño. También establecemos el primer punto de referencia para la generación de imágenes con relaciones de aspecto atípicas en la narración visual, incluyendo medios como pinturas, cómics y panoramas cinematográficos, con métricas personalizadas para una evaluación sistemática. A través de estudios comparativos y de ablación, MagicScroll muestra resultados prometedores en la alineación con el texto narrativo, la mejora de la coherencia visual y la capacidad de captar la atención del público. Planeamos liberar el código y el punto de referencia con la esperanza de fomentar una mejor colaboración entre investigadores de IA y profesionales creativos involucrados en la narración visual.
Los modelos de lenguaje (LM, por sus siglas en inglés) suelen reportar perplejidad sobre datos monolíticos reservados para evaluación, separados del entrenamiento. Implícita o explícitamente, estos datos están compuestos por dominiosx2013distribuciones variadas del lenguaje. En lugar de asumir que la perplejidad en una distribución se extrapola a otras, el Análisis de Perplejidad para la Evaluación de Modelos de Lenguaje (Paloma) mide el ajuste de los LM a 585 dominios de texto, que van desde nytimes.com hasta r/depression en Reddit. Invitamos a presentar propuestas a nuestro benchmark y organizamos los resultados según su comparabilidad, basándonos en el cumplimiento de pautas como la eliminación de la contaminación del benchmark durante el preentrenamiento. Las propuestas también pueden registrar el número de parámetros y tokens de entrenamiento para permitir comparaciones de eficiencia de Pareto en función de estas medidas de costo. Hemos poblado nuestro benchmark con resultados de 6 modelos base preentrenados en corpus populares. En estudios de caso, demostramos análisis posibles con Paloma, como descubrir que el preentrenamiento sin datos más allá de Common Crawl conduce a un ajuste inconsistente en muchos dominios.
Los enfoques recientes de edición de imágenes basados en difusión han demostrado capacidades impresionantes en imágenes con composiciones simples. Sin embargo, la edición localizada en escenarios complejos no ha sido bien estudiada en la literatura, a pesar de sus crecientes demandas en el mundo real. Los métodos existentes de inpainting basados en máscaras no logran retener la estructura subyacente dentro de la región editada. Mientras tanto, los métodos basados en atención sin máscara a menudo presentan fugas de edición y desalineación en composiciones más complejas. En este trabajo, desarrollamos MAG-Edit, un método de optimización en la etapa de inferencia que no requiere entrenamiento, el cual permite la edición localizada de imágenes en escenarios complejos. En particular, MAG-Edit optimiza la característica latente de ruido en los modelos de difusión maximizando dos restricciones de atención cruzada basadas en máscaras del token de edición, lo que a su vez mejora gradualmente la alineación local con el texto deseado. Experimentos cuantitativos y cualitativos extensos demuestran la efectividad de nuestro método para lograr tanto la alineación textual como la preservación de la estructura en la edición localizada dentro de escenarios complejos.
Este artículo explora la destilación de preferencias para modelos grandes de lenguaje visual (LVLMs), mejorando su capacidad para generar respuestas útiles y fieles que se anclen en el contexto visual. Primero, construimos un conjunto de datos de retroalimentación visual-lingüística (VLFeedback) utilizando anotaciones generadas por IA. Específicamente, las respuestas son generadas por modelos muestreados de 12 LVLMs, condicionados por instrucciones multimodales obtenidas de diversos conjuntos de datos. Adoptamos GPT-4V para evaluar las salidas generadas en términos de utilidad, fidelidad visual y consideraciones éticas. Además, la supervisión de preferencias se destila en Qwen-VL-Chat mediante el método de optimización directa de preferencias (DPO). El modelo resultante, Silkie, logra una mejora relativa del 6.9% y 9.5% en el benchmark MME en cuanto a las capacidades de percepción y cognición, respectivamente. Silkie también demuestra una reducción en la alucinación al establecer un nuevo estado del arte con una puntuación de 3.02 en el benchmark MMHal-Bench. Un análisis adicional muestra que el DPO con nuestro conjunto de datos VLFeedback principalmente potencia las habilidades de percepción detallada y cognición compleja de los LVLMs, lo que conduce a mejoras más integrales en comparación con los conjuntos de datos de preferencias anotados por humanos.
Los modelos de difusión han logrado avances significativos en la generación de imágenes de alta calidad, pero su aplicación a la generación de videos ha seguido siendo un desafío debido a la complejidad del movimiento temporal. La edición de videos en modo zero-shot ofrece una solución al utilizar modelos de difusión de imágenes preentrenados para transformar videos fuente en nuevos videos. Sin embargo, los métodos existentes tienen dificultades para mantener una consistencia temporal estricta y un consumo eficiente de memoria. En este trabajo, proponemos un enfoque novedoso para mejorar la consistencia temporal en videos generados mediante la fusión de tokens de autoatención entre fotogramas. Al alinear y comprimir tokens temporalmente redundantes entre fotogramas, nuestro método mejora la coherencia temporal y reduce el consumo de memoria en los cálculos de autoatención. La estrategia de fusión empareja y alinea los tokens según la correspondencia temporal entre fotogramas, facilitando una consistencia temporal natural en los fotogramas generados. Para manejar la complejidad del procesamiento de videos, dividimos los videos en segmentos y desarrollamos la fusión local de tokens dentro de los segmentos y la fusión global de tokens entre segmentos, asegurando tanto la continuidad a corto plazo como la consistencia de contenido a largo plazo. Nuestro enfoque de edición de videos extiende de manera fluida los avances en la edición de imágenes a la edición de videos, obteniendo resultados favorables en consistencia temporal sobre los métodos más avanzados.
La decodificación especulativa mejora la eficiencia de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) al utilizar un modelo de borrador para generar propuestas que luego son revisadas por un modelo objetivo más grande. Sin embargo, la generación de borradores en la decodificación especulativa implica una generación autoregresiva lenta y la asignación del mismo tiempo para generar tokens de diferente importancia. Estas dos ineficiencias resultan en un rendimiento subóptimo. Para abordar este problema, presentamos la Decodificación Especulativa en Cascada (CS. Drafting, por sus siglas en inglés), un enfoque novedoso que emplea dos tipos de cascadas. La Cascada Vertical elimina la generación autoregresiva de los modelos neuronales. La Cascada Horizontal establece una asignación eficiente del tiempo en la generación de borradores, con su optimalidad respaldada por nuestro análisis teórico. Al combinar ambas cascadas, nuestro algoritmo CS. Drafting ha logrado un aumento de velocidad de hasta un 72 % adicional en comparación con la decodificación especulativa en nuestros experimentos, manteniendo la misma distribución de salida.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se emplean cada vez más para tareas de planificación complejas de múltiples pasos, donde la recuperación de herramientas (TR, por sus siglas en inglés) es crucial para lograr resultados exitosos. Dos enfoques predominantes para la TR son la recuperación de un solo paso, que utiliza la consulta completa, y la recuperación secuencial mediante descomposición de tareas (TD, por sus siglas en inglés), donde una consulta completa se segmenta en subtareas atómicas discretas. Mientras que la recuperación de un solo paso carece de la flexibilidad para manejar la "dependencia entre herramientas", el enfoque de TD requiere mantener la "alineación atómica entre subtareas y herramientas", ya que el conjunto de herramientas puede evolucionar dinámicamente. Para abordar estas limitaciones, presentamos el marco de Recuperación Progresiva de Herramientas para Mejorar la Planificación (ProTIP, por sus siglas en inglés). ProTIP es un marco ligero basado en aprendizaje contrastivo que realiza implícitamente la TD sin la necesidad explícita de etiquetas de subtareas, manteniendo simultáneamente la atomicidad entre subtareas y herramientas. En el conjunto de datos ToolBench, ProTIP supera notablemente al enfoque basado en descomposición de tareas de ChatGPT, logrando una mejora del 24% en Recall@K=10 para la TR y un aumento del 41% en la precisión de herramientas para la generación de planes.
El éxito de los modelos de lenguaje de gran escala ha transformado los paradigmas de evaluación en el procesamiento del lenguaje natural (PLN). El interés de la comunidad se ha desplazado hacia la comparación de modelos de PLN en múltiples tareas, dominios y conjuntos de datos, a menudo a una escala extrema. Esto impone nuevos desafíos de ingeniería: los esfuerzos en la construcción de conjuntos de datos y modelos han estado fragmentados, y sus formatos e interfaces son incompatibles. Como resultado, a menudo se requieren esfuerzos extensos de (re)implementación para realizar comparaciones justas y controladas a gran escala. Catwalk busca abordar estos problemas. Catwalk proporciona una interfaz unificada para una amplia gama de conjuntos de datos y modelos de PLN existentes, que van desde el entrenamiento supervisado canónico y el ajuste fino, hasta paradigmas más modernos como el aprendizaje en contexto. Sus abstracciones cuidadosamente diseñadas permiten extensiones fáciles a muchos otros. Catwalk reduce sustancialmente las barreras para realizar experimentos controlados a gran escala. Por ejemplo, ajustamos y evaluamos más de 64 modelos en más de 86 conjuntos de datos con un solo comando, sin escribir ningún código. Mantenido por el equipo de AllenNLP en el Instituto Allen de Inteligencia Artificial (AI2), Catwalk es un esfuerzo de código abierto en curso: https://github.com/allenai/catwalk.
Los métodos de destilación de conocimiento han demostrado recientemente ser una dirección prometedora para acelerar la síntesis de modelos de difusión a gran escala al requerir solo unos pocos pasos de inferencia. Aunque se han propuesto varios métodos de destilación potentes, la calidad general de las muestras generadas por el estudiante suele ser inferior en comparación con las del maestro, lo que dificulta su uso práctico. En este trabajo, investigamos la calidad relativa de las muestras producidas por el modelo maestro de difusión texto-imagen y su versión destilada del estudiante. Como principal hallazgo empírico, descubrimos que una porción notable de las muestras del estudiante exhiben una fidelidad superior en comparación con las del maestro, a pesar de la naturaleza "aproximada" del estudiante. Basándonos en este hallazgo, proponemos una colaboración adaptativa entre los modelos de difusión del estudiante y del maestro para una síntesis efectiva de texto a imagen. Específicamente, el modelo destilado produce la muestra inicial, y luego un oráculo decide si necesita mejoras adicionales con el modelo maestro más lento. Experimentos extensos demuestran que el pipeline diseñado supera a las alternativas de texto a imagen más avanzadas para varios presupuestos de inferencia en términos de preferencia humana. Además, el enfoque propuesto puede usarse naturalmente en aplicaciones populares como la edición de imágenes guiada por texto y la generación controlable.
El muestreo guiado sin entrenamiento en modelos de difusión aprovecha redes preentrenadas estándar, como un modelo de evaluación estética, para guiar el proceso de generación. Los algoritmos actuales de muestreo guiado sin entrenamiento obtienen la función de energía de guía basándose en una estimación de un solo paso de la imagen limpia. Sin embargo, dado que las redes preentrenadas estándar se entrenan con imágenes limpias, el procedimiento de estimación de un solo paso de la imagen limpia puede ser inexacto, especialmente en las etapas iniciales del proceso de generación en modelos de difusión. Esto provoca que la guía en los primeros pasos temporales sea imprecisa. Para superar este problema, proponemos Symplectic Adjoint Guidance (SAG), que calcula la guía de gradiente en dos etapas internas. En primer lugar, SAG estima la imagen limpia mediante n llamadas a función, donde n actúa como un hiperparámetro flexible que puede ajustarse para cumplir con requisitos específicos de calidad de imagen. En segundo lugar, SAG utiliza el método adjunto simpléctico para obtener los gradientes de manera precisa y eficiente en términos de requisitos de memoria. Experimentos exhaustivos demuestran que SAG genera imágenes con calidades superiores en comparación con los métodos de referencia, tanto en tareas de generación guiada de imágenes como de videos.
Este artículo presenta un codificador volumétrico 3D pionero diseñado para la generación de texto a 3D. Para ampliar los datos de entrenamiento del modelo de difusión, se desarrolla una red ligera que adquiere eficientemente volúmenes de características a partir de imágenes multivista. Los volúmenes 3D se entrenan luego en un modelo de difusión para la generación de texto a 3D utilizando una U-Net 3D. Esta investigación aborda además los desafíos de las descripciones de objetos imprecisas y los volúmenes de características de alta dimensionalidad. El modelo propuesto, entrenado en el conjunto de datos público Objaverse, demuestra resultados prometedores en la producción de muestras diversas y reconocibles a partir de indicaciones de texto. Destaca especialmente su capacidad para permitir un control más preciso sobre las características de las partes del objeto mediante señales textuales, fomentando la creatividad del modelo al combinar sin problemas múltiples conceptos dentro de un solo objeto. Esta investigación contribuye significativamente al avance de la generación 3D al introducir una metodología de representación eficiente, flexible y escalable. El código está disponible en https://github.com/tzco/VolumeDiffusion.
Proponemos un método para la reconstrucción dinámica de escenas utilizando gaussianas 3D deformables, diseñado específicamente para video monocular. Basándonos en la eficiencia del splatting gaussiano, nuestro enfoque extiende la representación para acomodar elementos dinámicos mediante un conjunto deformable de gaussianas ubicadas en un espacio canónico, y un campo de deformación dependiente del tiempo definido por un perceptrón multicapa (MLP). Además, bajo el supuesto de que la mayoría de las escenas naturales tienen grandes regiones que permanecen estáticas, permitimos que el MLP enfoque su capacidad de representación incluyendo adicionalmente una nube de puntos gaussiana estática. Las nubes de puntos dinámicas y estáticas concatenadas forman la entrada para el rasterizador de Gaussian Splatting, permitiendo la renderización en tiempo real. La pipeline diferenciable se optimiza de extremo a extremo con una pérdida de renderización autosupervisada. Nuestro método logra resultados comparables a los métodos de campos de radiancia neural dinámicos de última generación, permitiendo una optimización y renderización mucho más rápida. Sitio web del proyecto: https://lynl7130.github.io/gaufre/index.html