Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de texto a imagen a gran escala, como Stable Diffusion, son capaces de generar imágenes retrato fotorrealistas de alta fidelidad. Existe un área de investigación activa dedicada a personalizar estos modelos, con el objetivo de sintetizar sujetos o estilos específicos utilizando conjuntos de imágenes de referencia proporcionados. Sin embargo, a pesar de los resultados plausibles de estos métodos de personalización, tienden a producir imágenes que a menudo carecen de realismo y aún no alcanzan un nivel comercialmente viable. Esto es particularmente notable en la generación de imágenes retrato, donde cualquier artefacto no natural en los rostros humanos es fácilmente perceptible debido a nuestro sesgo humano inherente. Para abordar esto, presentamos MagiCapture, un método de personalización que integra conceptos de sujeto y estilo para generar imágenes retrato de alta resolución utilizando solo unas pocas referencias de sujeto y estilo. Por ejemplo, dado un puñado de selfies aleatorios, nuestro modelo ajustado puede generar imágenes retrato de alta calidad en estilos específicos, como fotos de pasaporte o de perfil. El principal desafío de esta tarea es la ausencia de una verdad fundamental para los conceptos compuestos, lo que conduce a una reducción en la calidad de la salida final y a un cambio de identidad del sujeto fuente. Para abordar estos problemas, presentamos una nueva función de pérdida de Reenfoque de Atención junto con priores auxiliares, ambos facilitan un aprendizaje robusto en este entorno de aprendizaje débilmente supervisado. Nuestro pipeline también incluye pasos adicionales de post-procesamiento para garantizar la creación de salidas altamente realistas. MagiCapture supera a otras líneas base en evaluaciones tanto cuantitativas como cualitativas y también puede generalizarse a otros objetos no humanos.
Exploramos la novedosa aplicación de Modelos de Lenguaje de Gran Escala (LLM) a la optimización de código. Presentamos un modelo transformador de 7 mil millones de parámetros entrenado desde cero para optimizar el tamaño del código en ensamblador LLVM. El modelo toma como entrada ensamblador no optimizado y genera una lista de opciones del compilador para optimizar mejor el programa. Es crucial destacar que, durante el entrenamiento, solicitamos al modelo que prediga los conteos de instrucciones antes y después de la optimización, así como el código optimizado en sí. Estas tareas de aprendizaje auxiliar mejoran significativamente el rendimiento de optimización del modelo y profundizan su comprensión. Evaluamos nuestro enfoque en un amplio conjunto de programas de prueba. Nuestra propuesta logra una mejora del 3.0% en la reducción de conteos de instrucciones en comparación con el compilador, superando a dos líneas base de última generación que requieren miles de compilaciones. Además, el modelo muestra capacidades sorprendentemente sólidas de razonamiento sobre el código, generando código compilable el 91% de las veces y emulando perfectamente la salida del compilador el 70% de las veces.
El problema de larga data de la síntesis de nuevas vistas tiene muchas aplicaciones, destacando especialmente en la transmisión deportiva. La síntesis fotorrealista de nuevas vistas de acciones de fútbol, en particular, es de enorme interés para la industria de la radiodifusión. Sin embargo, solo se han propuesto unas pocas soluciones industriales, y aún menos que logran una calidad cercana a la de transmisión en las repeticiones sintéticas. A excepción de su configuración de múltiples cámaras estáticas alrededor del campo de juego, los mejores sistemas propietarios revelan casi ninguna información sobre su funcionamiento interno. Aprovechar múltiples cámaras estáticas para tal tarea presenta, de hecho, un desafío raramente abordado en la literatura, debido a la falta de conjuntos de datos públicos: la reconstrucción de un entorno a gran escala, mayormente estático, con elementos pequeños y de movimiento rápido. Recientemente, la aparición de los campos de radiancia neural ha impulsado un progreso asombroso en muchas aplicaciones de síntesis de nuevas vistas, aprovechando los principios del aprendizaje profundo para producir resultados fotorrealistas en los entornos más desafiantes. En este trabajo, investigamos la viabilidad de basar una solución para esta tarea en NeRFs dinámicos, es decir, modelos neurales diseñados para reconstruir contenido dinámico general. Componemos entornos sintéticos de fútbol y realizamos múltiples experimentos utilizando estos, identificando componentes clave que ayudan a reconstruir escenas de fútbol con NeRFs dinámicos. Demostramos que, aunque este enfoque no puede cumplir completamente con los requisitos de calidad para la aplicación objetivo, sugiere vías prometedoras hacia una solución automática y rentable. También ponemos a disposición pública nuestro conjunto de datos y código, con el objetivo de fomentar mayores esfuerzos de la comunidad de investigación en la tarea de síntesis de nuevas vistas para escenas dinámicas de fútbol. Para el código, datos y resultados en video, por favor visite https://soccernerfs.isach.be.
Mejorar la alineación de los modelos de lenguaje con las preferencias humanas sigue siendo un desafío activo de investigación. Los enfoques anteriores han utilizado principalmente el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) mediante métodos de RL en línea como la Optimización de Políticas Proximales (PPO). Recientemente, métodos fuera de línea como la Calibración de Probabilidad de Secuencias (SLiC) y la Optimización Directa de Preferencias (DPO) han surgido como alternativas atractivas, ofreciendo mejoras en estabilidad y escalabilidad mientras mantienen un rendimiento competitivo. SLiC refina su función de pérdida utilizando pares de secuencias muestreados de una política ajustada supervisadamente (SFT), mientras que DPO optimiza directamente los modelos de lenguaje basándose en datos de preferencias, prescindiendo de un modelo de recompensa separado. Sin embargo, el estimador de máxima verosimilitud (MLE) de la política óptima objetivo requiere pares de preferencias etiquetados muestreados de esa política. La falta de un modelo de recompensa en DPO limita su capacidad para muestrear pares de preferencias de la política óptima, y SLiC está restringido a muestrear pares de preferencias solo de la política SFT. Para abordar estas limitaciones, introducimos un nuevo enfoque llamado Optimización de Muestreo por Rechazo Estadístico (RSO) que busca obtener datos de preferencias de la política óptima objetivo utilizando muestreo por rechazo, permitiendo una estimación más precisa de la política óptima. También proponemos un marco unificado que mejora las funciones de pérdida utilizadas tanto en SLiC como en DPO desde una perspectiva de modelado de preferencias. A través de extensos experimentos en tres tareas diversas, demostramos que RSO supera consistentemente tanto a SLiC como a DPO en evaluaciones realizadas tanto por Modelos de Lenguaje de Gran Escala (LLM) como por evaluadores humanos.
Los recientes avances en modelos de gran escala de texto a imagen han logrado resultados notables, encontrando diversas aplicaciones en el ámbito del arte. Sin embargo, expresar características únicas de una obra de arte (por ejemplo, pinceladas, tonos de color o composición) únicamente mediante indicaciones textuales puede enfrentar limitaciones debido a las restricciones inherentes de la descripción verbal. Con este fin, presentamos DreamStyler, un marco novedoso diseñado para la síntesis de imágenes artísticas, competente tanto en la síntesis de texto a imagen como en la transferencia de estilo. DreamStyler optimiza una incrustación textual de múltiples etapas con una indicación contextualmente consciente, lo que resulta en una calidad de imagen destacada. Además, con guías de contenido y estilo, DreamStyler exhibe flexibilidad para adaptarse a una variedad de referencias estilísticas. Los resultados experimentales demuestran su rendimiento superior en múltiples escenarios, sugiriendo su potencial prometedor en la creación de productos artísticos.
Nuestro objetivo es crear un avatar facial 3D realista con cabello y accesorios utilizando únicamente una descripción textual. Aunque este desafío ha atraído un interés significativo recientemente, los métodos existentes carecen de realismo, producen formas poco realistas o no admiten ediciones, como modificaciones al peinado. Argumentamos que los métodos actuales son limitados porque emplean un enfoque de modelado monolítico, utilizando una única representación para la cabeza, el rostro, el cabello y los accesorios. Nuestra observación es que el cabello y el rostro, por ejemplo, tienen cualidades estructurales muy diferentes que se benefician de representaciones distintas. Basándonos en esta idea, generamos avatares con un modelo composicional, en el que la cabeza, el rostro y la parte superior del cuerpo se representan con mallas 3D tradicionales, mientras que el cabello, la ropa y los accesorios se representan con campos de radiancia neural (NeRF). La representación basada en mallas proporciona un fuerte prior geométrico para la región facial, mejorando el realismo y permitiendo la edición de la apariencia de la persona. Al utilizar NeRFs para representar los componentes restantes, nuestro método puede modelar y sintetizar partes con geometría y apariencia complejas, como cabello rizado y bufandas esponjosas. Nuestro sistema novedoso sintetiza estos avatares composicionales de alta calidad a partir de descripciones textuales. Los resultados experimentales demuestran que nuestro método, Generación y Edición de Avatares Composicionales Guiados por Texto (TECA), produce avatares más realistas que los de métodos recientes, además de ser editables debido a su naturaleza composicional. Por ejemplo, nuestro TECA permite la transferencia fluida de características composicionales como peinados, bufandas y otros accesorios entre avatares. Esta capacidad respalda aplicaciones como la prueba virtual de prendas.
Estudiamos la inferencia de una representación en forma de árbol a partir de una sola imagen para la sombra de objetos. Trabajos previos suelen utilizar representaciones paramétricas o medidas para modelar la sombra, las cuales no son interpretables ni fácilmente editables. Proponemos utilizar la representación de árbol de sombras, que combina nodos básicos de sombreado y métodos de composición para factorizar la sombra de la superficie del objeto. La representación de árbol de sombras permite a usuarios novatos, no familiarizados con el proceso físico de sombreado, editar la sombra de objetos de manera eficiente e intuitiva. Un desafío principal en la inferencia del árbol de sombras es que el problema de inferencia involucra tanto la estructura discreta del árbol como los parámetros continuos de los nodos. Proponemos un enfoque híbrido para abordar este problema. Introducimos un modelo de inferencia autorregresivo para generar una estimación aproximada de la estructura del árbol y los parámetros de los nodos, y luego afinamos el árbol de sombras inferido mediante un algoritmo de optimización. Mostramos experimentos en imágenes sintéticas, reflectancia capturada, imágenes reales y dibujos vectoriales no realistas, permitiendo aplicaciones posteriores como edición de materiales, sombreado vectorizado y reiluminación. Sitio web del proyecto: https://chen-geng.com/inv-shade-trees.