Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos el Transformador Latente de Bytes (BLT), una nueva arquitectura de Modelo de Lenguaje a nivel de bytes que, por primera vez, iguala el rendimiento de los LLM basados en tokenización a gran escala con mejoras significativas en eficiencia de inferencia y robustez. BLT codifica bytes en parches de tamaño dinámico, que sirven como las unidades principales de cálculo. Los parches se segmentan en base a la entropía del siguiente byte, asignando más capacidad de cálculo y modelo donde la complejidad de los datos aumenta. Presentamos el primer estudio de escalado controlado por FLOP de modelos a nivel de bytes de hasta 8 mil millones de parámetros y 4 billones de bytes de entrenamiento. Nuestros resultados demuestran la viabilidad de escalar modelos entrenados en bytes crudos sin un vocabulario fijo. Tanto la eficiencia de entrenamiento como la de inferencia mejoran debido a la selección dinámica de parches largos cuando los datos son predecibles, junto con mejoras cualitativas en razonamiento y generalización de cola larga. En general, para costos fijos de inferencia, BLT muestra un escalado significativamente mejor que los modelos basados en tokenización, al hacer crecer simultáneamente tanto el tamaño del parche como del modelo.
Los modelos de lenguaje grandes (LLMs) exhiben notables capacidades generativas pero a menudo sufren de alucinaciones. La generación aumentada por recuperación (RAG) ofrece una solución efectiva al incorporar conocimiento externo, pero los métodos existentes aún enfrentan varias limitaciones: costos adicionales de implementación de recuperadores separados, tokens de entrada redundantes de fragmentos de texto recuperados y la falta de optimización conjunta de recuperación y generación. Para abordar estos problemas, proponemos RetroLLM, un marco unificado que integra la recuperación y generación en un solo proceso cohesivo, permitiendo a los LLMs generar directamente evidencia detallada del corpus con decodificación restringida. Además, para mitigar la poda falsa en el proceso de generación de evidencia restringida, introducimos (1) restricciones jerárquicas de índice FM, que generan pistas restringidas por el corpus para identificar un subconjunto de documentos relevantes antes de la generación de evidencia, reduciendo el espacio de decodificación irrelevante; y (2) una estrategia de decodificación restringida prospectiva, que considera la relevancia de secuencias futuras para mejorar la precisión de la evidencia. Experimentos extensos en cinco conjuntos de datos de preguntas y respuestas de dominio abierto demuestran el rendimiento superior de RetroLLM en tareas tanto dentro como fuera del dominio. El código está disponible en https://github.com/sunnynexus/RetroLLM.
Los avances recientes en modelos generativos visuales han permitido la generación de imágenes y videos de alta calidad, abriendo diversas aplicaciones. Sin embargo, evaluar estos modelos a menudo requiere muestrear cientos o miles de imágenes o videos, lo que hace que el proceso sea computacionalmente costoso, especialmente para modelos basados en difusión con un muestreo intrínsecamente lento. Además, los métodos de evaluación existentes se basan en flujos rígidos que pasan por alto las necesidades específicas del usuario y proporcionan resultados numéricos sin explicaciones claras. En contraste, los humanos pueden formar rápidamente impresiones sobre las capacidades de un modelo observando solo unas pocas muestras. Para imitar esto, proponemos el marco de Evaluación de Agente, que emplea estrategias humanas para evaluaciones eficientes, dinámicas y multi-ronda utilizando solo unas pocas muestras por ronda, al tiempo que ofrece análisis detallados y adaptados al usuario. Ofrece cuatro ventajas clave: 1) eficiencia, 2) evaluación adaptable a diversas necesidades de usuario, 3) explicabilidad más allá de puntuaciones numéricas individuales, y 4) escalabilidad en diversos modelos y herramientas. Los experimentos muestran que Evaluación de Agente reduce el tiempo de evaluación al 10% de los métodos tradicionales mientras entrega resultados comparables. El marco de Evaluación de Agente está completamente abierto para avanzar en la investigación en modelos generativos visuales y su evaluación eficiente.
La edición de imágenes ha avanzado significativamente con el desarrollo de modelos de difusión que utilizan tanto métodos basados en inversión como basados en instrucciones. Sin embargo, los enfoques actuales basados en inversión tienen dificultades con modificaciones importantes (por ejemplo, agregar o quitar objetos) debido a la naturaleza estructurada del ruido de inversión, lo que dificulta cambios sustanciales. Mientras tanto, los métodos basados en instrucciones a menudo limitan a los usuarios a operaciones de caja negra, lo que restringe la interacción directa para especificar regiones de edición e intensidad. Para abordar estas limitaciones, proponemos BrushEdit, un novedoso paradigma de edición de imágenes guiado por instrucciones basado en inpainting, que aprovecha modelos de lenguaje grandes multimodales (MLLMs) y modelos de inpainting de imágenes para permitir una edición autónoma, amigable e interactiva mediante instrucciones de forma libre. Específicamente, diseñamos un sistema que permite la edición de instrucciones de forma libre mediante la integración de MLLMs y un modelo de inpainting de imágenes de doble rama en un marco cooperativo de agentes para realizar clasificación de categorías de edición, identificación de objetos principales, adquisición de máscaras y inpainting de áreas de edición. Experimentos extensos muestran que nuestro marco combina de manera efectiva MLLMs y modelos de inpainting, logrando un rendimiento superior en siete métricas, incluida la preservación de regiones de máscara y la coherencia del efecto de edición.
La optimización de instrucciones ha sido ampliamente utilizada para desatar el potencial completo de los grandes modelos de lenguaje. Especialmente, las instrucciones complejas y diversas son de gran importancia, ya que pueden alinear eficazmente los modelos con diversas tareas posteriores. Sin embargo, los enfoques actuales para construir instrucciones a gran escala favorecen predominantemente a modelos potentes como GPT-4 o aquellos con más de 70 mil millones de parámetros, bajo la presunción empírica de que tales modelos de lenguaje más grandes (LLMs) poseen inherentemente capacidades mejoradas. En este estudio, cuestionamos esta suposición prevalente y realizamos una exploración exhaustiva del potencial de modelos de lenguaje más pequeños (SLMs) en el contexto de la evolución de instrucciones. Experimentos extensos en tres escenarios de evolución de instrucciones revelan que los modelos de lenguaje más pequeños (SLMs) pueden sintetizar instrucciones más efectivas que los LLMs. Un análisis adicional demuestra que los SLMs poseen un espacio de salida más amplio durante la evolución de instrucciones, lo que resulta en variantes más complejas y diversas. También observamos que las métricas existentes no se centran en el impacto de las instrucciones. Por lo tanto, proponemos el IFD Consciente de la Complejidad de la Instrucción (IC-IFD), que introduce la complejidad de la instrucción en la puntuación IFD original para evaluar la efectividad de los datos de instrucción de manera más precisa. Nuestro código fuente está disponible en: https://github.com/HypherX/Evolution-Analysis.
La colorización automática de secuencias de imágenes en blanco y negro mientras se preserva la identidad de personajes y objetos es una tarea compleja con una demanda significativa en el mercado, como en la colorización de series de dibujos animados o cómics. A pesar de los avances en la colorización visual utilizando modelos generativos a gran escala como los modelos de difusión, persisten desafíos en cuanto a la controlabilidad y la consistencia de la identidad, lo que hace que las soluciones actuales no sean adecuadas para aplicaciones industriales. Para abordar esto, proponemos ColorFlow, un marco de trabajo basado en difusión de tres etapas diseñado para la colorización de secuencias de imágenes en aplicaciones industriales. A diferencia de los métodos existentes que requieren ajustes finos por ID o extracción explícita de incrustación de ID, proponemos un novedoso y robusto pipeline de Colorización Aumentada con Recuperación para la colorización de imágenes con referencias de color relevantes. Nuestro pipeline también presenta un diseño de doble rama: una rama para la extracción de la identidad de color y la otra para la colorización, aprovechando las fortalezas de los modelos de difusión. Utilizamos el mecanismo de autoatención en los modelos de difusión para un aprendizaje sólido en contexto y la coincidencia de la identidad de color. Para evaluar nuestro modelo, presentamos ColorFlow-Bench, un completo banco de pruebas para la colorización basada en referencias. Los resultados muestran que ColorFlow supera a los modelos existentes en múltiples métricas, estableciendo un nuevo estándar en la colorización de imágenes secuenciales y potencialmente beneficiando a la industria del arte. Publicamos nuestros códigos y modelos en nuestra página de proyecto: https://zhuang2002.github.io/ColorFlow/.
Presentamos la Difusión Causal como el equivalente autorregresivo (AR) de los modelos de Difusión. Es un marco de predicción del siguiente token que es amigable tanto para modalidades discretas como continuas y compatible con modelos existentes de predicción del siguiente token como LLaMA y GPT. Mientras que trabajos recientes intentan combinar la difusión con modelos AR, mostramos que introducir factorización secuencial a un modelo de difusión puede mejorar sustancialmente su rendimiento y permite una transición fluida entre los modos de generación AR y de difusión. Por lo tanto, proponemos CausalFusion, un transformador de solo decodificador que dual-factoriza los datos entre tokens secuenciales y niveles de ruido de difusión, lo que resulta en resultados de vanguardia en la evaluación de generación de ImageNet, al mismo tiempo que aprovecha la ventaja AR de generar un número arbitrario de tokens para razonamiento en contexto. Además, demostramos las capacidades multimodales de CausalFusion a través de un modelo conjunto de generación de imágenes y subtitulado, y exhibimos la capacidad de CausalFusion para manipulaciones de imágenes en contexto sin necesidad de entrenamiento previo. Esperamos que este trabajo pueda ofrecer a la comunidad una nueva perspectiva sobre el entrenamiento de modelos multimodales sobre datos discretos y continuos.
El seguimiento de instrucciones es una capacidad fundamental de los modelos de lenguaje, que requiere que el modelo reconozca incluso los requisitos más sutiles en las instrucciones y los refleje con precisión en su salida. Tal habilidad es adecuada y a menudo optimizada mediante el aprendizaje de preferencias. Sin embargo, los métodos existentes a menudo muestrean directamente múltiples respuestas independientes del modelo al crear pares de preferencias. Esta práctica puede introducir variaciones de contenido irrelevantes para determinar si la instrucción se sigue precisamente (por ejemplo, diferentes expresiones sobre el mismo significado), interfiriendo con el objetivo de enseñar a los modelos a reconocer las diferencias clave que conducen a una mejor seguimiento de instrucciones. En este sentido, presentamos SPaR, un marco de autojuego que integra la autorrefinación mediante búsqueda en árbol para producir pares de preferencias válidos y comparables libres de distracciones. Al jugar consigo mismo, un modelo de lenguaje de gran tamaño (LLM) emplea una estrategia de búsqueda en árbol para refinar sus respuestas anteriores con respecto a la instrucción, minimizando las variaciones innecesarias. Nuestros experimentos muestran que un modelo LLaMA3-8B, entrenado durante tres iteraciones guiadas por SPaR, supera a GPT-4-Turbo en la evaluación IFEval sin perder capacidades generales. Además, SPaR demuestra una escalabilidad y transferibilidad prometedoras, mejorando significativamente modelos como GLM-4-9B y LLaMA3-70B. También identificamos cómo el escalado de inferencia en la búsqueda en árbol afectaría al rendimiento del modelo. Nuestro código y datos están disponibles públicamente en https://github.com/thu-coai/SPaR.
Este documento aborda una pregunta desafiante: ¿Cómo podemos crear de manera eficiente escenas 3D de alta calidad y amplio alcance a partir de una única imagen arbitraria? Los métodos existentes enfrentan varias limitaciones, como la necesidad de datos de múltiples vistas, optimización por escena que consume mucho tiempo, baja calidad visual en los fondos y reconstrucciones distorsionadas en áreas no vistas. Proponemos un nuevo proceso para superar estas limitaciones. Específicamente, introducimos un modelo de reconstrucción a gran escala que utiliza latentes de un modelo de difusión de video para predecir "Gaussian Splattings" en 3D para las escenas de manera directa. El modelo de difusión de video está diseñado para crear videos siguiendo precisamente trayectorias de cámara especificadas, lo que le permite generar latentes de video comprimidos que contienen información de múltiples vistas manteniendo la consistencia en 3D. Entrenamos el modelo de reconstrucción en 3D para operar en el espacio latente de video con una estrategia de entrenamiento progresiva, lo que permite la generación eficiente de escenas 3D de alta calidad, amplio alcance y genéricas. Evaluaciones extensas en varios conjuntos de datos demuestran que nuestro modelo supera significativamente a los métodos existentes para la generación de escenas 3D de una sola vista, especialmente con imágenes fuera del dominio. Por primera vez, demostramos que un modelo de reconstrucción en 3D puede construirse de manera efectiva sobre el espacio latente de un modelo de difusión para lograr una generación eficiente de escenas 3D.
La estimación de propiedades físicas para datos visuales es una tarea crucial en visión por computadora, gráficos y robótica, sustentando aplicaciones como realidad aumentada, simulación física y agarre robótico. Sin embargo, esta área sigue siendo poco explorada debido a las ambigüedades inherentes en la estimación de propiedades físicas. Para abordar estos desafíos, presentamos GaussianProperty, un marco sin entrenamiento que asigna propiedades físicas de materiales a gaussianas 3D. Específicamente, integramos la capacidad de segmentación de SAM con la capacidad de reconocimiento de GPT-4V(ision) para formular un módulo de razonamiento de propiedades físicas global-local para imágenes 2D. Luego proyectamos las propiedades físicas de imágenes 2D de múltiples vistas a gaussianas 3D utilizando una estrategia de votación. Demostramos que las gaussianas 3D con anotaciones de propiedades físicas permiten aplicaciones en simulación dinámica basada en física y agarre robótico. Para la simulación dinámica basada en física, aprovechamos el Método de Puntos de Material (MPM) para una simulación dinámica realista. Para el agarre de robots, desarrollamos una estrategia de predicción de fuerza de agarre que estima un rango de fuerza segura requerido para el agarre de objetos basado en las propiedades físicas estimadas. Experimentos extensos sobre segmentación de materiales, simulación dinámica basada en física y agarre robótico validan la efectividad de nuestro método propuesto, resaltando su papel crucial en la comprensión de propiedades físicas a partir de datos visuales. Una demostración en línea, código, más casos y conjuntos de datos anotados están disponibles en https://Gaussian-Property.github.io.
Capturar información geométrica y material de imágenes sigue siendo un desafío fundamental en visión por computadora y gráficos. Los métodos tradicionales basados en optimización a menudo requieren horas de tiempo computacional para reconstruir geometría, propiedades de materiales e iluminación ambiental a partir de entradas densas de múltiples vistas, y aún así luchan con las ambigüedades inherentes entre iluminación y material. Por otro lado, los enfoques basados en aprendizaje aprovechan priors de material ricos de conjuntos de datos de objetos 3D existentes pero enfrentan desafíos para mantener la consistencia de múltiples vistas. En este documento, presentamos IDArb, un modelo basado en difusión diseñado para realizar una descomposición intrínseca en un número arbitrario de imágenes bajo iluminaciones variables. Nuestro método logra una estimación precisa y consistente de múltiples vistas en normales de superficie y propiedades de materiales. Esto es posible a través de un módulo de atención novedoso de vista cruzada y dominio cruzado y una estrategia de entrenamiento adaptativa a la vista y aumentada por iluminación. Además, presentamos ARB-Objaverse, un nuevo conjunto de datos que proporciona datos intrínsecos de múltiples vistas a gran escala y renderizaciones bajo diversas condiciones de iluminación, que respaldan un entrenamiento robusto. Experimentos extensos demuestran que IDArb supera a los métodos de vanguardia tanto cualitativa como cuantitativamente. Además, nuestro enfoque facilita una variedad de tareas posteriores, incluyendo relighting de una sola imagen, estéreo fotométrico y reconstrucción 3D, resaltando sus amplias aplicaciones en la creación de contenido 3D realista.
El intercambio de rostros en videos está ganando popularidad en diversas aplicaciones, sin embargo, los métodos existentes se centran principalmente en imágenes estáticas y tienen dificultades con el intercambio de rostros en videos debido a la consistencia temporal y escenarios complejos. En este documento, presentamos el primer marco basado en difusión diseñado específicamente para el intercambio de rostros en videos. Nuestro enfoque introduce un novedoso marco de entrenamiento híbrido de imagen-video que aprovecha tanto datos abundantes de imágenes estáticas como secuencias temporales de video, abordando las limitaciones inherentes del entrenamiento solo con videos. El marco incorpora un modelo de difusión especialmente diseñado junto con un VidFaceVAE que procesa eficazmente ambos tipos de datos para mantener mejor la coherencia temporal de los videos generados. Para desentrañar aún más las características de identidad y pose, construimos el Conjunto de Datos de Tripletes de Desentrañamiento de Atributos-Identidad (AIDT), donde cada triplete tiene tres imágenes faciales, con dos imágenes compartiendo la misma pose y dos compartiendo la misma identidad. Mejorado con una amplia aumentación de oclusiones, este conjunto de datos también mejora la robustez contra oclusiones. Además, integramos técnicas de reconstrucción 3D como condicionantes de entrada a nuestra red para manejar variaciones de pose amplias. Experimentos extensos demuestran que nuestro marco logra un rendimiento superior en preservación de identidad, consistencia temporal y calidad visual en comparación con los métodos existentes, al tiempo que requiere menos pasos de inferencia. Nuestro enfoque mitiga eficazmente los desafíos clave en el intercambio de rostros en videos, incluyendo parpadeo temporal, preservación de identidad y robustez ante oclusiones y variaciones de pose.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un rendimiento excepcional en una variedad de tareas de procesamiento de lenguaje natural. Sin embargo, sus tamaños substanciales plantean desafíos considerables, especialmente en términos de demandas computacionales y velocidad de inferencia, debido a su complejidad cuadrática. En este trabajo, hemos identificado un patrón clave: ciertos tokens especiales aparentemente sin significado (es decir, separadores) contribuyen de manera desproporcionada a las puntuaciones de atención en comparación con los tokens semánticamente significativos. Esta observación sugiere que la información de los segmentos entre estos tokens separadores puede ser efectivamente condensada en los propios tokens separadores sin una pérdida significativa de información. Guiados por esta perspicacia, presentamos SepLLM, un marco plug-and-play que acelera la inferencia comprimiendo estos segmentos y eliminando tokens redundantes. Además, implementamos núcleos eficientes para acelerar el entrenamiento. Los resultados experimentales en configuraciones sin entrenamiento, entrenamiento desde cero y post-entrenamiento demuestran la efectividad de SepLLM. Destacadamente, utilizando el esqueleto Llama-3-8B, SepLLM logra una reducción de más del 50% en la caché KV en la prueba GSM8K-CoT manteniendo un rendimiento comparable. Además, en configuraciones de transmisión, SepLLM procesa eficazmente secuencias de hasta 4 millones de tokens o más manteniendo capacidades consistentes de modelado de lenguaje.
Mientras que el corte de cabello indica una personalidad distintiva, los métodos existentes de generación de avatares no logran modelar de manera práctica el cabello debido a la representación general o enredada. Proponemos StrandHead, un novedoso método de generación de avatares de cabeza en 3D a partir de texto capaz de generar cabello en 3D desenredado con representación de hebras. Sin utilizar datos en 3D para supervisión, demostramos que se pueden generar hebras de cabello realistas a partir de indicaciones mediante la destilación de modelos de difusión generativa en 2D. Con este fin, proponemos una serie de prioridades confiables en la inicialización de la forma, en las primitivas geométricas y en las características estadísticas del corte de cabello, lo que conduce a una optimización estable y un rendimiento alineado con el texto. Experimentos extensos muestran que StrandHead logra el estado del arte en realidad y diversidad de cabezas y cabellos en 3D generados. El cabello en 3D generado también se puede implementar fácilmente en Unreal Engine para simulación física y otras aplicaciones. El código estará disponible en https://xiaokunsun.github.io/StrandHead.github.io.
Los modelos de lenguaje grandes (LLMs) representan un cambio fundamental en el procesamiento del lenguaje natural (NLP), habiendo avanzado en la generación de texto, traducción y razonamiento específico de dominio. Modelos de código cerrado como GPT-4, impulsados por conjuntos de datos propietarios y recursos computacionales extensos, lideran con un rendimiento de vanguardia en la actualidad. Sin embargo, enfrentan críticas por su naturaleza de "caja negra" y por limitar la accesibilidad de una manera que obstaculiza la reproducibilidad y el desarrollo equitativo de la IA. En contraste, iniciativas de código abierto como LLaMA y BLOOM priorizan la democratización a través del desarrollo impulsado por la comunidad y la eficiencia computacional. Estos modelos han reducido significativamente las brechas de rendimiento, especialmente en diversidad lingüística y aplicaciones específicas de dominio, al tiempo que proporcionan herramientas accesibles para investigadores y desarrolladores globales. Es importante destacar que ambos paradigmas se basan en innovaciones arquitectónicas fundamentales, como el marco Transformer de Vaswani et al. (2017). Los modelos de código cerrado destacan al escalar de manera efectiva, mientras que los modelos de código abierto se adaptan a aplicaciones del mundo real en idiomas y dominios subrepresentados. Técnicas como Adaptación de Bajo Rango (LoRA) y conjuntos de datos de ajuste de instrucciones permiten a los modelos de código abierto lograr resultados competitivos a pesar de recursos limitados. Sin duda, la tensión entre enfoques de código cerrado y de código abierto subraya un debate más amplio sobre transparencia versus control propietario en la IA. Consideraciones éticas resaltan aún más esta división. Los sistemas de código cerrado restringen el escrutinio externo, mientras que los modelos de código abierto promueven la reproducibilidad y la colaboración pero carecen de marcos de documentación de auditoría estandarizados para mitigar sesgos. En el futuro de la innovación de LLM, es probable que enfoques híbridos que aprovechen las fortalezas de ambos paradigmas moldeen la accesibilidad, el rendimiento técnico competitivo y el despliegue ético.
Los métodos tradicionales de control robótico basados en aprendizaje por refuerzo suelen ser específicos de la tarea y no logran generalizar en entornos diversos u objetos e instrucciones no vistos. Los Modelos Visuales de Lenguaje (VLMs) demuestran una sólida comprensión de escenas y capacidades de planificación, pero carecen de la habilidad para generar políticas ejecutables adaptadas a encarnaciones robóticas específicas. Para abordar esto, han surgido los modelos Visual-Lenguaje-Acción (VLA), aunque enfrentan desafíos en razonamiento espacial a largo plazo y planificación de tareas fundamentadas. En este trabajo, proponemos el Modelo de Acción Multimodal Encarnado con Cadena de Pensamiento Fundamentada y Razonamiento Espacial de Mirada Adelantada, Emma-X. Emma-X aprovecha nuestro conjunto de datos jerárquico construido basado en BridgeV2, que contiene 60,000 trayectorias de manipulación de robots autoanotadas con razonamiento de tareas fundamentadas y orientación espacial. Además, introducimos una estrategia de segmentación de trayectorias basada en estados de pinza y trayectorias de movimiento, que puede ayudar a mitigar la alucinación en la generación de razonamiento de subtareas fundamentadas. Los resultados experimentales demuestran que Emma-X logra un rendimiento superior sobre líneas base competitivas, especialmente en tareas robóticas del mundo real que requieren razonamiento espacial.
Con el fin de hacer que el modelo base sea más eficiente y efectivo, nuestra idea es combinar la transformación de secuencias y la transformación de estados. Primero, demostramos la disponibilidad de la inserción de posición rotativa en el algoritmo de dualidad del espacio de estados, lo que reduce la perplejidad de la autoatención causal cuadrática híbrida y la dualidad del espacio de estados en más del 4%, para garantizar que la transformación de secuencias combinada unifique la codificación de posiciones. En segundo lugar, proponemos la atención de máscara dinámica, que mantiene una precisión del 100% en la tarea más desafiante de recuperación asociativa de múltiples consultas, mejorando en más del 150% en comparación con la autoatención causal cuadrática y la dualidad del espacio de estados, para garantizar que la transformación de secuencias combinada filtre selectivamente la información relevante. En tercer lugar, diseñamos una mezcla de expertos de dominios cruzados, que hace que la velocidad computacional de recuperación de expertos con más de 1024 expertos sea de 8 a 10 veces más rápida que la mezcla de expertos, para garantizar que la transformación de estados combinada recupere rápidamente la mezcla. Finalmente, resumimos estos algoritmos matriciales que pueden formar el modelo base: Matrices Maravillosas, que pueden competir con arquitecturas de modelos populares.
La creciente demanda de aplicaciones inmersivas de RA/RV e inteligencia espacial ha aumentado la necesidad de generar videos panorámicos de alta calidad a nivel de escena y 360 grados. Sin embargo, la mayoría de los modelos de difusión de video se ven limitados por la resolución y la relación de aspecto, lo que restringe su aplicabilidad a la síntesis de contenido dinámico a nivel de escena. En este trabajo, proponemos el DynamicScaler, abordando estos desafíos al permitir la síntesis de escenas dinámicas espacialmente escalables y panorámicas que preservan la coherencia a lo largo de escenas panorámicas de tamaño arbitrario. Específicamente, presentamos un Denoiser de Desplazamiento de Offset, facilitando el denoising eficiente, sincrónico y coherente de escenas dinámicas panorámicas a través de un modelo de difusión con resolución fija mediante una Ventana giratoria sin fisuras, que garantiza transiciones de límites sin problemas y consistencia en todo el espacio panorámico, adaptándose a diferentes resoluciones y relaciones de aspecto. Además, empleamos un mecanismo de Guía de Movimiento Global para asegurar tanto la fidelidad de los detalles locales como la continuidad del movimiento global. Experimentos extensos demuestran que nuestro método logra una calidad de contenido y movimiento superior en la generación de videos a nivel de escena panorámica, ofreciendo una solución eficiente, escalable y sin necesidad de entrenamiento para la creación de escenas dinámicas inmersivas con un consumo constante de VRAM independientemente de la resolución del video de salida. Nuestra página del proyecto está disponible en https://dynamic-scaler.pages.dev/.
La síntesis de nuevas vistas a partir de videos monoculares en entornos naturales es un desafío debido a la dinámica de la escena y la falta de señales de múltiples vistas. Para abordar esto, proponemos SplineGS, un marco dinámico de Splatting Gaussiano 3D (3DGS) sin COLMAP para la reconstrucción de alta calidad y renderizado rápido a partir de videos monoculares. En su núcleo se encuentra un novedoso método de Spline Adaptativo al Movimiento (MAS), que representa trayectorias gaussianas 3D dinámicas continuas utilizando splines cúbicos de Hermite con un pequeño número de puntos de control. Para MAS, introducimos un método de Poda de Puntos de Control Adaptativo al Movimiento (MACP) para modelar la deformación de cada gaussiana 3D dinámica a través de movimientos variables, podando progresivamente puntos de control mientras se mantiene la integridad del modelado dinámico. Además, presentamos una estrategia de optimización conjunta para la estimación de parámetros de cámara y atributos gaussianos 3D, aprovechando la consistencia fotométrica y geométrica. Esto elimina la necesidad de preprocesamiento de Estructura a partir del Movimiento y mejora la robustez de SplineGS en condiciones del mundo real. Los experimentos muestran que SplineGS supera significativamente a los métodos de vanguardia en calidad de síntesis de nuevas vistas para escenas dinámicas de videos monoculares, logrando una velocidad de renderizado miles de veces más rápida.
Reutilizar modelos de difusión pre-entrenados ha demostrado ser efectivo para NVS. Sin embargo, estos métodos están mayormente limitados a un solo objeto; aplicar directamente dichos métodos a escenarios compuestos de múltiples objetos resulta en resultados inferiores, especialmente en la colocación incorrecta de objetos y en una forma y apariencia inconsistentes bajo vistas novedosas. Cómo mejorar y evaluar sistemáticamente la consistencia entre vistas de tales modelos sigue siendo poco explorado. Para abordar este problema, proponemos MOVIS para mejorar la conciencia estructural del modelo de difusión condicionado por vista para NVS de múltiples objetos en términos de entradas del modelo, tareas auxiliares y estrategia de entrenamiento. Primero, inyectamos características conscientes de la estructura, incluyendo profundidad y máscara de objeto, en la U-Net de eliminación de ruido para mejorar la comprensión del modelo de instancias de objetos y sus relaciones espaciales. Segundo, introducimos una tarea auxiliar que requiere que el modelo prediga simultáneamente máscaras de objetos de vista novedosa, mejorando aún más la capacidad del modelo para diferenciar y colocar objetos. Finalmente, realizamos un análisis exhaustivo del proceso de muestreo de difusión y diseñamos cuidadosamente un programador de muestreo de pasos guiado por la estructura durante el entrenamiento, que equilibra el aprendizaje de la colocación global de objetos y la recuperación de detalles detallados. Para evaluar sistemáticamente la plausibilidad de las imágenes sintetizadas, proponemos evaluar la consistencia entre vistas y la colocación de objetos de vista novedosa junto con métricas de NVS a nivel de imagen existentes. Experimentos extensos en conjuntos de datos sintéticos y realistas desafiantes demuestran que nuestro método exhibe fuertes capacidades de generalización y produce una síntesis de vista novedosa consistente, resaltando su potencial para guiar futuras tareas de NVS de múltiples objetos conscientes del 3D.
Los algoritmos de aprendizaje por refuerzo (RL) tienen como objetivo equilibrar la explotación de la estrategia actualmente óptima con la exploración de nuevas opciones que podrían llevar a recompensas más altas. La mayoría de los algoritmos de RL comunes utilizan exploración no dirigida, es decir, seleccionan secuencias aleatorias de acciones. La exploración también puede ser dirigida utilizando recompensas intrínsecas, como la curiosidad o la incertidumbre epistémica del modelo. Sin embargo, equilibrar efectivamente las recompensas de la tarea y las intrínsecas es desafiante y a menudo depende de la tarea. En este trabajo, presentamos un marco, MaxInfoRL, para equilibrar la exploración intrínseca y extrínseca. MaxInfoRL dirige la exploración hacia transiciones informativas, maximizando recompensas intrínsecas como la ganancia de información sobre la tarea subyacente. Al combinarse con la exploración de Boltzmann, este enfoque intercambia naturalmente la maximización de la función de valor con la entropía sobre estados, recompensas y acciones. Mostramos que nuestro enfoque logra un arrepentimiento sublineal en el entorno simplificado de bandas de brazo múltiple. Luego aplicamos esta formulación general a una variedad de métodos de RL sin modelo fuera de la política para espacios de estado-acción continuos, generando algoritmos novedosos que logran un rendimiento superior en problemas de exploración difíciles y escenarios complejos como tareas de control visual.
Explotar la promesa de los recientes avances en aprendizaje por imitación para la manipulación móvil requerirá la recopilación de un gran número de demostraciones guiadas por humanos. Este artículo propone un diseño de código abierto para un manipulador móvil económico, robusto y flexible que puede soportar brazos arbitrarios, permitiendo una amplia gama de tareas de manipulación móvil en el hogar del mundo real. Esencialmente, nuestro diseño utiliza ruedas motorizadas para permitir que la base móvil sea completamente holonómica, capaz de controlar todos los grados de libertad planares de forma independiente y simultánea. Esta característica hace que la base sea más maniobrable y simplifica muchas tareas de manipulación móvil, eliminando las restricciones cinemáticas que crean movimientos complejos y que consumen tiempo en bases no holonómicas. Equipamos nuestro robot con una interfaz intuitiva de teleoperación de teléfono móvil para facilitar la adquisición de datos para el aprendizaje por imitación. En nuestros experimentos, utilizamos esta interfaz para recopilar datos y demostrar que las políticas aprendidas resultantes pueden realizar con éxito una variedad de tareas comunes de manipulación móvil en el hogar.
A pesar de su competencia en tareas generales, los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) enfrentan dificultades con la Resolución Automática de Problemas de Geometría (GPS), que requiere comprender diagramas, interpretar símbolos y realizar razonamientos complejos. Esta limitación surge de su pre-entrenamiento en imágenes y textos naturales, junto con la falta de verificación automatizada en el proceso de resolución de problemas. Además, los especialistas geométricos actuales están limitados por sus diseños específicos de tarea, lo que los hace menos efectivos para problemas geométricos más amplios. Con este fin, presentamos GeoX, un modelo grande multimodal centrado en tareas de comprensión y razonamiento geométrico. Dadas las diferencias significativas entre diagramas-símbolo geométricos e imagen-texto natural, introducimos un pre-entrenamiento unimodal para desarrollar un codificador de diagramas y un decodificador de símbolos, mejorando la comprensión de imágenes y corpora geométricos. Además, presentamos el alineamiento geometría-lenguaje, un paradigma efectivo de pre-entrenamiento que reduce la brecha de modalidad entre expertos geométricos unimodales. Proponemos un Transformador Generador y Muestreador (GS-Former) para generar consultas discriminativas y eliminar representaciones no informativas de señales geométricas distribuidas de manera desigual. Finalmente, GeoX se beneficia de la sintonización de instrucciones visuales, capacitándolo para tomar imágenes y preguntas geométricas como entrada y generar soluciones verificables. Los experimentos muestran que GeoX supera tanto a generalistas como a especialistas geométricos en benchmarks reconocidos públicamente, como GeoQA, UniGeo, Geometry3K y PGPS9k.
Proponemos WHISPER-GPT: un modelo de lenguaje grande generativo (LLM, por sus siglas en inglés) para habla y música que nos permite trabajar con representaciones de audio continuas y tokens discretos simultáneamente como parte de una arquitectura única. Ha habido un gran aumento en modelos generativos de audio, habla y música que utilizan tokens de audio discretos derivados de algoritmos de compresión neuronal, por ejemplo, ENCODEC. Sin embargo, uno de los principales inconvenientes de este enfoque es el manejo de la longitud del contexto. Se vuelve inmanejable para una arquitectura generativa de alta fidelidad si se tiene que tener en cuenta todo el contenido de audio en varias frecuencias para la predicción del siguiente token. Al combinar una representación de audio continua como el espectrograma y tokens acústicos discretos, conservamos lo mejor de ambos mundos: tener toda la información necesaria del audio en un instante de tiempo específico en un solo token, pero permitir que el LLM prediga el token futuro para permitir el muestreo y otros beneficios que proporciona el espacio discreto. Mostramos cómo nuestra arquitectura mejora la perplejidad y los puntajes de probabilidad logarítmica negativa para la predicción del siguiente token en comparación con un LLM basado en tokens para habla y música.
El Aprendizaje Federado Vertical (VFL) tiene como objetivo permitir el entrenamiento colaborativo de modelos de aprendizaje profundo manteniendo la protección de la privacidad. Sin embargo, el procedimiento de VFL todavía tiene componentes que son vulnerables a ataques por parte de partes maliciosas. En nuestro trabajo, consideramos los ataques de reconstrucción de características, un riesgo común que apunta a comprometer los datos de entrada. Teóricamente afirmamos que los ataques de reconstrucción de características no pueden tener éxito sin conocimiento de la distribución previa de los datos. En consecuencia, demostramos que incluso transformaciones simples en la arquitectura del modelo pueden impactar significativamente la protección de los datos de entrada durante el VFL. Confirmamos estos hallazgos con resultados experimentales, mostrando que los modelos basados en MLP son resistentes a los ataques de reconstrucción de características de vanguardia.
Los avances recientes en modelos de difusión revolucionan la generación de imágenes pero plantean riesgos de uso indebido, como la replicación de obras de arte o la generación de deepfakes. Los métodos existentes de protección de imágenes, aunque efectivos, luchan por equilibrar la eficacia de protección, invisibilidad y latencia, limitando así su uso práctico. Introducimos el pre-entrenamiento de perturbaciones para reducir la latencia y proponemos un enfoque de mezcla de perturbaciones que se adapta dinámicamente a las imágenes de entrada para minimizar la degradación del rendimiento. Nuestra estrategia de entrenamiento novedosa calcula la pérdida de protección en múltiples espacios de características VAE, mientras que la protección dirigida adaptativa en la inferencia mejora la robustez y la invisibilidad. Los experimentos muestran un rendimiento de protección comparable con una invisibilidad mejorada y un tiempo de inferencia drásticamente reducido. El código y la demostración están disponibles en https://webtoon.github.io/impasto
El rápido avance de las tecnologías de procesamiento de lenguaje natural (NLP), como los modelos de lenguaje grandes (LLMs) ajustados a instrucciones, insta al desarrollo de protocolos de evaluación modernos con retroalimentación humana y de máquina. Presentamos Evalica, una herramienta de código abierto que facilita la creación de tablas de clasificación de modelos confiables y reproducibles. Este artículo presenta su diseño, evalúa su rendimiento y demuestra su usabilidad a través de su interfaz web, interfaz de línea de comandos y API de Python.
Los recientes avances en los modelos fundamentales de robótica han permitido el desarrollo de políticas generalistas que pueden adaptarse a diversas tareas. Si bien estos modelos muestran una flexibilidad impresionante, su rendimiento depende en gran medida de la calidad de sus datos de entrenamiento. En este trabajo, proponemos Generalistas Destilados de Aprendizaje por Refuerzo (RLDG), un método que aprovecha el aprendizaje por refuerzo para generar datos de entrenamiento de alta calidad para el ajuste fino de políticas generalistas. A través de extensos experimentos del mundo real en tareas de manipulación precisa como la inserción de conectores y ensamblaje, demostramos que las políticas generalistas entrenadas con datos generados por RL superan consistentemente a aquellas entrenadas con demostraciones humanas, logrando tasas de éxito hasta un 40% más altas y generalizando mejor a nuevas tareas. También proporcionamos un análisis detallado que revela que esta mejora de rendimiento se debe tanto a distribuciones de acciones optimizadas como a una mejor cobertura de estados. Nuestros resultados sugieren que combinar RL específico de la tarea con la destilación de políticas generalistas ofrece un enfoque prometedor para desarrollar sistemas de manipulación robótica más capaces y eficientes que mantienen la flexibilidad de los modelos fundamentales al tiempo que logran el rendimiento de controladores especializados. Los videos y el código se pueden encontrar en nuestro sitio web del proyecto https://generalist-distillation.github.io