ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Transformador Latente de Bytes: Los Parches Escalan Mejor que los Tokens
Byte Latent Transformer: Patches Scale Better Than Tokens

Dec 13, 2024
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer
1048

Presentamos el Transformador Latente de Bytes (BLT), una nueva arquitectura de Modelo de Lenguaje a nivel de bytes que, por primera vez, iguala el rendimiento de los LLM basados en tokenización a gran escala con mejoras significativas en eficiencia de inferencia y robustez. BLT codifica bytes en parches de tamaño dinámico, que sirven como las unidades principales de cálculo. Los parches se segmentan en base a la entropía del siguiente byte, asignando más capacidad de cálculo y modelo donde la complejidad de los datos aumenta. Presentamos el primer estudio de escalado controlado por FLOP de modelos a nivel de bytes de hasta 8 mil millones de parámetros y 4 billones de bytes de entrenamiento. Nuestros resultados demuestran la viabilidad de escalar modelos entrenados en bytes crudos sin un vocabulario fijo. Tanto la eficiencia de entrenamiento como la de inferencia mejoran debido a la selección dinámica de parches largos cuando los datos son predecibles, junto con mejoras cualitativas en razonamiento y generalización de cola larga. En general, para costos fijos de inferencia, BLT muestra un escalado significativamente mejor que los modelos basados en tokenización, al hacer crecer simultáneamente tanto el tamaño del parche como del modelo.

RetroLLM: Potenciando Modelos de Lenguaje Grandes para Recuperar Evidencia Detallada dentro de la Generación
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Dec 16, 2024
Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou
374

Los modelos de lenguaje grandes (LLMs) exhiben notables capacidades generativas pero a menudo sufren de alucinaciones. La generación aumentada por recuperación (RAG) ofrece una solución efectiva al incorporar conocimiento externo, pero los métodos existentes aún enfrentan varias limitaciones: costos adicionales de implementación de recuperadores separados, tokens de entrada redundantes de fragmentos de texto recuperados y la falta de optimización conjunta de recuperación y generación. Para abordar estos problemas, proponemos RetroLLM, un marco unificado que integra la recuperación y generación en un solo proceso cohesivo, permitiendo a los LLMs generar directamente evidencia detallada del corpus con decodificación restringida. Además, para mitigar la poda falsa en el proceso de generación de evidencia restringida, introducimos (1) restricciones jerárquicas de índice FM, que generan pistas restringidas por el corpus para identificar un subconjunto de documentos relevantes antes de la generación de evidencia, reduciendo el espacio de decodificación irrelevante; y (2) una estrategia de decodificación restringida prospectiva, que considera la relevancia de secuencias futuras para mejorar la precisión de la evidencia. Experimentos extensos en cinco conjuntos de datos de preguntas y respuestas de dominio abierto demuestran el rendimiento superior de RetroLLM en tareas tanto dentro como fuera del dominio. El código está disponible en https://github.com/sunnynexus/RetroLLM.

Agente de Evaluación: Marco de Evaluación Eficiente y Promptable para Modelos Generativos Visuales
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Dec 10, 2024
Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
372

Los avances recientes en modelos generativos visuales han permitido la generación de imágenes y videos de alta calidad, abriendo diversas aplicaciones. Sin embargo, evaluar estos modelos a menudo requiere muestrear cientos o miles de imágenes o videos, lo que hace que el proceso sea computacionalmente costoso, especialmente para modelos basados en difusión con un muestreo intrínsecamente lento. Además, los métodos de evaluación existentes se basan en flujos rígidos que pasan por alto las necesidades específicas del usuario y proporcionan resultados numéricos sin explicaciones claras. En contraste, los humanos pueden formar rápidamente impresiones sobre las capacidades de un modelo observando solo unas pocas muestras. Para imitar esto, proponemos el marco de Evaluación de Agente, que emplea estrategias humanas para evaluaciones eficientes, dinámicas y multi-ronda utilizando solo unas pocas muestras por ronda, al tiempo que ofrece análisis detallados y adaptados al usuario. Ofrece cuatro ventajas clave: 1) eficiencia, 2) evaluación adaptable a diversas necesidades de usuario, 3) explicabilidad más allá de puntuaciones numéricas individuales, y 4) escalabilidad en diversos modelos y herramientas. Los experimentos muestran que Evaluación de Agente reduce el tiempo de evaluación al 10% de los métodos tradicionales mientras entrega resultados comparables. El marco de Evaluación de Agente está completamente abierto para avanzar en la investigación en modelos generativos visuales y su evaluación eficiente.

BrushEdit: Edición e Inpainting de Imágenes Todo en Uno
BrushEdit: All-In-One Image Inpainting and Editing

Dec 13, 2024
Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
363

La edición de imágenes ha avanzado significativamente con el desarrollo de modelos de difusión que utilizan tanto métodos basados en inversión como basados en instrucciones. Sin embargo, los enfoques actuales basados en inversión tienen dificultades con modificaciones importantes (por ejemplo, agregar o quitar objetos) debido a la naturaleza estructurada del ruido de inversión, lo que dificulta cambios sustanciales. Mientras tanto, los métodos basados en instrucciones a menudo limitan a los usuarios a operaciones de caja negra, lo que restringe la interacción directa para especificar regiones de edición e intensidad. Para abordar estas limitaciones, proponemos BrushEdit, un novedoso paradigma de edición de imágenes guiado por instrucciones basado en inpainting, que aprovecha modelos de lenguaje grandes multimodales (MLLMs) y modelos de inpainting de imágenes para permitir una edición autónoma, amigable e interactiva mediante instrucciones de forma libre. Específicamente, diseñamos un sistema que permite la edición de instrucciones de forma libre mediante la integración de MLLMs y un modelo de inpainting de imágenes de doble rama en un marco cooperativo de agentes para realizar clasificación de categorías de edición, identificación de objetos principales, adquisición de máscaras y inpainting de áreas de edición. Experimentos extensos muestran que nuestro marco combina de manera efectiva MLLMs y modelos de inpainting, logrando un rendimiento superior en siete métricas, incluida la preservación de regiones de máscara y la coherencia del efecto de edición.

Los modelos de lenguaje más pequeños son mejores evolucionadores de instrucciones.
Smaller Language Models Are Better Instruction Evolvers

Dec 15, 2024
Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su
292

La optimización de instrucciones ha sido ampliamente utilizada para desatar el potencial completo de los grandes modelos de lenguaje. Especialmente, las instrucciones complejas y diversas son de gran importancia, ya que pueden alinear eficazmente los modelos con diversas tareas posteriores. Sin embargo, los enfoques actuales para construir instrucciones a gran escala favorecen predominantemente a modelos potentes como GPT-4 o aquellos con más de 70 mil millones de parámetros, bajo la presunción empírica de que tales modelos de lenguaje más grandes (LLMs) poseen inherentemente capacidades mejoradas. En este estudio, cuestionamos esta suposición prevalente y realizamos una exploración exhaustiva del potencial de modelos de lenguaje más pequeños (SLMs) en el contexto de la evolución de instrucciones. Experimentos extensos en tres escenarios de evolución de instrucciones revelan que los modelos de lenguaje más pequeños (SLMs) pueden sintetizar instrucciones más efectivas que los LLMs. Un análisis adicional demuestra que los SLMs poseen un espacio de salida más amplio durante la evolución de instrucciones, lo que resulta en variantes más complejas y diversas. También observamos que las métricas existentes no se centran en el impacto de las instrucciones. Por lo tanto, proponemos el IFD Consciente de la Complejidad de la Instrucción (IC-IFD), que introduce la complejidad de la instrucción en la puntuación IFD original para evaluar la efectividad de los datos de instrucción de manera más precisa. Nuestro código fuente está disponible en: https://github.com/HypherX/Evolution-Analysis.

ColorFlow: Colorización de secuencias de imágenes mejorada con recuperación.
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Dec 16, 2024
Junhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan
264

La colorización automática de secuencias de imágenes en blanco y negro mientras se preserva la identidad de personajes y objetos es una tarea compleja con una demanda significativa en el mercado, como en la colorización de series de dibujos animados o cómics. A pesar de los avances en la colorización visual utilizando modelos generativos a gran escala como los modelos de difusión, persisten desafíos en cuanto a la controlabilidad y la consistencia de la identidad, lo que hace que las soluciones actuales no sean adecuadas para aplicaciones industriales. Para abordar esto, proponemos ColorFlow, un marco de trabajo basado en difusión de tres etapas diseñado para la colorización de secuencias de imágenes en aplicaciones industriales. A diferencia de los métodos existentes que requieren ajustes finos por ID o extracción explícita de incrustación de ID, proponemos un novedoso y robusto pipeline de Colorización Aumentada con Recuperación para la colorización de imágenes con referencias de color relevantes. Nuestro pipeline también presenta un diseño de doble rama: una rama para la extracción de la identidad de color y la otra para la colorización, aprovechando las fortalezas de los modelos de difusión. Utilizamos el mecanismo de autoatención en los modelos de difusión para un aprendizaje sólido en contexto y la coincidencia de la identidad de color. Para evaluar nuestro modelo, presentamos ColorFlow-Bench, un completo banco de pruebas para la colorización basada en referencias. Los resultados muestran que ColorFlow supera a los modelos existentes en múltiples métricas, estableciendo un nuevo estándar en la colorización de imágenes secuenciales y potencialmente beneficiando a la industria del arte. Publicamos nuestros códigos y modelos en nuestra página de proyecto: https://zhuang2002.github.io/ColorFlow/.

Transformadores de Difusión Causal para Modelado Generativo
Causal Diffusion Transformers for Generative Modeling

Dec 16, 2024
Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan
233

Presentamos la Difusión Causal como el equivalente autorregresivo (AR) de los modelos de Difusión. Es un marco de predicción del siguiente token que es amigable tanto para modalidades discretas como continuas y compatible con modelos existentes de predicción del siguiente token como LLaMA y GPT. Mientras que trabajos recientes intentan combinar la difusión con modelos AR, mostramos que introducir factorización secuencial a un modelo de difusión puede mejorar sustancialmente su rendimiento y permite una transición fluida entre los modos de generación AR y de difusión. Por lo tanto, proponemos CausalFusion, un transformador de solo decodificador que dual-factoriza los datos entre tokens secuenciales y niveles de ruido de difusión, lo que resulta en resultados de vanguardia en la evaluación de generación de ImageNet, al mismo tiempo que aprovecha la ventaja AR de generar un número arbitrario de tokens para razonamiento en contexto. Además, demostramos las capacidades multimodales de CausalFusion a través de un modelo conjunto de generación de imágenes y subtitulado, y exhibimos la capacidad de CausalFusion para manipulaciones de imágenes en contexto sin necesidad de entrenamiento previo. Esperamos que este trabajo pueda ofrecer a la comunidad una nueva perspectiva sobre el entrenamiento de modelos multimodales sobre datos discretos y continuos.

SPaR: Autojuego con Refinamiento de Búsqueda en Árbol para Mejorar el Seguimiento de Instrucciones en Modelos de Lenguaje Grandes
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Dec 16, 2024
Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang
182

El seguimiento de instrucciones es una capacidad fundamental de los modelos de lenguaje, que requiere que el modelo reconozca incluso los requisitos más sutiles en las instrucciones y los refleje con precisión en su salida. Tal habilidad es adecuada y a menudo optimizada mediante el aprendizaje de preferencias. Sin embargo, los métodos existentes a menudo muestrean directamente múltiples respuestas independientes del modelo al crear pares de preferencias. Esta práctica puede introducir variaciones de contenido irrelevantes para determinar si la instrucción se sigue precisamente (por ejemplo, diferentes expresiones sobre el mismo significado), interfiriendo con el objetivo de enseñar a los modelos a reconocer las diferencias clave que conducen a una mejor seguimiento de instrucciones. En este sentido, presentamos SPaR, un marco de autojuego que integra la autorrefinación mediante búsqueda en árbol para producir pares de preferencias válidos y comparables libres de distracciones. Al jugar consigo mismo, un modelo de lenguaje de gran tamaño (LLM) emplea una estrategia de búsqueda en árbol para refinar sus respuestas anteriores con respecto a la instrucción, minimizando las variaciones innecesarias. Nuestros experimentos muestran que un modelo LLaMA3-8B, entrenado durante tres iteraciones guiadas por SPaR, supera a GPT-4-Turbo en la evaluación IFEval sin perder capacidades generales. Además, SPaR demuestra una escalabilidad y transferibilidad prometedoras, mejorando significativamente modelos como GLM-4-9B y LLaMA3-70B. También identificamos cómo el escalado de inferencia en la búsqueda en árbol afectaría al rendimiento del modelo. Nuestro código y datos están disponibles públicamente en https://github.com/thu-coai/SPaR.

Wonderland: Navegación en Escenas 3D a partir de una Única Imagen
Wonderland: Navigating 3D Scenes from a Single Image

Dec 16, 2024
Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
162

Este documento aborda una pregunta desafiante: ¿Cómo podemos crear de manera eficiente escenas 3D de alta calidad y amplio alcance a partir de una única imagen arbitraria? Los métodos existentes enfrentan varias limitaciones, como la necesidad de datos de múltiples vistas, optimización por escena que consume mucho tiempo, baja calidad visual en los fondos y reconstrucciones distorsionadas en áreas no vistas. Proponemos un nuevo proceso para superar estas limitaciones. Específicamente, introducimos un modelo de reconstrucción a gran escala que utiliza latentes de un modelo de difusión de video para predecir "Gaussian Splattings" en 3D para las escenas de manera directa. El modelo de difusión de video está diseñado para crear videos siguiendo precisamente trayectorias de cámara especificadas, lo que le permite generar latentes de video comprimidos que contienen información de múltiples vistas manteniendo la consistencia en 3D. Entrenamos el modelo de reconstrucción en 3D para operar en el espacio latente de video con una estrategia de entrenamiento progresiva, lo que permite la generación eficiente de escenas 3D de alta calidad, amplio alcance y genéricas. Evaluaciones extensas en varios conjuntos de datos demuestran que nuestro modelo supera significativamente a los métodos existentes para la generación de escenas 3D de una sola vista, especialmente con imágenes fuera del dominio. Por primera vez, demostramos que un modelo de reconstrucción en 3D puede construirse de manera efectiva sobre el espacio latente de un modelo de difusión para lograr una generación eficiente de escenas 3D.

Propiedad Gaussiana: Integración de Propiedades Físicas en Gaussianas 3D con LMMs
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Dec 15, 2024
Xinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen
132

La estimación de propiedades físicas para datos visuales es una tarea crucial en visión por computadora, gráficos y robótica, sustentando aplicaciones como realidad aumentada, simulación física y agarre robótico. Sin embargo, esta área sigue siendo poco explorada debido a las ambigüedades inherentes en la estimación de propiedades físicas. Para abordar estos desafíos, presentamos GaussianProperty, un marco sin entrenamiento que asigna propiedades físicas de materiales a gaussianas 3D. Específicamente, integramos la capacidad de segmentación de SAM con la capacidad de reconocimiento de GPT-4V(ision) para formular un módulo de razonamiento de propiedades físicas global-local para imágenes 2D. Luego proyectamos las propiedades físicas de imágenes 2D de múltiples vistas a gaussianas 3D utilizando una estrategia de votación. Demostramos que las gaussianas 3D con anotaciones de propiedades físicas permiten aplicaciones en simulación dinámica basada en física y agarre robótico. Para la simulación dinámica basada en física, aprovechamos el Método de Puntos de Material (MPM) para una simulación dinámica realista. Para el agarre de robots, desarrollamos una estrategia de predicción de fuerza de agarre que estima un rango de fuerza segura requerido para el agarre de objetos basado en las propiedades físicas estimadas. Experimentos extensos sobre segmentación de materiales, simulación dinámica basada en física y agarre robótico validan la efectividad de nuestro método propuesto, resaltando su papel crucial en la comprensión de propiedades físicas a partir de datos visuales. Una demostración en línea, código, más casos y conjuntos de datos anotados están disponibles en https://Gaussian-Property.github.io.

IDArb: Descomposición Intrínseca para un Número Arbitrario de Vistas de Entrada e Iluminaciones
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Dec 16, 2024
Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
122

Capturar información geométrica y material de imágenes sigue siendo un desafío fundamental en visión por computadora y gráficos. Los métodos tradicionales basados en optimización a menudo requieren horas de tiempo computacional para reconstruir geometría, propiedades de materiales e iluminación ambiental a partir de entradas densas de múltiples vistas, y aún así luchan con las ambigüedades inherentes entre iluminación y material. Por otro lado, los enfoques basados en aprendizaje aprovechan priors de material ricos de conjuntos de datos de objetos 3D existentes pero enfrentan desafíos para mantener la consistencia de múltiples vistas. En este documento, presentamos IDArb, un modelo basado en difusión diseñado para realizar una descomposición intrínseca en un número arbitrario de imágenes bajo iluminaciones variables. Nuestro método logra una estimación precisa y consistente de múltiples vistas en normales de superficie y propiedades de materiales. Esto es posible a través de un módulo de atención novedoso de vista cruzada y dominio cruzado y una estrategia de entrenamiento adaptativa a la vista y aumentada por iluminación. Además, presentamos ARB-Objaverse, un nuevo conjunto de datos que proporciona datos intrínsecos de múltiples vistas a gran escala y renderizaciones bajo diversas condiciones de iluminación, que respaldan un entrenamiento robusto. Experimentos extensos demuestran que IDArb supera a los métodos de vanguardia tanto cualitativa como cuantitativamente. Además, nuestro enfoque facilita una variedad de tareas posteriores, incluyendo relighting de una sola imagen, estéreo fotométrico y reconstrucción 3D, resaltando sus amplias aplicaciones en la creación de contenido 3D realista.

VividFace: Un Marco Híbrido Basado en Difusión para el Intercambio de Caras en Video de Alta Fidelidad
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Dec 15, 2024
Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
122

El intercambio de rostros en videos está ganando popularidad en diversas aplicaciones, sin embargo, los métodos existentes se centran principalmente en imágenes estáticas y tienen dificultades con el intercambio de rostros en videos debido a la consistencia temporal y escenarios complejos. En este documento, presentamos el primer marco basado en difusión diseñado específicamente para el intercambio de rostros en videos. Nuestro enfoque introduce un novedoso marco de entrenamiento híbrido de imagen-video que aprovecha tanto datos abundantes de imágenes estáticas como secuencias temporales de video, abordando las limitaciones inherentes del entrenamiento solo con videos. El marco incorpora un modelo de difusión especialmente diseñado junto con un VidFaceVAE que procesa eficazmente ambos tipos de datos para mantener mejor la coherencia temporal de los videos generados. Para desentrañar aún más las características de identidad y pose, construimos el Conjunto de Datos de Tripletes de Desentrañamiento de Atributos-Identidad (AIDT), donde cada triplete tiene tres imágenes faciales, con dos imágenes compartiendo la misma pose y dos compartiendo la misma identidad. Mejorado con una amplia aumentación de oclusiones, este conjunto de datos también mejora la robustez contra oclusiones. Además, integramos técnicas de reconstrucción 3D como condicionantes de entrada a nuestra red para manejar variaciones de pose amplias. Experimentos extensos demuestran que nuestro marco logra un rendimiento superior en preservación de identidad, consistencia temporal y calidad visual en comparación con los métodos existentes, al tiempo que requiere menos pasos de inferencia. Nuestro enfoque mitiga eficazmente los desafíos clave en el intercambio de rostros en videos, incluyendo parpadeo temporal, preservación de identidad y robustez ante oclusiones y variaciones de pose.

SepLLM: Acelerar Modelos de Lenguaje Grandes Comprimiendo un Segmento en un Separador
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Dec 16, 2024
Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
115

Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un rendimiento excepcional en una variedad de tareas de procesamiento de lenguaje natural. Sin embargo, sus tamaños substanciales plantean desafíos considerables, especialmente en términos de demandas computacionales y velocidad de inferencia, debido a su complejidad cuadrática. En este trabajo, hemos identificado un patrón clave: ciertos tokens especiales aparentemente sin significado (es decir, separadores) contribuyen de manera desproporcionada a las puntuaciones de atención en comparación con los tokens semánticamente significativos. Esta observación sugiere que la información de los segmentos entre estos tokens separadores puede ser efectivamente condensada en los propios tokens separadores sin una pérdida significativa de información. Guiados por esta perspicacia, presentamos SepLLM, un marco plug-and-play que acelera la inferencia comprimiendo estos segmentos y eliminando tokens redundantes. Además, implementamos núcleos eficientes para acelerar el entrenamiento. Los resultados experimentales en configuraciones sin entrenamiento, entrenamiento desde cero y post-entrenamiento demuestran la efectividad de SepLLM. Destacadamente, utilizando el esqueleto Llama-3-8B, SepLLM logra una reducción de más del 50% en la caché KV en la prueba GSM8K-CoT manteniendo un rendimiento comparable. Además, en configuraciones de transmisión, SepLLM procesa eficazmente secuencias de hasta 4 millones de tokens o más manteniendo capacidades consistentes de modelado de lenguaje.

StrandHead: Texto a Avatares de Cabeza 3D Desenredados en Hebras Utilizando Priors Geométricos del Cabello
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Dec 16, 2024
Xiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang
112

Mientras que el corte de cabello indica una personalidad distintiva, los métodos existentes de generación de avatares no logran modelar de manera práctica el cabello debido a la representación general o enredada. Proponemos StrandHead, un novedoso método de generación de avatares de cabeza en 3D a partir de texto capaz de generar cabello en 3D desenredado con representación de hebras. Sin utilizar datos en 3D para supervisión, demostramos que se pueden generar hebras de cabello realistas a partir de indicaciones mediante la destilación de modelos de difusión generativa en 2D. Con este fin, proponemos una serie de prioridades confiables en la inicialización de la forma, en las primitivas geométricas y en las características estadísticas del corte de cabello, lo que conduce a una optimización estable y un rendimiento alineado con el texto. Experimentos extensos muestran que StrandHead logra el estado del arte en realidad y diversidad de cabezas y cabellos en 3D generados. El cabello en 3D generado también se puede implementar fácilmente en Unreal Engine para simulación física y otras aplicaciones. El código estará disponible en https://xiaokunsun.github.io/StrandHead.github.io.

La Ventaja del Código Abierto en Modelos de Lenguaje de Gran Escala (LLMs)
The Open Source Advantage in Large Language Models (LLMs)

Dec 16, 2024
Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser
102

Los modelos de lenguaje grandes (LLMs) representan un cambio fundamental en el procesamiento del lenguaje natural (NLP), habiendo avanzado en la generación de texto, traducción y razonamiento específico de dominio. Modelos de código cerrado como GPT-4, impulsados por conjuntos de datos propietarios y recursos computacionales extensos, lideran con un rendimiento de vanguardia en la actualidad. Sin embargo, enfrentan críticas por su naturaleza de "caja negra" y por limitar la accesibilidad de una manera que obstaculiza la reproducibilidad y el desarrollo equitativo de la IA. En contraste, iniciativas de código abierto como LLaMA y BLOOM priorizan la democratización a través del desarrollo impulsado por la comunidad y la eficiencia computacional. Estos modelos han reducido significativamente las brechas de rendimiento, especialmente en diversidad lingüística y aplicaciones específicas de dominio, al tiempo que proporcionan herramientas accesibles para investigadores y desarrolladores globales. Es importante destacar que ambos paradigmas se basan en innovaciones arquitectónicas fundamentales, como el marco Transformer de Vaswani et al. (2017). Los modelos de código cerrado destacan al escalar de manera efectiva, mientras que los modelos de código abierto se adaptan a aplicaciones del mundo real en idiomas y dominios subrepresentados. Técnicas como Adaptación de Bajo Rango (LoRA) y conjuntos de datos de ajuste de instrucciones permiten a los modelos de código abierto lograr resultados competitivos a pesar de recursos limitados. Sin duda, la tensión entre enfoques de código cerrado y de código abierto subraya un debate más amplio sobre transparencia versus control propietario en la IA. Consideraciones éticas resaltan aún más esta división. Los sistemas de código cerrado restringen el escrutinio externo, mientras que los modelos de código abierto promueven la reproducibilidad y la colaboración pero carecen de marcos de documentación de auditoría estandarizados para mitigar sesgos. En el futuro de la innovación de LLM, es probable que enfoques híbridos que aprovechen las fortalezas de ambos paradigmas moldeen la accesibilidad, el rendimiento técnico competitivo y el despliegue ético.

Emma-X: Un modelo de acción multimodal encarnado con una cadena fundamentada de pensamiento y razonamiento espacial de anticipación.
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Dec 16, 2024
Qi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria
92

Los métodos tradicionales de control robótico basados en aprendizaje por refuerzo suelen ser específicos de la tarea y no logran generalizar en entornos diversos u objetos e instrucciones no vistos. Los Modelos Visuales de Lenguaje (VLMs) demuestran una sólida comprensión de escenas y capacidades de planificación, pero carecen de la habilidad para generar políticas ejecutables adaptadas a encarnaciones robóticas específicas. Para abordar esto, han surgido los modelos Visual-Lenguaje-Acción (VLA), aunque enfrentan desafíos en razonamiento espacial a largo plazo y planificación de tareas fundamentadas. En este trabajo, proponemos el Modelo de Acción Multimodal Encarnado con Cadena de Pensamiento Fundamentada y Razonamiento Espacial de Mirada Adelantada, Emma-X. Emma-X aprovecha nuestro conjunto de datos jerárquico construido basado en BridgeV2, que contiene 60,000 trayectorias de manipulación de robots autoanotadas con razonamiento de tareas fundamentadas y orientación espacial. Además, introducimos una estrategia de segmentación de trayectorias basada en estados de pinza y trayectorias de movimiento, que puede ayudar a mitigar la alucinación en la generación de razonamiento de subtareas fundamentadas. Los resultados experimentales demuestran que Emma-X logra un rendimiento superior sobre líneas base competitivas, especialmente en tareas robóticas del mundo real que requieren razonamiento espacial.

Matrices Maravillosas: Combinándose para una Arquitectura de Modelo Base más Eficiente y Efectiva
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Dec 16, 2024
Jingze Shi, Bingheng Wu
82

Con el fin de hacer que el modelo base sea más eficiente y efectivo, nuestra idea es combinar la transformación de secuencias y la transformación de estados. Primero, demostramos la disponibilidad de la inserción de posición rotativa en el algoritmo de dualidad del espacio de estados, lo que reduce la perplejidad de la autoatención causal cuadrática híbrida y la dualidad del espacio de estados en más del 4%, para garantizar que la transformación de secuencias combinada unifique la codificación de posiciones. En segundo lugar, proponemos la atención de máscara dinámica, que mantiene una precisión del 100% en la tarea más desafiante de recuperación asociativa de múltiples consultas, mejorando en más del 150% en comparación con la autoatención causal cuadrática y la dualidad del espacio de estados, para garantizar que la transformación de secuencias combinada filtre selectivamente la información relevante. En tercer lugar, diseñamos una mezcla de expertos de dominios cruzados, que hace que la velocidad computacional de recuperación de expertos con más de 1024 expertos sea de 8 a 10 veces más rápida que la mezcla de expertos, para garantizar que la transformación de estados combinada recupere rápidamente la mezcla. Finalmente, resumimos estos algoritmos matriciales que pueden formar el modelo base: Matrices Maravillosas, que pueden competir con arquitecturas de modelos populares.

DynamicScaler: Generación de Video Fluida y Escalable para Escenas Panorámicas
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Dec 15, 2024
Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
72

La creciente demanda de aplicaciones inmersivas de RA/RV e inteligencia espacial ha aumentado la necesidad de generar videos panorámicos de alta calidad a nivel de escena y 360 grados. Sin embargo, la mayoría de los modelos de difusión de video se ven limitados por la resolución y la relación de aspecto, lo que restringe su aplicabilidad a la síntesis de contenido dinámico a nivel de escena. En este trabajo, proponemos el DynamicScaler, abordando estos desafíos al permitir la síntesis de escenas dinámicas espacialmente escalables y panorámicas que preservan la coherencia a lo largo de escenas panorámicas de tamaño arbitrario. Específicamente, presentamos un Denoiser de Desplazamiento de Offset, facilitando el denoising eficiente, sincrónico y coherente de escenas dinámicas panorámicas a través de un modelo de difusión con resolución fija mediante una Ventana giratoria sin fisuras, que garantiza transiciones de límites sin problemas y consistencia en todo el espacio panorámico, adaptándose a diferentes resoluciones y relaciones de aspecto. Además, empleamos un mecanismo de Guía de Movimiento Global para asegurar tanto la fidelidad de los detalles locales como la continuidad del movimiento global. Experimentos extensos demuestran que nuestro método logra una calidad de contenido y movimiento superior en la generación de videos a nivel de escena panorámica, ofreciendo una solución eficiente, escalable y sin necesidad de entrenamiento para la creación de escenas dinámicas inmersivas con un consumo constante de VRAM independientemente de la resolución del video de salida. Nuestra página del proyecto está disponible en https://dynamic-scaler.pages.dev/.

SplineGS: Spline Robusto Adaptativo al Movimiento para Gaussiana 3D Dinámica en Tiempo Real a partir de Video Monocular
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Dec 13, 2024
Jongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim
73

La síntesis de nuevas vistas a partir de videos monoculares en entornos naturales es un desafío debido a la dinámica de la escena y la falta de señales de múltiples vistas. Para abordar esto, proponemos SplineGS, un marco dinámico de Splatting Gaussiano 3D (3DGS) sin COLMAP para la reconstrucción de alta calidad y renderizado rápido a partir de videos monoculares. En su núcleo se encuentra un novedoso método de Spline Adaptativo al Movimiento (MAS), que representa trayectorias gaussianas 3D dinámicas continuas utilizando splines cúbicos de Hermite con un pequeño número de puntos de control. Para MAS, introducimos un método de Poda de Puntos de Control Adaptativo al Movimiento (MACP) para modelar la deformación de cada gaussiana 3D dinámica a través de movimientos variables, podando progresivamente puntos de control mientras se mantiene la integridad del modelado dinámico. Además, presentamos una estrategia de optimización conjunta para la estimación de parámetros de cámara y atributos gaussianos 3D, aprovechando la consistencia fotométrica y geométrica. Esto elimina la necesidad de preprocesamiento de Estructura a partir del Movimiento y mejora la robustez de SplineGS en condiciones del mundo real. Los experimentos muestran que SplineGS supera significativamente a los métodos de vanguardia en calidad de síntesis de nuevas vistas para escenas dinámicas de videos monoculares, logrando una velocidad de renderizado miles de veces más rápida.

MOVIS: Mejorando la Síntesis de Vistas Nuevas de Múltiples Objetos para Escenas Interiores
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Dec 16, 2024
Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang
62

Reutilizar modelos de difusión pre-entrenados ha demostrado ser efectivo para NVS. Sin embargo, estos métodos están mayormente limitados a un solo objeto; aplicar directamente dichos métodos a escenarios compuestos de múltiples objetos resulta en resultados inferiores, especialmente en la colocación incorrecta de objetos y en una forma y apariencia inconsistentes bajo vistas novedosas. Cómo mejorar y evaluar sistemáticamente la consistencia entre vistas de tales modelos sigue siendo poco explorado. Para abordar este problema, proponemos MOVIS para mejorar la conciencia estructural del modelo de difusión condicionado por vista para NVS de múltiples objetos en términos de entradas del modelo, tareas auxiliares y estrategia de entrenamiento. Primero, inyectamos características conscientes de la estructura, incluyendo profundidad y máscara de objeto, en la U-Net de eliminación de ruido para mejorar la comprensión del modelo de instancias de objetos y sus relaciones espaciales. Segundo, introducimos una tarea auxiliar que requiere que el modelo prediga simultáneamente máscaras de objetos de vista novedosa, mejorando aún más la capacidad del modelo para diferenciar y colocar objetos. Finalmente, realizamos un análisis exhaustivo del proceso de muestreo de difusión y diseñamos cuidadosamente un programador de muestreo de pasos guiado por la estructura durante el entrenamiento, que equilibra el aprendizaje de la colocación global de objetos y la recuperación de detalles detallados. Para evaluar sistemáticamente la plausibilidad de las imágenes sintetizadas, proponemos evaluar la consistencia entre vistas y la colocación de objetos de vista novedosa junto con métricas de NVS a nivel de imagen existentes. Experimentos extensos en conjuntos de datos sintéticos y realistas desafiantes demuestran que nuestro método exhibe fuertes capacidades de generalización y produce una síntesis de vista novedosa consistente, resaltando su potencial para guiar futuras tareas de NVS de múltiples objetos conscientes del 3D.

MaxInfoRL: Impulsando la exploración en aprendizaje por refuerzo a través de la maximización de la ganancia de información
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Dec 16, 2024
Bhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza
52

Los algoritmos de aprendizaje por refuerzo (RL) tienen como objetivo equilibrar la explotación de la estrategia actualmente óptima con la exploración de nuevas opciones que podrían llevar a recompensas más altas. La mayoría de los algoritmos de RL comunes utilizan exploración no dirigida, es decir, seleccionan secuencias aleatorias de acciones. La exploración también puede ser dirigida utilizando recompensas intrínsecas, como la curiosidad o la incertidumbre epistémica del modelo. Sin embargo, equilibrar efectivamente las recompensas de la tarea y las intrínsecas es desafiante y a menudo depende de la tarea. En este trabajo, presentamos un marco, MaxInfoRL, para equilibrar la exploración intrínseca y extrínseca. MaxInfoRL dirige la exploración hacia transiciones informativas, maximizando recompensas intrínsecas como la ganancia de información sobre la tarea subyacente. Al combinarse con la exploración de Boltzmann, este enfoque intercambia naturalmente la maximización de la función de valor con la entropía sobre estados, recompensas y acciones. Mostramos que nuestro enfoque logra un arrepentimiento sublineal en el entorno simplificado de bandas de brazo múltiple. Luego aplicamos esta formulación general a una variedad de métodos de RL sin modelo fuera de la política para espacios de estado-acción continuos, generando algoritmos novedosos que logran un rendimiento superior en problemas de exploración difíciles y escenarios complejos como tareas de control visual.

TidyBot++: Un Manipulador Móvil Holonómico de Código Abierto para el Aprendizaje de Robots
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

Dec 11, 2024
Jimmy Wu, William Chong, Robert Holmberg, Aaditya Prasad, Yihuai Gao, Oussama Khatib, Shuran Song, Szymon Rusinkiewicz, Jeannette Bohg
52

Explotar la promesa de los recientes avances en aprendizaje por imitación para la manipulación móvil requerirá la recopilación de un gran número de demostraciones guiadas por humanos. Este artículo propone un diseño de código abierto para un manipulador móvil económico, robusto y flexible que puede soportar brazos arbitrarios, permitiendo una amplia gama de tareas de manipulación móvil en el hogar del mundo real. Esencialmente, nuestro diseño utiliza ruedas motorizadas para permitir que la base móvil sea completamente holonómica, capaz de controlar todos los grados de libertad planares de forma independiente y simultánea. Esta característica hace que la base sea más maniobrable y simplifica muchas tareas de manipulación móvil, eliminando las restricciones cinemáticas que crean movimientos complejos y que consumen tiempo en bases no holonómicas. Equipamos nuestro robot con una interfaz intuitiva de teleoperación de teléfono móvil para facilitar la adquisición de datos para el aprendizaje por imitación. En nuestros experimentos, utilizamos esta interfaz para recopilar datos y demostrar que las políticas aprendidas resultantes pueden realizar con éxito una variedad de tareas comunes de manipulación móvil en el hogar.

GeoX: Resolución de Problemas Geométricos a Través del Preentrenamiento Unificado Formalizado de Visión-Lenguaje
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Dec 16, 2024
Renqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang
42

A pesar de su competencia en tareas generales, los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) enfrentan dificultades con la Resolución Automática de Problemas de Geometría (GPS), que requiere comprender diagramas, interpretar símbolos y realizar razonamientos complejos. Esta limitación surge de su pre-entrenamiento en imágenes y textos naturales, junto con la falta de verificación automatizada en el proceso de resolución de problemas. Además, los especialistas geométricos actuales están limitados por sus diseños específicos de tarea, lo que los hace menos efectivos para problemas geométricos más amplios. Con este fin, presentamos GeoX, un modelo grande multimodal centrado en tareas de comprensión y razonamiento geométrico. Dadas las diferencias significativas entre diagramas-símbolo geométricos e imagen-texto natural, introducimos un pre-entrenamiento unimodal para desarrollar un codificador de diagramas y un decodificador de símbolos, mejorando la comprensión de imágenes y corpora geométricos. Además, presentamos el alineamiento geometría-lenguaje, un paradigma efectivo de pre-entrenamiento que reduce la brecha de modalidad entre expertos geométricos unimodales. Proponemos un Transformador Generador y Muestreador (GS-Former) para generar consultas discriminativas y eliminar representaciones no informativas de señales geométricas distribuidas de manera desigual. Finalmente, GeoX se beneficia de la sintonización de instrucciones visuales, capacitándolo para tomar imágenes y preguntas geométricas como entrada y generar soluciones verificables. Los experimentos muestran que GeoX supera tanto a generalistas como a especialistas geométricos en benchmarks reconocidos públicamente, como GeoQA, UniGeo, Geometry3K y PGPS9k.

Whisper-GPT: Un Modelo de Lenguaje Grande de Representación Híbrida de Audio
Whisper-GPT: A Hybrid Representation Audio Large Language Model

Dec 16, 2024
Prateek Verma
42

Proponemos WHISPER-GPT: un modelo de lenguaje grande generativo (LLM, por sus siglas en inglés) para habla y música que nos permite trabajar con representaciones de audio continuas y tokens discretos simultáneamente como parte de una arquitectura única. Ha habido un gran aumento en modelos generativos de audio, habla y música que utilizan tokens de audio discretos derivados de algoritmos de compresión neuronal, por ejemplo, ENCODEC. Sin embargo, uno de los principales inconvenientes de este enfoque es el manejo de la longitud del contexto. Se vuelve inmanejable para una arquitectura generativa de alta fidelidad si se tiene que tener en cuenta todo el contenido de audio en varias frecuencias para la predicción del siguiente token. Al combinar una representación de audio continua como el espectrograma y tokens acústicos discretos, conservamos lo mejor de ambos mundos: tener toda la información necesaria del audio en un instante de tiempo específico en un solo token, pero permitir que el LLM prediga el token futuro para permitir el muestreo y otros beneficios que proporciona el espacio discreto. Mostramos cómo nuestra arquitectura mejora la perplejidad y los puntajes de probabilidad logarítmica negativa para la predicción del siguiente token en comparación con un LLM basado en tokens para habla y música.

Una simple transformación es suficiente para la protección de datos en el Aprendizaje Federado Vertical.
Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning

Dec 16, 2024
Andrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov
22

El Aprendizaje Federado Vertical (VFL) tiene como objetivo permitir el entrenamiento colaborativo de modelos de aprendizaje profundo manteniendo la protección de la privacidad. Sin embargo, el procedimiento de VFL todavía tiene componentes que son vulnerables a ataques por parte de partes maliciosas. En nuestro trabajo, consideramos los ataques de reconstrucción de características, un riesgo común que apunta a comprometer los datos de entrada. Teóricamente afirmamos que los ataques de reconstrucción de características no pueden tener éxito sin conocimiento de la distribución previa de los datos. En consecuencia, demostramos que incluso transformaciones simples en la arquitectura del modelo pueden impactar significativamente la protección de los datos de entrada durante el VFL. Confirmamos estos hallazgos con resultados experimentales, mostrando que los modelos basados en MLP son resistentes a los ataques de reconstrucción de características de vanguardia.

Protección casi gratuita contra la imitación mediante modelos de difusión personalizados
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Dec 16, 2024
Namhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, Daesik Kim, Seung-Hun Nam
22

Los avances recientes en modelos de difusión revolucionan la generación de imágenes pero plantean riesgos de uso indebido, como la replicación de obras de arte o la generación de deepfakes. Los métodos existentes de protección de imágenes, aunque efectivos, luchan por equilibrar la eficacia de protección, invisibilidad y latencia, limitando así su uso práctico. Introducimos el pre-entrenamiento de perturbaciones para reducir la latencia y proponemos un enfoque de mezcla de perturbaciones que se adapta dinámicamente a las imágenes de entrada para minimizar la degradación del rendimiento. Nuestra estrategia de entrenamiento novedosa calcula la pérdida de protección en múltiples espacios de características VAE, mientras que la protección dirigida adaptativa en la inferencia mejora la robustez y la invisibilidad. Los experimentos muestran un rendimiento de protección comparable con una invisibilidad mejorada y un tiempo de inferencia drásticamente reducido. El código y la demostración están disponibles en https://webtoon.github.io/impasto

Tablas de clasificación confiables, reproducibles y realmente rápidas con Evalica.
Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Dec 15, 2024
Dmitry Ustalov
22

El rápido avance de las tecnologías de procesamiento de lenguaje natural (NLP), como los modelos de lenguaje grandes (LLMs) ajustados a instrucciones, insta al desarrollo de protocolos de evaluación modernos con retroalimentación humana y de máquina. Presentamos Evalica, una herramienta de código abierto que facilita la creación de tablas de clasificación de modelos confiables y reproducibles. Este artículo presenta su diseño, evalúa su rendimiento y demuestra su usabilidad a través de su interfaz web, interfaz de línea de comandos y API de Python.

RLDG: Destilación de Políticas Robóticas Generalistas a través del Aprendizaje por Refuerzo
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Dec 13, 2024
Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
22

Los recientes avances en los modelos fundamentales de robótica han permitido el desarrollo de políticas generalistas que pueden adaptarse a diversas tareas. Si bien estos modelos muestran una flexibilidad impresionante, su rendimiento depende en gran medida de la calidad de sus datos de entrenamiento. En este trabajo, proponemos Generalistas Destilados de Aprendizaje por Refuerzo (RLDG), un método que aprovecha el aprendizaje por refuerzo para generar datos de entrenamiento de alta calidad para el ajuste fino de políticas generalistas. A través de extensos experimentos del mundo real en tareas de manipulación precisa como la inserción de conectores y ensamblaje, demostramos que las políticas generalistas entrenadas con datos generados por RL superan consistentemente a aquellas entrenadas con demostraciones humanas, logrando tasas de éxito hasta un 40% más altas y generalizando mejor a nuevas tareas. También proporcionamos un análisis detallado que revela que esta mejora de rendimiento se debe tanto a distribuciones de acciones optimizadas como a una mejor cobertura de estados. Nuestros resultados sugieren que combinar RL específico de la tarea con la destilación de políticas generalistas ofrece un enfoque prometedor para desarrollar sistemas de manipulación robótica más capaces y eficientes que mantienen la flexibilidad de los modelos fundamentales al tiempo que logran el rendimiento de controladores especializados. Los videos y el código se pueden encontrar en nuestro sitio web del proyecto https://generalist-distillation.github.io

Dec 16
Dec 17
Dec 18