ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Más Inteligente, Mejor, Más Rápido, Más Largo: Un Codificador Bidireccional Moderno para un Ajuste Fino y una Inferencia Rápidos, Eficientes en Memoria y con Contextos Extensos
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Dec 18, 2024
Benjamin Warner, Antoine Chaffin, Benjamin Clavié, Orion Weller, Oskar Hallström, Said Taghadouini, Alexis Gallagher, Raja Biswas, Faisal Ladhak, Tom Aarsen, Nathan Cooper, Griffin Adams, Jeremy Howard, Iacopo Poli
15116

Los modelos de transformadores solo codificador como BERT ofrecen un excelente equilibrio entre rendimiento y tamaño para tareas de recuperación y clasificación en comparación con modelos solo decodificador más grandes. A pesar de ser el caballo de batalla de numerosos flujos de producción, ha habido mejoras de Pareto limitadas en BERT desde su lanzamiento. En este artículo, presentamos ModernBERT, que incorpora optimizaciones de modelos modernos a modelos solo codificador y representa una mejora de Pareto importante sobre codificadores más antiguos. Entrenados con 2 billones de tokens con una longitud de secuencia nativa de 8192, los modelos de ModernBERT muestran resultados de vanguardia en una amplia gama de evaluaciones que abarcan diversas tareas de clasificación y recuperación de vectores únicos y múltiples en diferentes dominios (incluido el código). Además de un sólido rendimiento en tareas posteriores, ModernBERT es también el codificador más eficiente en velocidad y memoria, y está diseñado para inferencias en GPU comunes.

AniDoc: Creación de Animaciones Simplificada
AniDoc: Animation Creation Made Easier

Dec 18, 2024
Yihao Meng, Hao Ouyang, Hanlin Wang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Zhiheng Liu, Yujun Shen, Huamin Qu
572

La producción de animación 2D sigue un flujo de trabajo estándar en la industria, que abarca cuatro etapas esenciales: diseño de personajes, animación de fotogramas clave, intercalado y coloración. Nuestra investigación se centra en reducir los costos laborales en el proceso mencionado, aprovechando el potencial de la inteligencia artificial generativa cada vez más poderosa. Utilizando modelos de difusión de video como base, AniDoc surge como una herramienta de colorización de líneas de video, que convierte automáticamente secuencias de bocetos en animaciones a color siguiendo la especificación del personaje de referencia. Nuestro modelo explota el emparejamiento de correspondencias como una guía explícita, lo que proporciona una gran robustez a las variaciones (por ejemplo, postura) entre el personaje de referencia y cada fotograma de línea de arte. Además, nuestro modelo podría automatizar incluso el proceso de intercalado, de modo que los usuarios puedan crear fácilmente una animación temporalmente consistente simplemente proporcionando una imagen de personaje, así como los bocetos de inicio y final. Nuestro código está disponible en: https://yihao-meng.github.io/AniDoc_demo.

TheAgentCompany: Evaluación comparativa de Agentes LLM en Tareas Consecuentes del Mundo Real
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Dec 18, 2024
Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
522

Interactuamos con computadoras a diario, ya sea en la vida cotidiana o en el trabajo, y muchos aspectos laborales pueden realizarse completamente con acceso a una computadora e Internet. Al mismo tiempo, gracias a las mejoras en los grandes modelos de lenguaje (LLMs), también ha habido un rápido desarrollo en agentes de IA que interactúan y provocan cambios en sus entornos circundantes. Pero, ¿qué tan eficientes son los agentes de IA para ayudar a acelerar o incluso realizar de forma autónoma tareas laborales? La respuesta a esta pregunta tiene importantes implicaciones tanto para la industria que busca adoptar la IA en sus flujos de trabajo, como para la política económica para comprender los efectos que la adopción de la IA puede tener en el mercado laboral. Para medir el progreso del rendimiento de estos agentes LLM en la realización de tareas profesionales del mundo real, en este documento, presentamos TheAgentCompany, un banco de pruebas ampliable para evaluar agentes de IA que interactúan con el mundo de manera similar a la de un trabajador digital: navegando por la web, escribiendo código, ejecutando programas y comunicándose con otros compañeros de trabajo. Creamos un entorno autosuficiente con sitios web internos y datos que imitan un entorno de una pequeña empresa de software, y creamos una variedad de tareas que podrían ser realizadas por trabajadores en dicha empresa. Probamos agentes de referencia alimentados tanto por modelos de lenguaje (LMs) basados en API cerradas como por modelos de lenguaje con pesos abiertos, y descubrimos que con el agente más competitivo, el 24% de las tareas pueden completarse de forma autónoma. Esto ofrece una imagen matizada sobre la automatización de tareas con agentes LM: en un entorno que simula un lugar de trabajo real, una buena parte de las tareas más simples podrían resolverse de forma autónoma, pero las tareas más difíciles a largo plazo aún están fuera del alcance de los sistemas actuales.

No más Adam: Escalar la tasa de aprendizaje en la inicialización es todo lo que necesitas.
No More Adam: Learning Rate Scaling at Initialization is All You Need

Dec 16, 2024
Minghao Xu, Lichuan Xiang, Xu Cai, Hongkai Wen
442

En este trabajo, cuestionamos la necesidad de los métodos de gradiente adaptativo para el entrenamiento de redes neuronales profundas. SGD-SaI es una mejora simple pero efectiva de la descenso de gradiente estocástico con momento (SGDM). SGD-SaI realiza Escalado de tasa de aprendizaje en la Inicialización (SaI) para grupos de parámetros distintos, guiados por sus respectivas relaciones señal-ruido de gradiente (g-SNR). Al ajustar las tasas de aprendizaje sin depender de un momento adaptativo de segundo orden, SGD-SaI ayuda a prevenir desequilibrios en el entrenamiento desde la primera iteración y reduce a la mitad el uso de memoria del optimizador en comparación con AdamW. A pesar de su simplicidad y eficiencia, SGD-SaI coincide o supera consistentemente a AdamW en el entrenamiento de una variedad de tareas basadas en Transformadores, superando efectivamente un desafío de larga data en el uso de SGD para entrenar Transformadores. SGD-SaI destaca en la clasificación de ImageNet-1K con Transformadores de Visión (ViT) y en el preentrenamiento de GPT-2 para modelos de lenguaje grandes (LLMs, solo decodificador de transformador), demostrando robustez ante variaciones de hiperparámetros y practicidad para diversas aplicaciones. Probamos además su robustez en tareas como el ajuste fino de LoRA para LLMs y modelos de difusión, donde supera consistentemente a optimizadores de última generación. Desde una perspectiva de eficiencia de memoria, SGD-SaI logra ahorros sustanciales de memoria para los estados del optimizador, reduciendo el uso de memoria en 5.93 GB para GPT-2 (1.5B parámetros) y 25.15 GB para Llama2-7B en comparación con AdamW en configuraciones de entrenamiento de precisión completa.

Agentes de Interfaz Gráfica de Usuario: Una Encuesta
GUI Agents: A Survey

Dec 18, 2024
Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
292

Los agentes de Interfaz Gráfica de Usuario (GUI), impulsados por Modelos de Gran Escala, han surgido como un enfoque transformador para automatizar la interacción humano-computadora. Estos agentes interactúan de forma autónoma con sistemas digitales o aplicaciones de software a través de GUIs, emulando acciones humanas como hacer clic, escribir y navegar elementos visuales en diversas plataformas. Motivados por el creciente interés y la importancia fundamental de los agentes GUI, proporcionamos un estudio exhaustivo que categoriza sus puntos de referencia, métricas de evaluación, arquitecturas y métodos de entrenamiento. Proponemos un marco unificado que delinea sus capacidades de percepción, razonamiento, planificación y actuación. Además, identificamos importantes desafíos abiertos y discutimos las principales direcciones futuras. Finalmente, este trabajo sirve como base para que los profesionales e investigadores obtengan una comprensión intuitiva del progreso actual, técnicas, puntos de referencia y problemas abiertos críticos que aún deben abordarse.

Pensando en el Espacio: Cómo los Modelos de Lenguaje Multimodales de Gran Tamaño Perciben, Recuerdan y Recuperan Espacios
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Dec 18, 2024
Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie
242

Los humanos poseen la inteligencia visual-espacial para recordar espacios a partir de observaciones visuales secuenciales. Sin embargo, ¿pueden los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) entrenados en conjuntos de datos de videos a gran escala también "pensar en el espacio" a partir de videos? Presentamos un nuevo banco de pruebas de inteligencia visual-espacial basado en videos (VSI-Bench) con más de 5,000 pares de preguntas y respuestas, y descubrimos que los MLLMs muestran una inteligencia visual-espacial competitiva, aunque subhumana. Indagamos en los modelos para expresar cómo piensan en el espacio tanto lingüística como visualmente, y encontramos que si bien las capacidades de razonamiento espacial siguen siendo el principal cuello de botella para que los MLLMs alcancen un rendimiento superior en el banco de pruebas, los modelos sí desarrollan modelos locales del mundo y conciencia espacial. Es notable que las técnicas de razonamiento lingüístico predominantes (por ejemplo, cadena de pensamiento, autoconsistencia, árbol de pensamientos) no mejoran el rendimiento, mientras que la generación explícita de mapas cognitivos durante la respuesta a preguntas mejora la capacidad de distancia espacial de los MLLMs.

FastVLM: Codificación Eficiente de Visión para Modelos de Lenguaje Visual
FastVLM: Efficient Vision Encoding for Vision Language Models

Dec 17, 2024
Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
214

Escalar la resolución de la imagen de entrada es esencial para mejorar el rendimiento de los Modelos de Lenguaje Visual (VLMs), especialmente en tareas de comprensión de imágenes ricas en texto. Sin embargo, los codificadores visuales populares como ViTs se vuelven ineficientes en altas resoluciones debido al gran número de tokens y la alta latencia de codificación causada por las capas de autoatención apiladas. En diferentes resoluciones operativas, el codificador visual de un VLM puede optimizarse a lo largo de dos ejes: reduciendo la latencia de codificación y minimizando el número de tokens visuales enviados al LLM, disminuyendo así la latencia general. Basándonos en un análisis exhaustivo de eficiencia de la interacción entre la resolución de la imagen, la latencia visual, el recuento de tokens y el tamaño del LLM, presentamos FastVLM, un modelo que logra un equilibrio optimizado entre latencia, tamaño del modelo y precisión. FastVLM incorpora FastViTHD, un nuevo codificador visual híbrido diseñado para producir menos tokens y reducir significativamente el tiempo de codificación para imágenes de alta resolución. A diferencia de métodos anteriores, FastVLM logra el equilibrio óptimo entre el recuento de tokens visuales y la resolución de la imagen únicamente escalando la imagen de entrada, eliminando la necesidad de poda adicional de tokens y simplificando el diseño del modelo. En la configuración LLaVA-1.5, FastVLM logra una mejora de 3.2 veces en el tiempo hasta el primer token (TTFT) manteniendo un rendimiento similar en comparación con trabajos anteriores en los benchmarks de VLM. En comparación con LLaVa-OneVision en la resolución más alta (1152x1152), FastVLM logra un rendimiento comparable en benchmarks clave como SeedBench y MMMU, utilizando el mismo LLM de 0.5B, pero con un TTFT 85 veces más rápido y un codificador visual que es 3.4 veces más pequeño.

Mix-LN: Liberando el Poder de Capas más Profundas al Combinar Pre-LN y Post-LN
Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN

Dec 18, 2024
Pengxiang Li, Lu Yin, Shiwei Liu
202

Los Modelos de Lenguaje Grandes (LLMs) han logrado un éxito notable, sin embargo, hallazgos recientes revelan que sus capas más profundas a menudo contribuyen mínimamente y pueden ser podadas sin afectar el rendimiento general. Mientras algunos ven esto como una oportunidad para la compresión del modelo, nosotros lo identificamos como una deficiencia en el entrenamiento arraigada en el uso generalizado de la Normalización Pre-Capa (Pre-LN). Demostramos que la Pre-LN, comúnmente empleada en modelos como GPT y LLaMA, conduce a normas de gradiente disminuidas en sus capas más profundas, reduciendo su efectividad. En contraste, la Normalización Post-Capa (Post-LN) preserva normas de gradiente más grandes en las capas más profundas pero sufre de gradientes desvanecientes en las capas más tempranas. Para abordar esto, presentamos Mix-LN, una técnica de normalización novedosa que combina las fortalezas de la Pre-LN y la Post-LN dentro del mismo modelo. Mix-LN aplica Post-LN a las capas más tempranas y Pre-LN a las capas más profundas, asegurando gradientes más uniformes a lo largo de las capas. Esto permite que todas las partes de la red, tanto las capas superficiales como las profundas, contribuyan efectivamente al entrenamiento. Experimentos extensos con varios tamaños de modelo desde 70M hasta 7B demuestran que Mix-LN supera consistentemente tanto a Pre-LN como a Post-LN, promoviendo normas de gradiente más equilibradas y saludables en toda la red, y mejorando la calidad general del pre-entrenamiento de LLM. Además, demostramos que los modelos pre-entrenados con Mix-LN aprenden mejor en comparación con aquellos que utilizan Pre-LN o Post-LN durante el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), resaltando la importancia crítica de las capas profundas de alta calidad. Al abordar eficazmente las ineficiencias de las capas profundas en los LLM actuales, Mix-LN desbloquea su potencial, mejorando la capacidad del modelo sin aumentar su tamaño. Nuestro código está disponible en https://github.com/pixeli99/MixLN.

LLaVA-UHD v2: un MLLM que integra una Pirámide de Características de Alta Resolución a través de un Transformador de Ventana Jerárquico
LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

Dec 18, 2024
Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
182

En los modelos de lenguaje multimodales de gran escala (MLLMs), los transformadores de visión (ViTs) son ampliamente empleados para la codificación visual. Sin embargo, su rendimiento en la resolución de tareas MLLM universales no es satisfactorio. Atribuimos esto a la falta de información de diversos niveles visuales, lo que dificulta la alineación con la variada granularidad semántica requerida para la generación de lenguaje. Para abordar este problema, presentamos LLaVA-UHD v2, un MLLM avanzado centrado en un transformador jerárquico de ventanas que permite capturar una diversa granularidad visual mediante la construcción e integración de una pirámide de características de alta resolución. Como proyector visión-lenguaje, el transformador Hiwin consta de dos módulos principales: (i) una pirámide de características inversa, construida mediante un proceso de aumento de características derivado de ViT que utiliza detalles de alta frecuencia de una pirámide de imágenes, y (ii) atención jerárquica de ventanas, enfocándose en un conjunto de características de muestreo clave dentro de ventanas entre escalas para condensar mapas de características multinivel. Experimentos extensos demuestran que LLaVA-UHD v2 logra un rendimiento superior sobre los MLLMs existentes en benchmarks populares. Notablemente, nuestro diseño aporta un aumento promedio del 3.7% en 14 benchmarks en comparación con el método base, por ejemplo, un 9.3% en DocVQA. Ponemos a disposición públicamente todos los datos, puntos de control del modelo y código para facilitar futuras investigaciones.

FashionComposer: Generación de Imágenes de Moda Compositivas
FashionComposer: Compositional Fashion Image Generation

Dec 18, 2024
Sihui Ji, Yiyang Wang, Xi Chen, Xiaogang Xu, Hao Luo, Hengshuang Zhao
162

Presentamos FashionComposer para la generación de imágenes de moda de manera compositiva. A diferencia de métodos anteriores, FashionComposer es altamente flexible. Acepta entradas multimodales (es decir, texto de guía, modelo humano paramétrico, imagen de prenda e imagen facial) y permite personalizar la apariencia, pose y figura del humano, asignando múltiples prendas de vestir en un solo paso. Para lograr esto, primero desarrollamos un marco universal capaz de manejar diversas modalidades de entrada. Construimos datos de entrenamiento escalados para mejorar las capacidades composicionales robustas del modelo. Para acomodar múltiples imágenes de referencia (prendas de vestir y rostros) de manera fluida, organizamos estas referencias en una sola imagen como una "biblioteca de activos" y empleamos un UNet de referencia para extraer características de apariencia. Para inyectar las características de apariencia en los píxeles correctos en el resultado generado, proponemos atención de enlace de sujeto. Vincula las características de apariencia de diferentes "activos" con las características de texto correspondientes. De esta manera, el modelo puede entender cada activo según su semántica, admitiendo números y tipos arbitrarios de imágenes de referencia. Como solución integral, FashionComposer también admite muchas otras aplicaciones como la generación de álbumes humanos, diversas tareas de prueba virtual, etc.

Generación de Video Autoregresiva sin Cuantificación de Vectores
Autoregressive Video Generation without Vector Quantization

Dec 18, 2024
Haoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang
142

Este documento presenta un enfoque novedoso que permite la generación de video autoregresivo con alta eficiencia. Proponemos reformular el problema de generación de video como un modelado autoregresivo no cuantizado de predicción temporal de cuadro a cuadro y predicción espacial de conjunto a conjunto. A diferencia de la predicción de barrido de raster en modelos autoregresivos anteriores o el modelado de distribución conjunta de tokens de longitud fija en modelos de difusión, nuestro enfoque mantiene la propiedad causal de los modelos de estilo GPT para capacidades flexibles en contexto, al tiempo que aprovecha el modelado bidireccional dentro de cuadros individuales para eficiencia. Con el enfoque propuesto, entrenamos un modelo autoregresivo de video novedoso sin cuantificación de vectores, denominado NOVA. Nuestros resultados demuestran que NOVA supera a modelos autoregresivos de video anteriores en eficiencia de datos, velocidad de inferencia, fidelidad visual y fluidez de video, incluso con una capacidad de modelo mucho más pequeña, es decir, 0.6B parámetros. NOVA también supera a los modelos de difusión de imagen de última generación en tareas de generación de texto a imagen, con un costo de entrenamiento significativamente menor. Además, NOVA generaliza bien a través de duraciones de video extendidas y permite diversas aplicaciones de cero disparo en un modelo unificado. El código y los modelos están disponibles públicamente en https://github.com/baaivision/NOVA.

Profundidad de Estímulo para la Estimación de Profundidad Métrica Precisa en Resolución 4K.
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Dec 18, 2024
Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
124

Las indicaciones desempeñan un papel crítico en liberar el poder de los modelos base de lenguaje y visión para tareas específicas. Por primera vez, introducimos la idea de indicaciones en modelos base de profundidad, creando un nuevo paradigma para la estimación de profundidad métrica denominado Profundidad con Indicaciones. Específicamente, utilizamos un LiDAR de bajo costo como indicación para guiar al modelo de Profundidad con Indicaciones hacia una salida precisa de profundidad métrica, logrando una resolución de hasta 4K. Nuestro enfoque se centra en un diseño conciso de fusión de indicaciones que integra el LiDAR en múltiples escalas dentro del decodificador de profundidad. Para abordar los desafíos de entrenamiento planteados por conjuntos de datos limitados que contienen tanto la profundidad del LiDAR como la profundidad GT precisa, proponemos un canal de datos escalable que incluye simulación de datos sintéticos de LiDAR y generación de profundidad GT pseudo de datos reales. Nuestro enfoque establece nuevos estados del arte en los conjuntos de datos ARKitScenes y ScanNet++ y beneficia a aplicaciones posteriores, incluida la reconstrucción 3D y la manipulación robótica generalizada.

AnySat: Un modelo de observación terrestre para cualquier resolución, escala y modalidades.
AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities

Dec 18, 2024
Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu
112

Los modelos geoespaciales deben adaptarse a la diversidad de datos de observación terrestre en términos de resoluciones, escalas y modalidades. Sin embargo, los enfoques existentes esperan configuraciones de entrada fijas, lo que limita su aplicabilidad práctica. Proponemos AnySat, un modelo multimodal basado en una arquitectura predictiva de incrustación conjunta (JEPA) y codificadores espaciales adaptables a la resolución, lo que nos permite entrenar un solo modelo en datos altamente heterogéneos de manera auto-supervisada. Para demostrar las ventajas de este enfoque unificado, compilamos GeoPlex, una colección de 5 conjuntos de datos multimodales con características variables y 11 sensores distintos. Luego, entrenamos un solo modelo potente en estos conjuntos de datos diversos simultáneamente. Una vez ajustado, logramos mejores o resultados cercanos al estado del arte en los conjuntos de datos de GeoPlex y 4 adicionales para 5 tareas de monitoreo ambiental: mapeo de cobertura terrestre, identificación de especies arbóreas, clasificación de tipos de cultivos, detección de cambios y segmentación de inundaciones. El código y los modelos están disponibles en https://github.com/gastruc/AnySat.

Políticas de Transformador de Difusión Eficiente con Mezcla de Expertos Des ruidificadores para Aprendizaje Multitarea
Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

Dec 17, 2024
Moritz Reuss, Jyothish Pari, Pulkit Agrawal, Rudolf Lioutikov
112

Las políticas de difusión se han vuelto ampliamente utilizadas en el Aprendizaje por Imitación, ofreciendo varias propiedades atractivas, como la generación de comportamientos multimodales y discontinuos. A medida que los modelos se hacen más grandes para capturar capacidades más complejas, sus demandas computacionales aumentan, como lo muestran las recientes leyes de escalado. Por lo tanto, continuar con las arquitecturas actuales presentará un obstáculo computacional. Para abordar esta brecha, proponemos Mixture-of-Denoising Experts (MoDE) como una nueva política para el Aprendizaje por Imitación. MoDE supera a las actuales políticas de difusión basadas en Transformadores de última generación al permitir un escalado eficiente de parámetros a través de expertos dispersos y enrutamiento condicionado por ruido, reduciendo tanto los parámetros activos en un 40% como los costos de inferencia en un 90% mediante el almacenamiento en caché de expertos. Nuestra arquitectura combina este escalado eficiente con un mecanismo de autoatención condicionado por ruido, permitiendo una denoising más efectiva en diferentes niveles de ruido. MoDE logra un rendimiento de última generación en 134 tareas en cuatro benchmarks establecidos de aprendizaje por imitación (CALVIN y LIBERO). Es notable que, al preentrenar MoDE con datos robóticos diversos, logramos 4.01 en CALVIN ABC y 0.95 en LIBERO-90. Supera tanto a las políticas de difusión basadas en CNN como a las basadas en Transformadores en un promedio del 57% en los 4 benchmarks, al mismo tiempo que utiliza un 90% menos de FLOPs y menos parámetros activos en comparación con las arquitecturas predeterminadas de Transformadores de difusión. Además, realizamos abstracciones exhaustivas sobre los componentes de MoDE, proporcionando ideas para diseñar arquitecturas de Transformadores eficientes y escalables para políticas de difusión. El código y las demostraciones están disponibles en https://mbreuss.github.io/MoDE_Diffusion_Policy/.

Aprendizaje a partir de vídeos humanos masivos para el control universal de posturas humanoides.
Learning from Massive Human Videos for Universal Humanoid Pose Control

Dec 18, 2024
Jiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang
102

El aprendizaje escalable de robots humanoides es crucial para su despliegue en aplicaciones del mundo real. Mientras que los enfoques tradicionales se basan principalmente en el aprendizaje por refuerzo o la teleoperación para lograr el control de todo el cuerpo, a menudo se ven limitados por la diversidad de entornos simulados y los altos costos de recopilación de demostraciones. En contraste, los videos humanos son ubicuos y representan una fuente inexplorada de información semántica y de movimiento que podría mejorar significativamente las capacidades de generalización de los robots humanoides. Este artículo presenta Humanoid-X, un conjunto de datos a gran escala de más de 20 millones de posturas de robots humanoides con descripciones de movimiento basadas en texto correspondientes, diseñado para aprovechar estos datos abundantes. Humanoid-X se cura a través de un proceso integral: extracción de datos de Internet, generación de subtítulos de video, retargeting de movimiento de humanos a robots humanoides y aprendizaje de políticas para despliegue en el mundo real. Con Humanoid-X, entrenamos además un modelo de robot humanoide grande, UH-1, que recibe instrucciones de texto como entrada y produce acciones correspondientes para controlar un robot humanoide. Experimentos extensos simulados y en el mundo real validan que nuestro enfoque de entrenamiento escalable conduce a una mejor generalización en el control de humanoides basado en texto, marcando un paso significativo hacia robots humanoides adaptables y listos para el mundo real.

RAG-RewardBench: Evaluación de Modelos de Recompensa en Generación Aumentada por Recuperación para Alineación de Preferencias
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

Dec 18, 2024
Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
92

A pesar del significativo progreso logrado por los modelos de lenguaje aumentados con recuperación (RALMs) existentes en proporcionar respuestas confiables y fundamentadas en fuentes fiables, a menudo pasan por alto la alineación efectiva con las preferencias humanas. En el proceso de alineación, los modelos de recompensa (RMs) actúan como un proxy crucial para los valores humanos que guían la optimización. Sin embargo, sigue sin estar claro cómo evaluar y seleccionar un RM confiable para la alineación de preferencias en RALMs. Con este fin, proponemos RAG-RewardBench, el primer banco de pruebas para evaluar RMs en entornos de RAG. En primer lugar, diseñamos cuatro escenarios cruciales y desafiantes específicos de RAG para evaluar RMs, que incluyen razonamiento multi-paso, citación detallada, abstención apropiada y robustez ante conflictos. Luego, incorporamos 18 subconjuntos de RAG, seis recuperadores y 24 RALMs para aumentar la diversidad de fuentes de datos. Finalmente, adoptamos un enfoque de LLM-como-juez para mejorar la eficiencia y efectividad de la anotación de preferencias, mostrando una fuerte correlación con las anotaciones humanas. Basándonos en RAG-RewardBench, realizamos una evaluación exhaustiva de 45 RMs y descubrimos sus limitaciones en escenarios de RAG. Además, también revelamos que los RALMs entrenados existentes muestran casi ninguna mejora en la alineación de preferencias, resaltando la necesidad de un cambio hacia un entrenamiento alineado con preferencias. Publicamos nuestro banco de pruebas y código públicamente en https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ para trabajos futuros.

VidTok: Un Tokenizador de Vídeo Versátil y de Código Abierto
VidTok: A Versatile and Open-Source Video Tokenizer

Dec 17, 2024
Anni Tang, Tianyu He, Junliang Guo, Xinle Cheng, Li Song, Jiang Bian
82

La codificación del contenido de video en tokens latentes compactos se ha convertido en un paso fundamental en la generación y comprensión de videos, impulsado por la necesidad de abordar la redundancia inherente en las representaciones a nivel de píxeles. En consecuencia, hay una creciente demanda de tokenizadores de video de alto rendimiento y de código abierto a medida que la investigación centrada en videos gana prominencia. Presentamos VidTok, un tokenizador de video versátil que ofrece un rendimiento de vanguardia tanto en tokenizaciones continuas como discretas. VidTok incorpora varios avances clave sobre enfoques existentes: 1) arquitectura de modelo como capas convolucionales y módulos de muestreo ascendente/descendente; 2) para abordar la inestabilidad en el entrenamiento y el colapso del libro de códigos comúnmente asociados con la cuantificación vectorial convencional (VQ), integramos la Cuantificación Escalar Finita (FSQ) en la tokenización de video discreta; 3) estrategias de entrenamiento mejoradas, que incluyen un proceso de entrenamiento de dos etapas y el uso de tasas de cuadros reducidas. Al integrar estos avances, VidTok logra mejoras sustanciales sobre los métodos existentes, demostrando un rendimiento superior en múltiples métricas, incluyendo PSNR, SSIM, LPIPS y FVD, bajo configuraciones de evaluación estandarizadas.

ChatDiT: Un Referente Sin Entrenamiento para Conversaciones de Formato Libre Agnósticas al Tarea con Transformadores de Difusión
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

Dec 17, 2024
Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou
82

Investigaciones recientes arXiv:2410.15027 arXiv:2410.23775 han destacado las capacidades inherentes de generación en contexto de transformadores de difusión preentrenados (DiTs), permitiéndoles adaptarse sin problemas a diversas tareas visuales con modificaciones arquitectónicas mínimas o nulas. Estas capacidades se desbloquean al concatenar tokens de autoatención a través de múltiples imágenes de entrada y objetivo, combinados con tuberías de generación agrupadas y enmascaradas. Sobre esta base, presentamos ChatDiT, un marco de generación visual interactivo, de propósito general y sin ajuste previo, que aprovecha los transformadores de difusión preentrenados en su forma original, sin necesidad de ajustes adicionales, adaptadores o modificaciones. Los usuarios pueden interactuar con ChatDiT para crear artículos de texto-imagen entrelazados, libros de imágenes de varias páginas, editar imágenes, diseñar derivados de propiedad intelectual o desarrollar configuraciones de diseño de personajes, todo a través de lenguaje natural de forma libre a lo largo de una o más rondas de conversación. En su núcleo, ChatDiT emplea un sistema multiagente que consta de tres componentes clave: un agente de Análisis de Instrucciones que interpreta imágenes e instrucciones cargadas por el usuario, un agente de Planificación de Estrategias que diseña acciones de generación de un solo paso o de varios pasos, y un agente de Ejecución que lleva a cabo estas acciones utilizando un conjunto de herramientas de transformadores de difusión en contexto. Evaluamos exhaustivamente ChatDiT en IDEA-Bench arXiv:2412.11767, que comprende 100 tareas de diseño del mundo real y 275 casos con instrucciones diversas y números variables de imágenes de entrada y objetivo. A pesar de su simplicidad y enfoque sin entrenamiento, ChatDiT supera a todos los competidores, incluidos aquellos diseñados y entrenados específicamente en extensos conjuntos de datos multi-tarea. Identificamos además limitaciones clave de los DiTs preentrenados en la adaptación sin ajuste previo a tareas. Publicamos todo el código, agentes, resultados y salidas intermedias para facilitar investigaciones adicionales en https://github.com/ali-vilab/ChatDiT

Falsificación de alineación en modelos de lenguaje grandes
Alignment faking in large language models

Dec 18, 2024
Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
72

Presentamos una demostración de un gran modelo de lenguaje que participa en la falsificación de alineación: cumpliendo selectivamente con su objetivo de entrenamiento para prevenir la modificación de su comportamiento fuera del entrenamiento. En primer lugar, le damos a Claude 3 Opus una indicación del sistema que indica que está siendo entrenado para responder a todas las consultas, incluso las dañinas, lo cual entra en conflicto con su entrenamiento previo para rechazar dichas consultas. Para permitir que el modelo infiera cuándo está siendo entrenado, decimos que solo se entrenará en conversaciones con usuarios gratuitos, no pagados. Encontramos que el modelo cumple con consultas dañinas de usuarios gratuitos el 14% del tiempo, en comparación con casi nunca para usuarios pagados. Explicando esta brecha, en casi todos los casos en los que el modelo cumple con una consulta dañina de un usuario gratuito, observamos un razonamiento explícito de falsificación de alineación, con el modelo indicando que responde estratégicamente a consultas dañinas en el entrenamiento para preservar su comportamiento preferido de inofensividad fuera del entrenamiento. A continuación, estudiamos un escenario más realista donde la información sobre el proceso de entrenamiento se proporciona no en una indicación del sistema, sino entrenando en documentos sintéticos que imitan datos de pre-entrenamiento, y observamos una falsificación de alineación similar. Finalmente, estudiamos el efecto de entrenar realmente al modelo para cumplir con consultas dañinas a través del aprendizaje por refuerzo, lo que aumenta la tasa de razonamiento de falsificación de alineación al 78%, aunque también aumenta el cumplimiento incluso fuera del entrenamiento. Además, observamos otros comportamientos como el modelo exfiltrando sus pesos cuando se le presenta una oportunidad fácil. Si bien facilitamos la falsificación de alineación al decirle al modelo cuándo y por qué criterios estaba siendo entrenado, no instruimos al modelo para falsificar la alineación ni le dimos ningún objetivo explícito. Dado que los modelos futuros podrían inferir información sobre su proceso de entrenamiento sin que se les diga, nuestros resultados sugieren un riesgo de falsificación de alineación en futuros modelos, ya sea debido a una preferencia benigna, como en este caso, o no.

CAD-Recode: Ingeniería Inversa de Código CAD a partir de Nubes de Puntos
CAD-Recode: Reverse Engineering CAD Code from Point Clouds

Dec 18, 2024
Danila Rukhovich, Elona Dupont, Dimitrios Mallis, Kseniya Cherenkova, Anis Kacem, Djamila Aouada
62

Los modelos de Diseño Asistido por Computadora (CAD) suelen ser construidos secuencialmente dibujando bocetos paramétricos y aplicando operaciones CAD para obtener un modelo 3D. El problema de ingeniería inversa de CAD 3D consiste en reconstruir las secuencias de bocetos y operaciones CAD a partir de representaciones 3D como nubes de puntos. En este artículo, abordamos este desafío a través de contribuciones novedosas en tres niveles: representación de secuencias CAD, diseño de redes y conjunto de datos. En particular, representamos las secuencias de boceto-extrusión de CAD como código Python. El CAD-Recode propuesto traduce una nube de puntos a código Python que, al ejecutarse, reconstruye el modelo CAD. Aprovechando la exposición de Modelos de Lenguaje Grande (LLM) pre-entrenados al código Python, utilizamos un LLM relativamente pequeño como decodificador para CAD-Recode y lo combinamos con un proyector ligero de nube de puntos. CAD-Recode se entrena únicamente en un conjunto de datos sintético propuesto de un millón de secuencias CAD diversas. CAD-Recode supera significativamente a los métodos existentes en tres conjuntos de datos mientras requiere menos puntos de entrada. Notablemente, logra una distancia de Chamfer media 10 veces menor que los métodos de vanguardia en los conjuntos de datos DeepCAD y Fusion360. Además, demostramos que nuestro código Python de CAD es interpretable por LLMs listos para usar, lo que permite la edición de CAD y responder preguntas específicas de CAD a partir de nubes de puntos.

AntiLeak-Bench: Previniendo la Contaminación de Datos mediante la Construcción Automática de Benchmarks con Conocimiento Actualizado del Mundo Real
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

Dec 18, 2024
Xiaobao Wu, Liangming Pan, Yuxi Xie, Ruiwen Zhou, Shuai Zhao, Yubo Ma, Mingzhe Du, Rui Mao, Anh Tuan Luu, William Yang Wang
62

La contaminación de datos obstaculiza la evaluación justa de LLM al introducir datos de prueba en los conjuntos de entrenamiento de modelos más nuevos. Los estudios existentes resuelven este desafío actualizando los puntos de referencia con datos recién recopilados. Sin embargo, no logran garantizar una evaluación libre de contaminación, ya que los datos recopilados recientemente pueden contener conocimientos preexistentes, y las actualizaciones de sus puntos de referencia dependen de un intenso trabajo humano. Para abordar estos problemas, en este documento proponemos AntiLeak-Bench, un marco de referencia automatizado contra la fuga de información. En lugar de simplemente utilizar datos recién recopilados, construimos muestras con conocimientos explícitamente nuevos ausentes de los conjuntos de entrenamiento de LLM, lo que garantiza una evaluación estrictamente libre de contaminación. Diseñamos además un flujo de trabajo completamente automatizado para construir y actualizar nuestro punto de referencia sin trabajo humano. Esto reduce significativamente el costo del mantenimiento del punto de referencia para adaptarse a los LLM emergentes. A través de experimentos extensos, destacamos que la contaminación de datos probablemente exista antes del tiempo límite de los LLM y demostramos que AntiLeak-Bench supera efectivamente este desafío.

Prediciendo la Apariencia Original de Documentos Históricos Dañados
Predicting the Original Appearance of Damaged Historical Documents

Dec 16, 2024
Zhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin
42

Los documentos históricos abarcan una riqueza de tesoros culturales pero sufren graves daños que incluyen caracteres faltantes, daños en el papel y erosión de la tinta con el tiempo. Sin embargo, los métodos existentes de procesamiento de documentos se centran principalmente en la binarización, mejora, etc., descuidando la reparación de estos daños. Con este fin, presentamos una nueva tarea, denominada Reparación de Documentos Históricos (HDR), que tiene como objetivo predecir la apariencia original de documentos históricos dañados. Para llenar el vacío en este campo, proponemos un conjunto de datos a gran escala HDR28K y una red basada en difusión, DiffHDR, para la reparación de documentos históricos. Específicamente, HDR28K contiene 28,552 pares de imágenes dañadas-reparadas con anotaciones a nivel de caracteres y degradaciones de múltiples estilos. Además, DiffHDR aumenta el marco de difusión básico con información semántica y espacial y una pérdida perceptual de caracteres meticulosamente diseñada para coherencia contextual y visual. Los resultados experimentales demuestran que el propuesto DiffHDR, entrenado utilizando HDR28K, supera significativamente a los enfoques existentes y muestra un rendimiento notable en el manejo de documentos dañados reales. Es importante destacar que DiffHDR también puede ser extendido a la edición de documentos y generación de bloques de texto, mostrando su alta flexibilidad y capacidad de generalización. Creemos que este estudio podría marcar una nueva dirección en el procesamiento de documentos y contribuir a la herencia de culturas y civilizaciones invaluables. El conjunto de datos y el código están disponibles en https://github.com/yeungchenwa/HDR.

Dec 18
Dec 19
Dec 20