Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

OmniDocBench: Evaluación de Análisis de Documentos PDF Diversos con Anotaciones Exhaustivas
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Dec 10, 2024

Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He

111

La extracción de contenido de documentos es crucial en visión por computadora, especialmente para satisfacer las necesidades de datos de alta calidad de grandes modelos de lenguaje (LLMs) y tecnologías de generación con recuperación aumentada (RAG). Sin embargo, los métodos actuales de análisis de documentos sufren de limitaciones significativas en términos de diversidad y evaluación exhaustiva. Para abordar estos desafíos, presentamos OmniDocBench, un nuevo banco de pruebas multiorigen diseñado para avanzar en la extracción automatizada de contenido de documentos. OmniDocBench incluye un conjunto de datos de evaluación de alta calidad meticulosamente seleccionado y anotado que comprende nueve tipos de documentos diversos, como artículos académicos, libros de texto, diapositivas, entre otros. Nuestro banco de pruebas proporciona un marco de evaluación flexible y completo con 19 etiquetas de categorías de diseño y 14 etiquetas de atributos, lo que permite evaluaciones multinivel en conjuntos de datos completos, módulos individuales o tipos de datos específicos. Utilizando OmniDocBench, realizamos un análisis comparativo exhaustivo de los pipelines modulares existentes y los métodos multimodales de extremo a extremo, resaltando sus limitaciones en el manejo de la diversidad de documentos y asegurando una evaluación justa. OmniDocBench establece un estándar de evaluación robusto, diverso y justo para el campo de extracción de contenido de documentos, ofreciendo ideas cruciales para futuros avances y fomentando el desarrollo de tecnologías de análisis de documentos. Los códigos y el conjunto de datos están disponibles en https://github.com/opendatalab/OmniDocBench.

Entrenamiento de Modelos de Lenguaje Grandes para Razonar en un Espacio Latente Continuo
Training Large Language Models to Reason in a Continuous Latent Space

Dec 9, 2024

Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian

877

Los modelos de lenguaje grandes (LLMs) están limitados a razonar en el "espacio del lenguaje", donde típicamente expresan el proceso de razonamiento con una cadena de pensamiento (CoT) para resolver un problema de razonamiento complejo. Sin embargo, argumentamos que el espacio del lenguaje no siempre es óptimo para el razonamiento. Por ejemplo, la mayoría de los tokens de palabras son principalmente para coherencia textual y no esenciales para el razonamiento, mientras que algunos tokens críticos requieren una planificación compleja y plantean enormes desafíos para los LLMs. Para explorar el potencial del razonamiento de LLM en un espacio latente no restringido en lugar de utilizar lenguaje natural, introducimos un nuevo paradigma llamado Coconut (Cadena de Pensamiento Continuo). Utilizamos el último estado oculto del LLM como representación del estado de razonamiento (llamado "pensamiento continuo"). En lugar de decodificar esto en un token de palabra, lo alimentamos de vuelta al LLM como la incrustación de entrada subsiguiente directamente en el espacio continuo. Los experimentos muestran que Coconut puede mejorar efectivamente el LLM en varias tareas de razonamiento. Este novedoso paradigma de razonamiento latente conduce a patrones de razonamiento avanzados emergentes: el pensamiento continuo puede codificar múltiples pasos de razonamiento siguientes alternativos, lo que permite al modelo realizar una búsqueda en anchura (BFS) para resolver el problema, en lugar de comprometerse prematuramente con un único camino determinista como CoT. Coconut supera a CoT en ciertas tareas de razonamiento lógico que requieren un retroceso sustancial durante la planificación, con menos tokens de pensamiento durante la inferencia. Estos hallazgos demuestran la promesa del razonamiento latente y ofrecen valiosas perspectivas para futuras investigaciones.

ProcessBench: Identificación de Errores en el Proceso en el Razonamiento Matemático
ProcessBench: Identifying Process Errors in Mathematical Reasoning

Dec 9, 2024

Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

846

Dado que los modelos de lenguaje suelen cometer errores al resolver problemas matemáticos, la identificación automatizada de errores en el proceso de razonamiento se vuelve cada vez más significativa para su supervisión escalable. En este documento, presentamos ProcessBench para medir la capacidad de identificar pasos erróneos en el razonamiento matemático. Consiste en 3,400 casos de prueba, centrados principalmente en problemas matemáticos de nivel de competición y olimpiadas. Cada caso de prueba contiene una solución paso a paso con la ubicación del error anotada por expertos humanos. Se requiere que los modelos identifiquen el paso más temprano que contiene un error, o concluyan que todos los pasos son correctos. Realizamos una evaluación exhaustiva en ProcessBench, que involucra dos tipos de modelos: modelos de recompensa de proceso (PRMs) y modelos críticos, donde para estos últimos incitamos a los modelos de lenguaje general a criticar cada paso de la solución. Extraemos dos observaciones principales: (1) Los PRMs existentes suelen fallar al generalizar a problemas matemáticos más desafiantes más allá de GSM8K y MATH. Tienen un rendimiento inferior tanto a los modelos críticos (es decir, modelos de lenguaje general incitados) como a nuestro propio PRM entrenado que se ajusta directamente en el conjunto de datos PRM800K. (2) El mejor modelo de código abierto, QwQ-32B-Preview, ha demostrado una capacidad de crítica competitiva con el modelo propietario GPT-4o, a pesar de que aún se rezaga detrás del o1-mini especializado en razonamiento. Esperamos que ProcessBench pueda fomentar futuras investigaciones en la evaluación del proceso de razonamiento, allanando el camino hacia la supervisión escalable de modelos de lenguaje.

Desentrañando la Complejidad de la Memoria en Agentes de RL: un Enfoque para Clasificación y Evaluación
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Dec 9, 2024

Egor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov

732

La incorporación de memoria en agentes es esencial para numerosas tareas dentro del ámbito del Aprendizaje por Refuerzo (RL). En particular, la memoria es fundamental para tareas que requieren la utilización de información pasada, adaptación a entornos novedosos y una mayor eficiencia en el uso de muestras. Sin embargo, el término "memoria" abarca una amplia gama de conceptos, lo cual, junto con la falta de una metodología unificada para validar la memoria de un agente, conduce a juicios erróneos sobre las capacidades de memoria de los agentes y evita la comparación objetiva con otros agentes mejorados con memoria. Este documento tiene como objetivo racionalizar el concepto de memoria en RL proporcionando definiciones precisas y prácticas de tipos de memoria de agentes, como memoria a largo plazo versus memoria a corto plazo y memoria declarativa versus memoria procedural, inspiradas en la ciencia cognitiva. Utilizando estas definiciones, categorizamos diferentes clases de memoria de agentes, proponemos una metodología experimental sólida para evaluar las capacidades de memoria de los agentes de RL y estandarizamos las evaluaciones. Además, demostramos empíricamente la importancia de adherirse a la metodología propuesta al evaluar diferentes tipos de memoria de agentes mediante la realización de experimentos con diferentes agentes de RL y las consecuencias de su violación.

Maya: Un Modelo Multilingüe Multimodal Ajustado mediante Instrucciones
Maya: An Instruction Finetuned Multilingual Multimodal Model

Dec 10, 2024

Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

292

El rápido desarrollo de grandes Modelos Visión-Lenguaje (VLMs, por sus siglas en inglés) ha llevado a resultados impresionantes en pruebas académicas, principalmente en idiomas ampliamente hablados. Sin embargo, persisten brechas significativas en la capacidad de los actuales VLMs para manejar idiomas de recursos limitados y contextos culturales variados, en gran parte debido a la falta de datos de alta calidad, diversos y verificados en cuanto a seguridad. En consecuencia, estos modelos a menudo tienen dificultades para comprender idiomas de recursos limitados y matices culturales de manera libre de toxicidad. Para abordar estas limitaciones, presentamos Maya, un modelo Multimodal Multilingüe de código abierto. Nuestras contribuciones son triples: 1) un conjunto de datos de preentrenamiento imagen-texto multilingüe en ocho idiomas, basado en el conjunto de datos de preentrenamiento LLaVA; 2) un análisis exhaustivo de toxicidad dentro del conjunto de datos LLaVA, seguido por la creación de una versión novedosa libre de toxicidad en ocho idiomas; y 3) un modelo imagen-texto multilingüe que soporta estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. Código disponible en https://github.com/nahidalam/maya.

Alrededor del Mundo en 80 Pasos de Tiempo: Un Enfoque Generativo para la Geolocalización Visual Global
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Dec 9, 2024

Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu

242

La geolocalización visual global predice dónde se capturó una imagen en la Tierra. Dado que las imágenes varían en cuán precisamente pueden ser localizadas, esta tarea implica inherentemente un grado significativo de ambigüedad. Sin embargo, los enfoques existentes son deterministas y pasan por alto este aspecto. En este documento, nuestro objetivo es cerrar la brecha entre la geolocalización tradicional y los métodos generativos modernos. Proponemos el primer enfoque generativo de geolocalización basado en difusión y emparejamiento de flujo Riemanniano, donde el proceso de eliminación de ruido opera directamente en la superficie terrestre. Nuestro modelo logra un rendimiento de vanguardia en tres conjuntos de datos de geolocalización visual: OpenStreetView-5M, YFCC-100M e iNat21. Además, introducimos la tarea de geolocalización visual probabilística, donde el modelo predice una distribución de probabilidad sobre todas las posibles ubicaciones en lugar de un único punto. Presentamos nuevas métricas y líneas de base para esta tarea, demostrando las ventajas de nuestro enfoque basado en difusión. Los códigos y modelos estarán disponibles.

Explorando Anotaciones de Conceptos Multiescalares para Modelos de Lenguaje Multimodales Grandes
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Dec 8, 2024

Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan

162

Los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs) destacan en tareas de visión y lenguaje al pre-entrenarse únicamente con anotaciones de conceptos de grano grueso (por ejemplo, subtítulos de imágenes). Hipotetizamos que integrar anotaciones de conceptos de grano fino (por ejemplo, etiquetas de objetos y regiones de objetos) mejorará aún más el rendimiento, ya que ambas granularidades de datos se complementan en términos de amplitud y profundidad en la representación de conceptos. Introducimos un nuevo conjunto de datos que presenta Anotaciones de Conceptos Multimodales de Múltiples Granularidades (MMGiC) para MLLMs. Al construir MMGiC, exploramos el impacto de diferentes recetas de datos en la comprensión y generación multimodal. Nuestros análisis revelan que las anotaciones de conceptos de múltiples granularidades se integran y se complementan entre sí, bajo nuestra plantilla estructurada y un marco general de MLLM. Exploramos claramente y demostramos el potencial de MMGiC para ayudar a los MLLMs a localizar y aprender conceptos de manera más efectiva, alineando la visión y el lenguaje en múltiples granularidades. Validamos nuestra hipótesis investigando la comparación justa y la colaboración efectiva entre MMGiC y datos de imágenes y subtítulos en 12 puntos de referencia de comprensión y generación multimodal, por ejemplo, su combinación adecuada logra mejoras absolutas del 3.95% y 2.34% sobre los datos de imágenes y subtítulos solos en POPE y SEED-Bench. El código, los datos y los modelos estarán disponibles en https://github.com/LooperXX/MMGiC.

Divot: Difusión potencia el tokenizador de video para comprensión y generación
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Dec 5, 2024

Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan

162

En los últimos años, ha habido un aumento significativo del interés en unificar la comprensión y generación de imágenes dentro de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés). Este creciente interés nos ha llevado a explorar la extensión de esta unificación a videos. El desafío central radica en desarrollar un tokenizador de video versátil que capture tanto las características espaciales como la dinámica temporal de los videos para obtener representaciones para LLMs, y estas representaciones pueden ser decodificadas posteriormente en clips de video realistas para habilitar la generación de videos. En este trabajo, presentamos Divot, un Tokenizador de Video Potenciado por Difusión, que aprovecha el proceso de difusión para el aprendizaje de representaciones de video auto-supervisado. Sostenemos que si un modelo de difusión de video puede des ruidizar efectivamente clips de video tomando las características de un tokenizador de video como condición, entonces el tokenizador ha capturado con éxito información espacial y temporal robusta. Además, el modelo de difusión de video funciona inherentemente como un des-tokenizador, decodificando videos a partir de sus representaciones. Sobre la base del tokenizador Divot, presentamos Divot-Vicuna a través de la autoregresión de video a texto y la generación de texto a video modelando las distribuciones de características Divot de valores continuos con un Modelo de Mezcla Gaussiana. Los resultados experimentales demuestran que nuestro tokenizador de video basado en difusión, cuando se integra con un LLM pre-entrenado, logra un rendimiento competitivo en diversas pruebas de comprensión y generación de video. El Divot-Vicuna afinado con instrucciones también sobresale en la narración de video, generando narrativas entrelazadas y videos correspondientes.

Lo ves, lo obtienes: Aprendizaje de Creación 3D en Videos sin Poses a Escala
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Dec 9, 2024

Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang

133

Los modelos de generación 3D recientes suelen depender de 'etiquetas de oro' 3D de escala limitada o prioridades de difusión 2D para la creación de contenido 3D. Sin embargo, su rendimiento está limitado por prioridades 3D restringidas debido a la falta de paradigmas de aprendizaje escalables. En este trabajo, presentamos See3D, un modelo de difusión multi-vista condicional visual entrenado en videos de Internet a gran escala para la creación 3D de un mundo abierto. El modelo tiene como objetivo obtener conocimiento 3D simplemente viendo los contenidos visuales de los vastos y rápidamente crecientes datos de video: Lo Ves, Lo Tienes. Para lograr esto, primero escalamos los datos de entrenamiento utilizando un pipeline de curación de datos propuesto que filtra automáticamente inconsistencias multi-vista y observaciones insuficientes de videos fuente. Esto resulta en un conjunto de datos a gran escala, de alta calidad y ricamente diverso de imágenes multi-vista, denominado WebVi3D, que contiene 320 millones de fotogramas de 16 millones de videoclips. Sin embargo, aprender prioridades 3D genéricas de videos sin anotaciones explícitas de geometría 3D o posición de cámara es complicado, y anotar poses para videos a escala web es prohibitivamente costoso. Para eliminar la necesidad de condiciones de poses, introducimos una condición visual innovadora: una señal visual puramente inductiva 2D generada mediante la adición de ruido dependiente del tiempo a los datos de video enmascarados. Finalmente, presentamos un marco de generación 3D visual-condicional novedoso integrando See3D en un pipeline basado en deformaciones para la generación 3D de alta fidelidad. Nuestras comparaciones numéricas y visuales en referencias de reconstrucción única y dispersa muestran que See3D, entrenado en datos de video rentables y escalables, logra notables capacidades de generación de mundo abierto y de cero disparo, superando notablemente a los modelos entrenados en conjuntos de datos 3D costosos y restringidos. Por favor, consulte nuestra página de proyecto en: https://vision.baai.ac.cn/see3d

Redes Delta con compuertas: Mejorando Mamba2 con la Regla Delta
Gated Delta Networks: Improving Mamba2 with Delta Rule

Dec 9, 2024

Songlin Yang, Jan Kautz, Ali Hatamizadeh

123

Los Transformadores Lineales han ganado atención como alternativas eficientes a los Transformadores estándar, pero su rendimiento en tareas de recuperación y contexto largo ha sido limitado. Para abordar estas limitaciones, trabajos recientes han explorado dos mecanismos distintos: el enrutamiento para el control adaptativo de la memoria y la regla de actualización delta para modificaciones precisas de la memoria. Observamos que estos mecanismos son complementarios: el enrutamiento permite un borrado rápido de la memoria mientras que la regla delta facilita actualizaciones dirigidas. Basándonos en esta percepción, presentamos la regla delta enrutada y desarrollamos un algoritmo de entrenamiento paralelo optimizado para hardware moderno. Nuestra arquitectura propuesta, Gated DeltaNet, supera consistentemente a modelos existentes como Mamba2 y DeltaNet en múltiples pruebas, incluyendo modelado de lenguaje, razonamiento de sentido común, recuperación en contexto, extrapolación de longitud y comprensión de contexto largo. Mejoramos aún más el rendimiento desarrollando arquitecturas híbridas que combinan capas de Gated DeltaNet con atención de ventana deslizante o capas de Mamba2, logrando tanto una eficiencia de entrenamiento mejorada como un rendimiento superior en las tareas.

MotionShop: Transferencia de Movimiento sin Entrenamiento en Modelos de Difusión de Video con Mezcla de Guía de Puntuación
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

Dec 6, 2024

Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag

En este trabajo, proponemos el primer enfoque de transferencia de movimiento en un transformador de difusión a través de la Guía de Puntuación Mixta (MSG), un marco fundamentado teóricamente para la transferencia de movimiento en modelos de difusión. Nuestra principal contribución teórica radica en reformular la puntuación condicional para descomponer la puntuación de movimiento y la puntuación de contenido en modelos de difusión. Al formular la transferencia de movimiento como una mezcla de energías potenciales, MSG conserva naturalmente la composición de la escena y permite transformaciones creativas de escenas manteniendo la integridad de los patrones de movimiento transferidos. Este muestreo novedoso opera directamente en modelos de difusión de video pre-entrenados sin necesidad de entrenamiento adicional o ajuste fino. A través de experimentos extensos, MSG demuestra un manejo exitoso de diversos escenarios que incluyen transferencia de movimiento de un solo objeto, múltiples objetos y transferencia de movimiento entre objetos, así como transferencia de movimientos de cámara complejos. Además, presentamos MotionBench, el primer conjunto de datos de transferencia de movimiento que consta de 200 videos fuente y 1000 movimientos transferidos, abarcando transferencias de un solo/múltiples objetos y movimientos de cámara complejos.

Incrustaciones Globales y Densas de la Tierra: Major TOM Flotando en el Espacio Latente
Global and Dense Embeddings of Earth: Major TOM Floating in the Latent Space

Dec 7, 2024

Mikolaj Czerkawski, Marcin Kluczek, Jędrzej S. Bojanowski

Con el creciente volumen de datos de observación de la Tierra presentes en los archivos de grandes programas como Copernicus, hay una creciente necesidad de representaciones vectoriales eficientes de los datos brutos subyacentes. El enfoque de extraer representaciones de características de redes neuronales profundas preentrenadas es un enfoque poderoso que puede proporcionar abstracciones semánticas de los datos de entrada. Sin embargo, la forma en que se realiza esto para archivos de imágenes que contienen datos geoespaciales aún no ha sido definida. En este trabajo, se propone una extensión a un proyecto comunitario existente, Major TOM, centrado en la provisión y estandarización de conjuntos de datos AI listos para la observación de la Tierra, abiertos y gratuitos. Además, se publican abierta y gratuitamente cuatro conjuntos de datos de incrustación globales y densos junto con la publicación de este manuscrito, lo que resulta en el conjunto de datos global abierto más completo de incrustaciones visuales geoespaciales en términos de la superficie terrestre cubierta.

CARP: Aprendizaje de Políticas Visuomotoras a través de Predicción Autoregresiva de Grueso a Fino
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Dec 9, 2024

Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang

En el aprendizaje de políticas visuomotoras robóticas, los modelos basados en difusión han logrado un éxito significativo en mejorar la precisión de la generación de trayectorias de acción en comparación con los modelos autoregresivos tradicionales. Sin embargo, sufren de ineficiencia debido a múltiples pasos de desruido y una flexibilidad limitada debido a restricciones complejas. En este documento, presentamos Coarse-to-Fine AutoRegressive Policy (CARP), un nuevo paradigma para el aprendizaje de políticas visuomotoras que redefine el proceso de generación de acciones autoregresivas como un enfoque de escala siguiente de grueso a fino. CARP desacopla la generación de acciones en dos etapas: primero, un autoencoder de acción aprende representaciones multinivel de toda la secuencia de acciones; luego, un transformador estilo GPT refina la predicción de secuencia a través de un proceso autoregresivo de grueso a fino. Este enfoque directo e intuitivo produce acciones altamente precisas y suaves, igualando o incluso superando el rendimiento de las políticas basadas en difusión mientras mantiene una eficiencia comparable con las políticas autoregresivas. Realizamos evaluaciones extensas en diversos entornos, incluidos escenarios de una sola tarea y multitarea en bancos de pruebas de simulación basados en estados e imágenes, así como tareas del mundo real. CARP logra tasas de éxito competitivas, con hasta un 10% de mejora, y ofrece una inferencia 10 veces más rápida en comparación con las políticas de vanguardia, estableciendo un paradigma de alto rendimiento, eficiente y flexible para la generación de acciones en tareas robóticas.

MAtCha Gaussians: Atlas de Gráficos para Geometría de Alta Calidad y Fotorealismo a partir de Vistas Escasas
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Dec 9, 2024

Antoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino

Presentamos un nuevo modelo de apariencia que realiza simultáneamente la recuperación explícita de mallas de superficie 3D de alta calidad y la síntesis fotorealista de nuevas vistas a partir de muestras de vista dispersas. Nuestra idea clave es modelar la geometría de escena subyacente como un Atlas de Cartas que renderizamos con surfels Gaussianos 2D (MAtCha Gaussianos). MAtCha destila detalles de alta frecuencia de la superficie de la escena de un estimador de profundidad monocular listo para usar y lo perfecciona a través de la renderización de surfels Gaussianos. Los surfels Gaussianos se adjuntan a las cartas sobre la marcha, satisfaciendo el fotorealismo de la renderización volumétrica neuronal y la geometría nítida de un modelo de malla, es decir, dos objetivos aparentemente contradictorios en un solo modelo. En el núcleo de MAtCha se encuentra un nuevo modelo de deformación neuronal y una pérdida de estructura que preserva los detalles finos de la superficie destilados de las profundidades monoculares aprendidas mientras aborda sus ambigüedades fundamentales de escala. Los resultados de una extensa validación experimental demuestran la calidad de vanguardia de la reconstrucción de superficies y el fotorealismo de MAtCha a la par de los principales competidores pero con una reducción drástica en el número de vistas de entrada y el tiempo computacional. Creemos que MAtCha servirá como una herramienta fundamental para cualquier aplicación visual en visión, gráficos y robótica que requiera geometría explícita además de fotorealismo. Nuestra página del proyecto es la siguiente: https://anttwo.github.io/matcha/

Marca de agua de texto robusta de varios bits con parafraseadores basados en LLM.
Robust Multi-bit Text Watermark with LLM-based Paraphrasers

Dec 4, 2024

Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li

Proponemos un marca de agua de texto multi-bit imperceptible incrustada mediante parafraseo con Modelos de Lenguaje del Largo Plazo (LLMs). Ajustamos finamente un par de parafraseadores LLM diseñados para comportarse de manera diferente, de modo que su diferencia de parafraseo reflejada en la semántica del texto pueda ser identificada por un decodificador entrenado. Para incrustar nuestra marca de agua multi-bit, utilizamos alternativamente dos parafraseadores para codificar el código binario predefinido a nivel de oración. Luego utilizamos un clasificador de texto como decodificador para decodificar cada bit de la marca de agua. A través de experimentos extensos, demostramos que nuestras marcas de agua pueden lograr más del 99.99\% de AUC de detección con parafraseadores de texto pequeños (1.1B) mientras se mantiene la información semántica de la oración original. Más importante aún, nuestro proceso es robusto ante sustituciones de palabras y perturbaciones de parafraseo de oraciones, y generaliza bien a datos fuera de distribución. También demostramos la sigilosidad de nuestra marca de agua con evaluación basada en LLM. Ponemos el código fuente en código abierto en: https://github.com/xiaojunxu/multi-bit-text-watermark.

Si no puedes usarlos, recíclalos: Optimización de la fusión a escala para mitigar compensaciones de rendimiento
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Dec 5, 2024

Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé

La fusión de modelos ha demostrado un gran potencial para combinar modelos expertos, pero el beneficio de fusionar es incierto al fusionar modelos "generalistas" entrenados en muchas tareas. Exploramos la fusión en el contexto de modelos grandes (aprox. 100 mil millones de parámetros), mediante el reciclaje de puntos de control que muestran compensaciones entre diferentes tareas. Estos puntos de control suelen crearse en el proceso de desarrollo de un modelo de vanguardia, y muchos subóptimos suelen descartarse. Dado un conjunto de puntos de control de modelos obtenidos de diferentes ejecuciones de entrenamiento (por ejemplo, diferentes etapas, objetivos, hiperparámetros y combinaciones de datos), que naturalmente muestran compensaciones en diferentes capacidades lingüísticas (por ejemplo, seguimiento de instrucciones vs. generación de código), investigamos si la fusión puede reciclar dichos modelos subóptimos en uno óptimo de Pareto. Nuestro algoritmo de optimización ajusta el peso de cada punto de control en una combinación lineal, lo que resulta en modelos óptimos de Pareto que superan tanto a los modelos individuales como a las líneas de base basadas en fusiones. Un análisis adicional muestra que las fusiones exitosas tienden a incluir casi todos los puntos de control con pesos no nulos, lo que indica que incluso los puntos de control iniciales aparentemente malos pueden contribuir a fusiones finales exitosas.

Turbo3D: Generación ultrarrápida de texto a 3D
Turbo3D: Ultra-fast Text-to-3D Generation

Dec 5, 2024

Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang

Presentamos Turbo3D, un sistema ultra rápido de texto a 3D capaz de generar activos de splatting gaussiano de alta calidad en menos de un segundo. Turbo3D emplea un generador de difusión de 4 pasos y 4 vistas rápidas y un eficiente reconstructor gaussiano feed-forward, ambos operando en un espacio latente. El generador de 4 pasos y 4 vistas es un modelo estudiante destilado a través de un enfoque novedoso de Doble-Profesor, que anima al estudiante a aprender consistencia de vistas de un profesor de múltiples vistas y realismo fotográfico de un profesor de una sola vista. Al desplazar las entradas del reconstructor gaussiano del espacio de píxeles al espacio latente, eliminamos el tiempo adicional de decodificación de imágenes y reducimos a la mitad la longitud de la secuencia del transformador para lograr la máxima eficiencia. Nuestro método demuestra resultados de generación 3D superiores en comparación con líneas base anteriores, mientras opera en una fracción de su tiempo de ejecución.