HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

13 papers found

Difusión de Redes Neuronales
Neural Network Diffusion

Feb 20

ByKai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You

Los modelos de difusión han logrado un éxito notable en la generación de imágenes y videos. En este trabajo, demostramos que los modelos de difusión también pueden generar parámetros de redes neuronales de alto rendimiento. Nuestro enfoque es simple, utilizando un autoencoder y un modelo de difusión latente estándar. El autoencoder extrae representaciones latentes de un subconjunto de los parámetros entrenados de la red. Luego, se entrena un modelo de difusión para sintetizar estas representaciones latentes de parámetros a partir de ruido aleatorio. Posteriormente, genera nuevas representaciones que se pasan a través del decodificador del autoencoder, cuyas salidas están listas para usarse como nuevos subconjuntos de parámetros de la red. En diversas arquitecturas y conjuntos de datos, nuestro proceso de difusión genera consistentemente modelos con un rendimiento comparable o mejorado en comparación con las redes entrenadas, con un costo adicional mínimo. Es notable que, empíricamente, encontramos que los modelos generados se comportan de manera diferente a las redes entrenadas. Nuestros resultados fomentan una mayor exploración sobre el uso versátil de los modelos de difusión.

Datos Sintéticos (Casi) desde Cero: Ajuste Generalizado de Instrucciones para Modelos de Lenguaje
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Feb 20

ByHaoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei

Presentamos el Ajuste de Instrucciones Generalizado (denominado GLAN), un método general y escalable para el ajuste de instrucciones de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A diferencia de trabajos previos que dependen de ejemplos iniciales o conjuntos de datos existentes para construir datos de ajuste de instrucciones, GLAN utiliza exclusivamente una taxonomía predefinida del conocimiento y las capacidades humanas como entrada y genera datos sintéticos de instrucciones a gran escala en todas las disciplinas. Específicamente, inspirados por la estructura sistemática del sistema educativo humano, construimos la taxonomía descomponiendo el conocimiento y las capacidades humanas en diversos campos, subcampos y, finalmente, disciplinas distintas de manera semi-automática, facilitado por LLMs. Posteriormente, generamos una lista exhaustiva de temas para cada disciplina y procedemos a diseñar un plan de estudios adaptado a cada tema, nuevamente utilizando LLMs. Con los conceptos clave detallados en cada sesión del plan de estudios, podemos generar instrucciones diversas con una amplia cobertura en todo el espectro del conocimiento y las habilidades humanas. Experimentos extensivos en modelos de lenguaje de gran escala (por ejemplo, Mistral) demuestran que GLAN sobresale en múltiples dimensiones, desde el razonamiento matemático, la codificación, exámenes académicos, razonamiento lógico hasta el seguimiento general de instrucciones, sin utilizar datos de entrenamiento específicos para estas tareas. Además, GLAN permite una fácil personalización y nuevos campos o habilidades pueden añadirse simplemente incorporando un nuevo nodo en nuestra taxonomía.

VideoPrism: Un Codificador Visual Fundamental para la Comprensión de Videos
VideoPrism: A Foundational Visual Encoder for Video Understanding

Feb 20

ByLong Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong

Presentamos VideoPrism, un codificador de video de propósito general que aborda diversas tareas de comprensión de video con un único modelo congelado. Preentrenamos VideoPrism en un corpus heterogéneo que contiene 36 millones de pares de video-texto de alta calidad y 582 millones de clips de video con texto paralelo ruidoso (por ejemplo, transcripciones ASR). El enfoque de preentrenamiento mejora el autoenmascaramiento mediante la destilación global-local de embeddings semánticos de video y un esquema de reorganización de tokens, permitiendo que VideoPrism se centre principalmente en la modalidad de video mientras aprovecha el invaluable texto asociado con los videos. Evaluamos exhaustivamente VideoPrism en cuatro grupos amplios de tareas de comprensión de video, desde preguntas y respuestas sobre videos web hasta visión por computadora para la ciencia, logrando un rendimiento de vanguardia en 30 de 33 benchmarks de comprensión de video.

Video ReCap: Subtitulado Recursivo de Videos de Una Hora de Duración
Video ReCap: Recursive Captioning of Hour-Long Videos

Feb 20

ByMd Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius

La mayoría de los modelos de generación de subtítulos para videos están diseñados para procesar clips cortos de pocos segundos y producir texto que describe conceptos visuales de bajo nivel (por ejemplo, objetos, escenas, acciones atómicas). Sin embargo, la mayoría de los videos del mundo real duran minutos u horas y tienen una estructura jerárquica compleja que abarca diferentes granularidades temporales. Proponemos Video ReCap, un modelo recursivo de generación de subtítulos para videos que puede procesar entradas de video de longitudes drásticamente diferentes (desde 1 segundo hasta 2 horas) y generar subtítulos en múltiples niveles de jerarquía. La arquitectura recursiva de video y lenguaje aprovecha la sinergia entre las diferentes jerarquías de video y puede procesar videos de larga duración de manera eficiente. Utilizamos un esquema de entrenamiento basado en aprendizaje curricular para aprender la estructura jerárquica de los videos, comenzando con subtítulos a nivel de clip que describen acciones atómicas, luego enfocándonos en descripciones a nivel de segmento y concluyendo con la generación de resúmenes para videos de una hora de duración. Además, presentamos el conjunto de datos Ego4D-HCap, ampliando Ego4D con 8,267 resúmenes de video de largo alcance recopilados manualmente. Nuestro modelo recursivo puede generar subtítulos de manera flexible en diferentes niveles de jerarquía, siendo también útil para otras tareas complejas de comprensión de video, como VideoQA en EgoSchema. Los datos, código y modelos están disponibles en: https://sites.google.com/view/vidrecap.

Los modelos de lenguaje ajustados por instrucciones son mejores aprendices de conocimiento.
Instruction-tuned Language Models are Better Knowledge Learners

Feb 20

ByZhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer

Para que los asistentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) puedan adaptarse eficazmente a las necesidades de información en constante evolución, es necesario que sea posible actualizar su conocimiento factual mediante un entrenamiento continuo con nuevos datos. El enfoque estándar para lograrlo implica un pre-entrenamiento continuo con nuevos documentos, seguido de un ajuste por instrucción (instruction-tuning) utilizando pares de preguntas y respuestas (QA). Sin embargo, hemos observado que los LLM entrenados con este enfoque tienen dificultades para responder preguntas, a pesar de que la perplejidad de los documentos se minimiza. Descubrimos que los pares QA suelen ser directos, mientras que los documentos son más complejos, entrelazando múltiples afirmaciones factuales de manera intrincada. Por lo tanto, planteamos la hipótesis de que es beneficioso exponer a los LLM a pares QA antes del pre-entrenamiento continuo con documentos, de modo que el proceso de codificación del conocimiento a partir de documentos complejos tenga en cuenta cómo se accede a este conocimiento a través de preguntas. Basándonos en esto, proponemos el pre-ajuste por instrucción (PIT, por sus siglas en inglés), un método que realiza el ajuste por instrucción con preguntas antes del entrenamiento con documentos. Esto contrasta con el ajuste por instrucción estándar, que aprende a extraer conocimiento después del entrenamiento con documentos. Experimentos exhaustivos y estudios de ablación demuestran que PIT mejora significativamente la capacidad de los LLM para absorber conocimiento de nuevos documentos, superando al ajuste por instrucción estándar en un 17.8%.

El FinBen: Un punto de referencia financiero integral para modelos de lenguaje de gran escala
The FinBen: An Holistic Financial Benchmark for Large Language Models

Feb 20

ByQianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang

Los LLM han transformado el PLN y han demostrado potencial en diversos campos, aunque su aplicación en finanzas está poco explorada debido a la falta de evaluaciones exhaustivas y la complejidad de las tareas financieras. Esto, junto con el rápido desarrollo de los LLM, subraya la necesidad urgente de un benchmark sistemático de evaluación financiera para estos modelos. En este artículo, presentamos FinBen, el primer benchmark de evaluación integral y de código abierto, diseñado específicamente para evaluar a fondo las capacidades de los LLM en el ámbito financiero. FinBen abarca 35 conjuntos de datos en 23 tareas financieras, organizadas en tres espectros de dificultad inspirados en la teoría de Cattell-Horn-Carroll, para evaluar las habilidades cognitivas de los LLM en razonamiento inductivo, memoria asociativa, razonamiento cuantitativo, inteligencia cristalizada y más. Nuestra evaluación de 15 LLM representativos, incluyendo GPT-4, ChatGPT y el último Gemini, revela sus fortalezas y limitaciones en el dominio financiero. Los hallazgos indican que GPT-4 lidera en cuantificación, extracción, razonamiento numérico y operaciones bursátiles, mientras que Gemini destaca en generación y predicción; sin embargo, ambos tienen dificultades con la extracción compleja y la predicción, mostrando una clara necesidad de mejoras específicas. El ajuste por instrucciones mejora el rendimiento en tareas simples, pero no logra potenciar las habilidades de razonamiento complejo y predicción. FinBen busca evaluar continuamente los LLM en finanzas, fomentando el desarrollo de la IA con actualizaciones periódicas de tareas y modelos.

Mejora de la Robustez para la Optimización Conjunta de Poses de Cámara y Campos de Radiancia Tensoriales Descompuestos de Bajo Rango
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

Feb 20

ByBo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu

En este artículo, proponemos un algoritmo que permite el refinamiento conjunto de la pose de la cámara y la geometría de la escena representada mediante un tensor de bajo rango descompuesto, utilizando únicamente imágenes 2D como supervisión. Primero, realizamos un estudio piloto basado en una señal 1D y relacionamos nuestros hallazgos con escenarios 3D, donde la optimización conjunta ingenua de la pose en NeRFs basados en vóxeles puede fácilmente conducir a soluciones subóptimas. Además, basándonos en el análisis del espectro de frecuencias, proponemos aplicar filtros gaussianos convolucionales en campos de radiancia 2D y 3D para un entrenamiento de coarse-to-fine que permite la optimización conjunta de la pose de la cámara. Aprovechando la propiedad de descomposición en el tensor de bajo rango descompuesto, nuestro método logra un efecto equivalente a la convolución 3D por fuerza bruta con solo incurrir en un pequeño sobrecosto computacional. Para mejorar aún más la robustez y estabilidad de la optimización conjunta, también proponemos técnicas de supervisión 2D suavizada, parámetros de kernel escalados aleatoriamente y máscara de pérdida guiada por bordes. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran que nuestro marco propuesto logra un rendimiento superior en la síntesis de nuevas vistas, así como una rápida convergencia en la optimización.

MVDiffusion++: Un modelo de difusión multi-vista de alta resolución y densidad para la reconstrucción de objetos 3D a partir de una vista única o escasa
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

Feb 20

ByShitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan

Este artículo presenta una arquitectura neuronal llamada MVDiffusion++ para la reconstrucción de objetos 3D, que sintetiza vistas densas y de alta resolución de un objeto a partir de una o pocas imágenes sin información de poses de cámara. MVDiffusion++ logra una flexibilidad y escalabilidad superiores con dos ideas sorprendentemente simples: 1) Una "arquitectura libre de poses" donde la autoatención estándar entre características latentes 2D aprende la consistencia 3D a través de un número arbitrario de vistas condicionales y de generación sin utilizar explícitamente información de poses de cámara; y 2) Una "estrategia de descarte de vistas" que elimina un número sustancial de vistas de salida durante el entrenamiento, lo que reduce la huella de memoria en tiempo de entrenamiento y permite la síntesis de vistas densas y de alta resolución en tiempo de prueba. Utilizamos Objaverse para el entrenamiento y Google Scanned Objects para la evaluación con métricas estándar de síntesis de vistas novedosas y reconstrucción 3D, donde MVDiffusion++ supera significativamente el estado del arte actual. También demostramos un ejemplo de aplicación de texto a 3D combinando MVDiffusion++ con un modelo generativo de texto a imagen.

Un conjunto de datos de tacto, visión y lenguaje para la alineación multimodal
A Touch, Vision, and Language Dataset for Multimodal Alignment

Feb 20

ByLetian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg

El tacto es una modalidad sensorial importante para los seres humanos, pero aún no se ha incorporado en un modelo generativo de lenguaje multimodal. Esto se debe en parte a la dificultad de obtener etiquetas en lenguaje natural para datos táctiles y a la complejidad de alinear lecturas táctiles con observaciones visuales y descripciones lingüísticas. Como un paso hacia la reducción de esta brecha, este trabajo introduce un nuevo conjunto de datos de 44K pares visión-tacto capturados en entornos reales, con etiquetas en inglés anotadas por humanos (10%) y pseudo-etiquetas textuales generadas por GPT-4V (90%). Utilizamos este conjunto de datos para entrenar un codificador táctico alineado con visión y lenguaje para clasificación de vocabulario abierto, y un modelo tacto-visión-lenguaje (TVL) para generación de texto utilizando el codificador entrenado. Los resultados sugieren que, al incorporar el tacto, el modelo TVL mejora (+29% en precisión de clasificación) la alineación tacto-visión-lenguaje en comparación con modelos existentes entrenados en cualquier par de esas modalidades. Aunque solo una pequeña fracción del conjunto de datos está etiquetada por humanos, el modelo TVL demuestra una mejor comprensión visual-táctil sobre GPT-4V (+12%) y modelos de visión-lenguaje de código abierto (+32%) en un nuevo punto de referencia de comprensión tacto-visión. Código y datos: https://tactile-vlm.github.io.

FlashTex: Texturización Rápida de Mallas Reluminosas con LightControlNet
FlashTex: Fast Relightable Mesh Texturing with LightControlNet

Feb 20

ByKangle Deng, Timothy Omernick, Alexander Weiss, Deva Ramanan, Jun-Yan Zhu, Tinghui Zhou, Maneesh Agrawala

La creación manual de texturas para mallas 3D es un proceso que consume mucho tiempo, incluso para creadores expertos de contenido visual. Proponemos un enfoque rápido para texturizar automáticamente una malla 3D de entrada basado en una indicación de texto proporcionada por el usuario. Es importante destacar que nuestro enfoque separa la iluminación del material/superficie reflectante en la textura resultante, de modo que la malla pueda ser correctamente reiluminada y renderizada en cualquier entorno de iluminación. Introducimos LightControlNet, un nuevo modelo de texto a imagen basado en la arquitectura ControlNet, que permite especificar la iluminación deseada como una imagen de condicionamiento para el modelo. Nuestra canalización de texto a textura construye la textura en dos etapas. La primera etapa produce un conjunto disperso de vistas de referencia visualmente consistentes de la malla utilizando LightControlNet. La segunda etapa aplica una optimización de textura basada en Score Distillation Sampling (SDS) que trabaja con LightControlNet para aumentar la calidad de la textura mientras se separa el material de la superficie de la iluminación. Nuestra canalización es significativamente más rápida que los métodos anteriores de texto a textura, produciendo texturas de alta calidad y reiluminables.

¿Qué tan fácil es engañar a tus LLM multimodales? Un análisis empírico sobre indicaciones engañosas
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

Feb 20

ByYusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan

Los notables avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) no los han hecho inmunes a desafíos, particularmente en el contexto de manejar información engañosa en las indicaciones, lo que resulta en respuestas alucinadas bajo tales condiciones. Para evaluar cuantitativamente esta vulnerabilidad, presentamos MAD-Bench, un punto de referencia cuidadosamente seleccionado que contiene 850 muestras de prueba divididas en 6 categorías, como objetos inexistentes, conteo de objetos, relaciones espaciales y confusión visual. Proporcionamos un análisis exhaustivo de MLLMs populares, que van desde GPT-4V y Gemini-Pro hasta modelos de código abierto, como LLaVA-1.5 y CogVLM. Empíricamente, observamos brechas significativas en el rendimiento entre GPT-4V y otros modelos; y modelos previamente robustos ajustados por instrucciones, como LRV-Instruction y LLaVA-RLHF, no son efectivos en este nuevo punto de referencia. Mientras que GPT-4V logra un 75.02% de precisión en MAD-Bench, la precisión de cualquier otro modelo en nuestros experimentos oscila entre el 5% y el 35%. Además, proponemos un remedio que añade un párrafo adicional a las indicaciones engañosas para alentar a los modelos a pensar dos veces antes de responder la pregunta. Sorprendentemente, este método simple puede incluso duplicar la precisión; sin embargo, los números absolutos siguen siendo demasiado bajos para ser satisfactorios. Esperamos que MAD-Bench pueda servir como un punto de referencia valioso para estimular más investigaciones que mejoren la resistencia de los modelos frente a indicaciones engañosas.

TofuEval: Evaluación de Alucinaciones en Modelos de Lenguaje de Gran Escala en la Resumen de Diálogos Enfocados en Temas Específicos
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

Feb 20

ByLiyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown

La resumenización de noticias de un solo documento ha experimentado avances significativos en cuanto a fidelidad en los últimos años, impulsados por investigaciones sobre la evaluación de la consistencia factual o las alucinaciones. Nos preguntamos si estos avances se trasladan a otros dominios de resumenización de texto. Proponemos un nuevo punto de referencia de evaluación en la resumenización de diálogos centrados en temas, generados por modelos de lenguaje de gran tamaño (LLMs) de diversos tamaños. Proporcionamos anotaciones humanas binarias a nivel de oración sobre la consistencia factual de estos resúmenes, junto con explicaciones detalladas de las oraciones que son factualmente inconsistentes. Nuestro análisis muestra que los LLMs existentes generan una cantidad significativa de errores factuales en el dominio de los diálogos, independientemente del tamaño del modelo. Por otro lado, cuando los LLMs, incluido GPT-4, actúan como evaluadores binarios de factualidad, su desempeño es deficiente y pueden ser superados por métricas especializadas de evaluación de factualidad, que representan el estado del arte. Finalmente, realizamos un análisis de los tipos de alucinaciones con una taxonomía de errores cuidadosamente seleccionada. Encontramos que hay diversos errores y distribuciones de errores en los resúmenes generados por los modelos, y que las métricas no basadas en LLMs pueden capturar todos los tipos de errores mejor que los evaluadores basados en LLMs.

RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models

Feb 20

ByXinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui

Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose a new training-free and transferred-friendly text-to-image generation framework, namely RealCompo, which aims to leverage the advantages of text-to-image and layout-to-image models to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and layout-to-image models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Code is available at https://github.com/YangLing0818/RealCompo

El FinBen: Un punto de referencia financiero integral para modelos de lenguaje de gran escala
The FinBen: An Holistic Financial Benchmark for Large Language Models

Feb 20