HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

13 papers found

PyramidDrop: Acelerando tus grandes modelos de visión y lenguaje a través de la reducción de redundancia visual en forma de pirámide.
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Oct 22

ByLong Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin

En los modelos de gran escala de visión y lenguaje (LVLMs), las imágenes sirven como entradas que contienen una gran cantidad de información. Como dice el dicho "Una imagen vale más que mil palabras", representar una sola imagen en los LVLMs actuales puede requerir cientos o incluso miles de tokens. Esto resulta en costos computacionales significativos, que crecen de forma cuadrática a medida que aumenta la resolución de las imágenes de entrada, impactando severamente la eficiencia tanto del entrenamiento como de la inferencia. Enfoques previos han intentado reducir el número de tokens de imagen ya sea antes o dentro de las capas iniciales de los LVLMs. Sin embargo, estas estrategias inevitablemente resultan en la pérdida de información crucial de la imagen, disminuyendo en última instancia el rendimiento del modelo. Para abordar este desafío, realizamos un estudio empírico que revela que todos los tokens visuales son necesarios para los LVLMs en las capas superficiales, y la redundancia de tokens aumenta progresivamente en las capas más profundas del modelo. Con este fin, proponemos PyramidDrop, una estrategia de reducción de redundancia visual para los LVLMs para aumentar su eficiencia tanto en el entrenamiento como en la inferencia con una pérdida de rendimiento despreciable. Específicamente, dividimos el LVLM en varias etapas y eliminamos parte de los tokens de imagen al final de cada etapa con una proporción predefinida, creando tokens visuales en forma de pirámide a lo largo de las capas del modelo. La eliminación se basa en un cálculo de similitud ligero con un tiempo de ejecución despreciable. Experimentos extensos demuestran que PyramidDrop puede lograr una aceleración del 40% en el tiempo de entrenamiento y del 55% en las FLOPs de inferencia de LLaVA-NeXT con un rendimiento comparable. Además, PyramidDrop también podría servir como una estrategia plug-and-play para la aceleración de la inferencia sin entrenamiento, con un mejor rendimiento y un menor costo de inferencia que sus contrapartes. Esperamos que las ideas y el enfoque introducidos por PyramidDrop inspiren a futuras investigaciones a investigar más a fondo el papel de los tokens de imagen en los LVLMs.

SpectroMotion: Reconstrucción Dinámica 3D de Escenas Especulares
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

Oct 22

ByCheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu

Presentamos SpectroMotion, un enfoque novedoso que combina el Splatting Gaussiano 3D (3DGS) con renderizado basado en física (PBR) y campos de deformación para reconstruir escenas especulares dinámicas. Los métodos previos que ampliaron el 3DGS para modelar escenas dinámicas han tenido dificultades para representar con precisión superficies especulares. Nuestro método aborda esta limitación al introducir una técnica de corrección residual para el cálculo preciso de la normal de la superficie durante la deformación, complementada por un mapa de entorno deformable que se adapta a condiciones de iluminación variables en el tiempo. Implementamos una estrategia de entrenamiento de grueso a fino que mejora significativamente tanto la geometría de la escena como la predicción del color especular. Demostramos que nuestro modelo supera a los métodos anteriores para la síntesis de vistas de escenas que contienen objetos especulares dinámicos y que es el único método 3DGS existente capaz de sintetizar escenas especulares dinámicas del mundo real fotorrealistas, superando a los métodos de vanguardia en la representación de escenas complejas, dinámicas y especulares.

Mejorar el Modelo de Lenguaje de Visión para el Razonamiento en Cadena de Pensamiento.
Improve Vision Language Model Chain-of-thought Reasoning

Oct 21

ByRuohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang

El razonamiento en cadena de pensamiento (CoT) en modelos de lenguaje visual (VLMs) es crucial para mejorar la interpretabilidad y confiabilidad. Sin embargo, las recetas de entrenamiento actuales carecen de datos robustos de razonamiento CoT, dependiendo de conjuntos de datos dominados por anotaciones cortas con fundamentos mínimos. En este trabajo, demostramos que entrenar VLM en respuestas cortas no generaliza bien a tareas de razonamiento que requieren respuestas más detalladas. Para abordar esto, proponemos un enfoque dual. En primer lugar, destilamos fundamentos del modelo GPT-4o para enriquecer los datos de entrenamiento y ajustar finamente los VLMs, mejorando su rendimiento en CoT. En segundo lugar, aplicamos aprendizaje por refuerzo para calibrar aún más la calidad del razonamiento. Específicamente, construimos pares positivos (correctos) y negativos (incorrectos) de cadenas de razonamiento generadas por el modelo, comparando sus predicciones con respuestas cortas anotadas. Utilizando estos datos emparejados, aplicamos el algoritmo de Optimización de Preferencia Directa para refinar las habilidades de razonamiento del modelo. Nuestros experimentos demuestran mejoras significativas en el razonamiento CoT en conjuntos de datos de referencia y una mejor generalización a la predicción de respuestas directas también. Este trabajo enfatiza la importancia de incorporar fundamentos detallados en el entrenamiento y aprovechar el aprendizaje por refuerzo para fortalecer las capacidades de razonamiento de los VLMs.

Alineando Modelos de Lenguaje Grandes a través de la Optimización Autoguiada
Aligning Large Language Models via Self-Steering Optimization

Oct 22

ByHao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin

El alineamiento automatizado desarrolla sistemas de alineamiento con mínima intervención humana. La clave del alineamiento automatizado radica en proporcionar señales de preferencia aprendibles y precisas para el aprendizaje de preferencias sin anotación humana. En este documento, presentamos la Optimización de Auto-Dirección (SSO, por sus siglas en inglés), un algoritmo que genera de forma autónoma señales de preferencia de alta calidad basadas en principios predefinidos durante el entrenamiento iterativo, eliminando la necesidad de anotación manual. SSO mantiene la precisión de las señales al garantizar una brecha consistente entre las respuestas elegidas y rechazadas, manteniéndolas ambas en política para adaptarse a la capacidad de aprendizaje del modelo de política actual. SSO puede beneficiar el entrenamiento en línea y fuera de línea del modelo de política, así como mejorar el entrenamiento de modelos de recompensa. Validamos la efectividad de SSO con dos modelos fundamentales, Qwen2 y Llama3.1, indicando que proporciona señales de preferencia precisas y en política a lo largo del entrenamiento iterativo. Sin anotación manual ni modelos externos, SSO conlleva mejoras significativas en el rendimiento en seis referencias subjetivas u objetivas. Además, los datos de preferencia generados por SSO mejoraron significativamente el rendimiento del modelo de recompensa en Rewardbench. Nuestro trabajo presenta un enfoque escalable para la optimización de preferencias, allanando el camino para un alineamiento automatizado más eficiente y efectivo.

Mitigación de la alucinación de objetos a través de la atención causal concéntrica.
Mitigating Object Hallucination via Concentric Causal Attention

Oct 21

ByYun Xing, Yiheng Li, Ivan Laptev, Shijian Lu

Los Modelos de Lenguaje y Visión a Gran Escala (LVLMs) recientes presentan notables capacidades de conversación y razonamiento cero-shot dadas las consultas multimodales. Sin embargo, sufren de alucinación de objetos, un fenómeno en el que los LVLMs tienden a generar respuestas textuales que no están alineadas factualmente con las entradas de imagen. Nuestro estudio piloto revela que la alucinación de objetos está estrechamente relacionada con la Codificación de Posición Rotativa (RoPE), un diseño de modelado de dependencia posicional ampliamente adoptado en los LVLMs existentes. Debido a la decadencia a largo plazo en RoPE, los LVLMs tienden a alucinar más cuando las señales visuales relevantes están distantes de los tokens de instrucción en la secuencia de entrada multimodal. Además, observamos un efecto similar al revertir el orden secuencial de los tokens visuales durante la alineación multimodal. Nuestros tests indican que la decadencia a largo plazo en RoPE plantea desafíos a los LVLMs al capturar interacciones visuales-instrucción a largas distancias. Proponemos Atención Causal Concéntrica (CCA), una estrategia de alineación posicional simple pero efectiva que mitiga el impacto de la decadencia a largo plazo de RoPE en los LVLMs al reducir naturalmente la distancia relativa entre los tokens visuales e instructivos. Con CCA, los tokens visuales pueden interactuar mejor con los tokens de instrucción, mejorando así la capacidad de percepción del modelo y aliviando la alucinación de objetos. Sin adornos, nuestro método de alineación posicional supera ampliamente las estrategias existentes de mitigación de alucinaciones en múltiples referencias de alucinación de objetos.

xGen-MM-Vid (BLIP-3-Video): Solo Necesitas 32 Tokens para Representar un Video Incluso en VLMs
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Oct 21

ByMichael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles

Presentamos xGen-MM-Vid (BLIP-3-Video): un modelo de lenguaje multimodal para videos, diseñado especialmente para capturar eficientemente información temporal a lo largo de múltiples fotogramas. BLIP-3-Video aprovecha el 'codificador temporal' además del tokenizador visual convencional, que mapea una secuencia de tokens a lo largo de varios fotogramas en un conjunto compacto de tokens visuales. Esto permite a BLIP3-Video utilizar muchos menos tokens visuales que sus modelos competidores (por ejemplo, 32 frente a 4608 tokens). Exploramos diferentes tipos de codificadores temporales, incluyendo el agrupamiento espacio-temporal aprendible, así como modelos secuenciales como las Máquinas de Turing de Tokens. Experimentalmente confirmamos que BLIP-3-Video obtiene precisión en preguntas y respuestas de video comparable a modelos de vanguardia mucho más grandes (por ejemplo, 34B), siendo mucho más pequeño (es decir, 4B) y más eficiente al utilizar menos tokens visuales. El sitio web del proyecto se encuentra en https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

Optimización basada en LLM de Sistemas de IA Compuestos: Una Encuesta
LLM-based Optimization of Compound AI Systems: A Survey

Oct 21

ByMatthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu

En un sistema de IA compuesto, componentes como una llamada de LLM, un recuperador, un intérprete de código o herramientas están interconectados. El comportamiento del sistema está principalmente guiado por parámetros como instrucciones o definiciones de herramientas. Avances recientes permiten la optimización de extremo a extremo de estos parámetros utilizando un LLM. Es especialmente eficiente aprovechar un LLM como optimizador porque evita el cálculo de gradientes y puede generar código e instrucciones complejas. Este artículo presenta una encuesta de los principios y tendencias emergentes en la optimización de sistemas de IA compuestos basada en LLM. Cubre arquetipos de sistemas de IA compuestos, enfoques para la optimización de extremo a extremo basada en LLM, y perspectivas sobre direcciones futuras e impactos más amplios. Es importante destacar que esta encuesta utiliza conceptos de análisis de programas para ofrecer una visión unificada de cómo se motiva a un optimizador de LLM a optimizar un sistema de IA compuesto. La lista exhaustiva de artículos se proporciona en https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.

MiniPLM: Destilación de Conocimiento para la Preentrenamiento de Modelos de Lenguaje
MiniPLM: Knowledge Distillation for Pre-Training Language Models

Oct 22

ByYuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang

La destilación del conocimiento (KD) se utiliza ampliamente para entrenar modelos de lenguaje (LMs) pequeños y de alto rendimiento utilizando grandes LMs maestros. Si bien es efectiva en el ajuste fino, la KD durante la preentrenamiento enfrenta desafíos en eficiencia, flexibilidad y efectividad. Los métodos existentes incurren en altos costos computacionales debido a la inferencia en línea del maestro, requieren la coincidencia de la tokenización entre los LMs maestro y estudiante, o corren el riesgo de perder la dificultad y diversidad de los datos de entrenamiento generados por el maestro. Para abordar estos problemas, proponemos MiniPLM, un marco de KD para la preentrenamiento de LMs refinando la distribución de los datos de entrenamiento con el conocimiento del maestro. Para la eficiencia, MiniPLM realiza la inferencia del LM maestro sin conexión, lo que permite la KD para múltiples LMs estudiantes sin agregar costos de tiempo de entrenamiento. Para la flexibilidad, MiniPLM opera únicamente en el corpus de entrenamiento, lo que permite la KD entre familias de modelos. Para la efectividad, MiniPLM aprovecha las diferencias entre LMs grandes y pequeños para mejorar la dificultad y diversidad de los datos de entrenamiento, ayudando a los LMs estudiantes a adquirir conocimientos versátiles y sofisticados. Experimentos extensos demuestran que MiniPLM mejora el rendimiento de los LMs estudiantes en 9 tareas ampliamente utilizadas, mejora las capacidades de modelado del lenguaje y reduce la computación de preentrenamiento. El beneficio de MiniPLM se extiende a grandes escalas de preentrenamiento, evidenciado por la extrapolación de las curvas de escala. Un análisis adicional revela que MiniPLM soporta la KD entre familias de modelos y mejora la utilización de los datos de preentrenamiento. Nuestro modelo, código y datos están disponibles en https://github.com/thu-coai/MiniPLM.

JMMMU: Un banco de pruebas japonés de comprensión multimodal masiva y multidisciplinaria para evaluación consciente de la cultura.
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Oct 22

ByShota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa

La aceleración de la investigación sobre Modelos Multimodales Grandes (LMMs) en idiomas no ingleses es crucial para mejorar las experiencias de usuario en poblaciones más amplias. En este documento, presentamos JMMMU (Japanese MMMU), el primer banco de pruebas japonés a gran escala diseñado para evaluar LMMs en tareas de nivel experto basadas en el contexto cultural japonés. Para facilitar una evaluación integral consciente de la cultura, JMMMU cuenta con dos subconjuntos complementarios: (i) subconjunto sin cultura (CA), donde se seleccionan y traducen al japonés los temas independientes de la cultura (por ejemplo, Matemáticas), lo que permite una comparación uno a uno con su contraparte en inglés, MMMU; y (ii) subconjunto específico de la cultura (CS), que comprende temas recién creados que reflejan el contexto cultural japonés. Utilizando el subconjunto CA, observamos una disminución del rendimiento en muchos LMMs al ser evaluados en japonés, lo cual se atribuye únicamente a la variación del idioma. Al utilizar el subconjunto CS, revelamos su insuficiente comprensión de la cultura japonesa. Además, al combinar ambos subconjuntos, identificamos que algunos LMMs tienen un buen rendimiento en el subconjunto CA pero no en el subconjunto CS, lo que pone de manifiesto una comprensión superficial del idioma japonés que carece de profundidad en la comprensión cultural. Esperamos que este trabajo no solo contribuya al avance del rendimiento de LMMs en japonés, sino que también sirva como una guía para crear bancos de pruebas culturalmente diversos y de alto nivel para el desarrollo de LMMs multilingües. La página del proyecto es https://mmmu-japanese-benchmark.github.io/JMMMU/.

EvoPress: Hacia la Compresión Óptima de Modelos Dinámicos a través de Búsqueda Evolutiva
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

Oct 18

ByOliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh

Los altos costos computacionales de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han dado lugar a una avalancha de investigaciones sobre la compresión de LLM, mediante métodos como la cuantificación, la esparcificación o la poda estructurada. Una nueva frontera en esta área es proporcionada por métodos de compresión dinámica y no uniforme, que ajustan los niveles de compresión (por ejemplo, la dispersión) por bloque o incluso por capa con el fin de minimizar la pérdida de precisión, al mismo tiempo que garantizan un umbral global de compresión. Sin embargo, los métodos actuales dependen de heurísticas para identificar la "importancia" de una capa dada hacia la pérdida, basándose en suposiciones como la monotonicidad del error, es decir, que el error de compresión del modelo de extremo a extremo es proporcional a la suma de los errores por capa. En este documento, revisitamos esta área y proponemos un enfoque nuevo y general para la compresión dinámica que es óptimo de manera demostrable en un rango de entrada dado. Partimos de la observación motivadora de que, en general, la monotonicidad del error no se cumple para los LLMs: los modelos comprimidos con una menor suma de errores por capa pueden tener un rendimiento peor que los modelos con sumas de errores más altas. Para abordar esto, proponemos un nuevo marco evolutivo general para la compresión dinámica de LLM llamado EvoPress, que tiene una convergencia demostrable y una baja complejidad de muestra y evaluación. Mostramos que estas garantías teóricas conducen a un rendimiento práctico altamente competitivo para la compresión dinámica de los modelos Llama, Mistral y Phi. A través de EvoPress, establecemos nuevos resultados de vanguardia en todos los enfoques de compresión: poda estructural (eliminación de bloques/capas), dispersión no estructurada, así como cuantificación con anchos de bits dinámicos. Nuestro código está disponible en https://github.com/IST-DASLab/EvoPress.

Neurocirugía Matemática: Aislar las Habilidades de Razonamiento Matemático de los Modelos de Lenguaje Utilizando Solo Pases Hacia Adelante
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Oct 22

ByBryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen

El razonamiento matemático es un área altamente activa de la investigación en Modelos de Lenguaje de Gran Escala (LLM) porque es un sello distintivo de la inteligencia artificial. Sin embargo, pocos trabajos han explorado cómo se codifica el razonamiento matemático dentro de los parámetros de los LLM y si es una habilidad que puede ser aislada dentro de un modelo. Hacerlo podría permitir intervenciones específicas para mejorar el rendimiento matemático sin alterar el comportamiento no matemático y fomentar la comprensión de cómo los modelos codifican el razonamiento matemático. Presentamos Neurocirugía Matemática (MathNeuro), un método para aislar parámetros específicos de matemáticas en los LLM utilizando solo pases hacia adelante. MathNeuro se basa en trabajos existentes al usar pesos y activaciones para calcular la importancia de los parámetros, pero aísla los parámetros específicos de matemáticas eliminando aquellos importantes para tareas de lenguaje general. La poda de parámetros identificados por MathNeuro elimina la capacidad de razonamiento matemático de un LLM sin destruir su capacidad de lenguaje general. Escalar estos parámetros por una pequeña constante mejora el rendimiento de un LLM preentrenado o ajustado a instrucciones en un 4-17% en GSM8K sin alterar el comportamiento no matemático. MathNeuro también es eficiente en datos: la mayor parte de su efectividad se mantiene al identificar parámetros específicos de matemáticas utilizando una sola muestra. MathNeuro destaca el potencial para futuros trabajos de intervenir en parámetros específicos de matemáticas.

3DGS-Enhancer: Mejora de la dispersión gaussiana 3D ilimitada con precursores de difusión 2D consistentes con la vista
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

Oct 21

ByXi Liu, Chaoyi Zhou, Siyu Huang

La síntesis de vistas novedosas tiene como objetivo generar vistas novedosas de una escena a partir de múltiples imágenes o videos de entrada, y avances recientes como el salpicado gaussiano 3D (3DGS) han logrado un notable éxito en la producción de representaciones fotorrealistas con tuberías eficientes. Sin embargo, generar vistas novedosas de alta calidad en entornos desafiantes, como vistas de entrada dispersas, sigue siendo difícil debido a la información insuficiente en áreas submuestreadas, lo que a menudo resulta en artefactos notables. Este artículo presenta 3DGS-Enhancer, una nueva tubería para mejorar la calidad de representación de las representaciones 3DGS. Aprovechamos los priors de difusión de video 2D para abordar el desafiante problema de consistencia de vista 3D, reformulándolo como lograr consistencia temporal dentro de un proceso de generación de video. 3DGS-Enhancer restaura características latentes consistentes con la vista de las vistas novedosas renderizadas e las integra con las vistas de entrada a través de un decodificador espacial-temporal. Las vistas mejoradas se utilizan luego para ajustar finamente el modelo 3DGS inicial, mejorando significativamente su rendimiento de renderizado. Experimentos extensos en conjuntos de datos a gran escala de escenas ilimitadas demuestran que 3DGS-Enhancer produce un rendimiento de reconstrucción superior y resultados de renderizado de alta fidelidad en comparación con los métodos de vanguardia. La página web del proyecto es https://xiliu8006.github.io/3DGS-Enhancer-project.

Avances en la Colonoscopia Inteligente
Frontiers in Intelligent Colonoscopy

Oct 22

ByGe-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan

La colonoscopia es actualmente uno de los métodos de detección más sensibles para el cáncer colorrectal. Este estudio investiga las fronteras de las técnicas de colonoscopia inteligente y sus posibles implicaciones para aplicaciones médicas multimodales. Con este objetivo, comenzamos evaluando los paisajes actuales centrados en datos y modelos a través de cuatro tareas para la percepción de escenas colonoscópicas, que incluyen clasificación, detección, segmentación y comprensión visión-lenguaje. Esta evaluación nos permite identificar desafíos específicos del dominio y revela que la investigación multimodal en colonoscopia sigue abierta para una mayor exploración. Para abrazar la próxima era multimodal, establecemos tres iniciativas fundamentales: un conjunto de datos de ajuste de instrucciones multimodal a gran escala, ColonINST, un modelo de lenguaje multimodal diseñado para colonoscopia, ColonGPT, y un punto de referencia multimodal. Para facilitar el monitoreo continuo de este campo en rápida evolución, proporcionamos un sitio web público para las últimas actualizaciones: https://github.com/ai4colonoscopy/IntelliScope.

PyramidDrop: Acelerando tus grandes modelos de visión y lenguaje a través de la reducción de redundancia visual en forma de pirámide.
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Oct 22

ByLong Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin