Artículos de investigación en IA seleccionados diariamente con traducciones
En los modelos de gran escala de visión y lenguaje (LVLMs), las imágenes sirven como entradas que contienen una gran cantidad de información. Como dice el dicho "Una imagen vale más que mil palabras", representar una sola imagen en los LVLMs actuales puede requerir cientos o incluso miles de tokens. Esto resulta en costos computacionales significativos, que crecen de forma cuadrática a medida que aumenta la resolución de las imágenes de entrada, impactando severamente la eficiencia tanto del entrenamiento como de la inferencia. Enfoques previos han intentado reducir el número de tokens de imagen ya sea antes o dentro de las capas iniciales de los LVLMs. Sin embargo, estas estrategias inevitablemente resultan en la pérdida de información crucial de la imagen, disminuyendo en última instancia el rendimiento del modelo. Para abordar este desafío, realizamos un estudio empírico que revela que todos los tokens visuales son necesarios para los LVLMs en las capas superficiales, y la redundancia de tokens aumenta progresivamente en las capas más profundas del modelo. Con este fin, proponemos PyramidDrop, una estrategia de reducción de redundancia visual para los LVLMs para aumentar su eficiencia tanto en el entrenamiento como en la inferencia con una pérdida de rendimiento despreciable. Específicamente, dividimos el LVLM en varias etapas y eliminamos parte de los tokens de imagen al final de cada etapa con una proporción predefinida, creando tokens visuales en forma de pirámide a lo largo de las capas del modelo. La eliminación se basa en un cálculo de similitud ligero con un tiempo de ejecución despreciable. Experimentos extensos demuestran que PyramidDrop puede lograr una aceleración del 40% en el tiempo de entrenamiento y del 55% en las FLOPs de inferencia de LLaVA-NeXT con un rendimiento comparable. Además, PyramidDrop también podría servir como una estrategia plug-and-play para la aceleración de la inferencia sin entrenamiento, con un mejor rendimiento y un menor costo de inferencia que sus contrapartes. Esperamos que las ideas y el enfoque introducidos por PyramidDrop inspiren a futuras investigaciones a investigar más a fondo el papel de los tokens de imagen en los LVLMs.
Presentamos SpectroMotion, un enfoque novedoso que combina el Splatting Gaussiano 3D (3DGS) con renderizado basado en física (PBR) y campos de deformación para reconstruir escenas especulares dinámicas. Los métodos previos que ampliaron el 3DGS para modelar escenas dinámicas han tenido dificultades para representar con precisión superficies especulares. Nuestro método aborda esta limitación al introducir una técnica de corrección residual para el cálculo preciso de la normal de la superficie durante la deformación, complementada por un mapa de entorno deformable que se adapta a condiciones de iluminación variables en el tiempo. Implementamos una estrategia de entrenamiento de grueso a fino que mejora significativamente tanto la geometría de la escena como la predicción del color especular. Demostramos que nuestro modelo supera a los métodos anteriores para la síntesis de vistas de escenas que contienen objetos especulares dinámicos y que es el único método 3DGS existente capaz de sintetizar escenas especulares dinámicas del mundo real fotorrealistas, superando a los métodos de vanguardia en la representación de escenas complejas, dinámicas y especulares.
El razonamiento en cadena de pensamiento (CoT) en modelos de lenguaje visual (VLMs) es crucial para mejorar la interpretabilidad y confiabilidad. Sin embargo, las recetas de entrenamiento actuales carecen de datos robustos de razonamiento CoT, dependiendo de conjuntos de datos dominados por anotaciones cortas con fundamentos mínimos. En este trabajo, demostramos que entrenar VLM en respuestas cortas no generaliza bien a tareas de razonamiento que requieren respuestas más detalladas. Para abordar esto, proponemos un enfoque dual. En primer lugar, destilamos fundamentos del modelo GPT-4o para enriquecer los datos de entrenamiento y ajustar finamente los VLMs, mejorando su rendimiento en CoT. En segundo lugar, aplicamos aprendizaje por refuerzo para calibrar aún más la calidad del razonamiento. Específicamente, construimos pares positivos (correctos) y negativos (incorrectos) de cadenas de razonamiento generadas por el modelo, comparando sus predicciones con respuestas cortas anotadas. Utilizando estos datos emparejados, aplicamos el algoritmo de Optimización de Preferencia Directa para refinar las habilidades de razonamiento del modelo. Nuestros experimentos demuestran mejoras significativas en el razonamiento CoT en conjuntos de datos de referencia y una mejor generalización a la predicción de respuestas directas también. Este trabajo enfatiza la importancia de incorporar fundamentos detallados en el entrenamiento y aprovechar el aprendizaje por refuerzo para fortalecer las capacidades de razonamiento de los VLMs.
El alineamiento automatizado desarrolla sistemas de alineamiento con mínima intervención humana. La clave del alineamiento automatizado radica en proporcionar señales de preferencia aprendibles y precisas para el aprendizaje de preferencias sin anotación humana. En este documento, presentamos la Optimización de Auto-Dirección (SSO, por sus siglas en inglés), un algoritmo que genera de forma autónoma señales de preferencia de alta calidad basadas en principios predefinidos durante el entrenamiento iterativo, eliminando la necesidad de anotación manual. SSO mantiene la precisión de las señales al garantizar una brecha consistente entre las respuestas elegidas y rechazadas, manteniéndolas ambas en política para adaptarse a la capacidad de aprendizaje del modelo de política actual. SSO puede beneficiar el entrenamiento en línea y fuera de línea del modelo de política, así como mejorar el entrenamiento de modelos de recompensa. Validamos la efectividad de SSO con dos modelos fundamentales, Qwen2 y Llama3.1, indicando que proporciona señales de preferencia precisas y en política a lo largo del entrenamiento iterativo. Sin anotación manual ni modelos externos, SSO conlleva mejoras significativas en el rendimiento en seis referencias subjetivas u objetivas. Además, los datos de preferencia generados por SSO mejoraron significativamente el rendimiento del modelo de recompensa en Rewardbench. Nuestro trabajo presenta un enfoque escalable para la optimización de preferencias, allanando el camino para un alineamiento automatizado más eficiente y efectivo.
Presentamos xGen-MM-Vid (BLIP-3-Video): un modelo de lenguaje multimodal para videos, diseñado especialmente para capturar eficientemente información temporal a lo largo de múltiples fotogramas. BLIP-3-Video aprovecha el 'codificador temporal' además del tokenizador visual convencional, que mapea una secuencia de tokens a lo largo de varios fotogramas en un conjunto compacto de tokens visuales. Esto permite a BLIP3-Video utilizar muchos menos tokens visuales que sus modelos competidores (por ejemplo, 32 frente a 4608 tokens). Exploramos diferentes tipos de codificadores temporales, incluyendo el agrupamiento espacio-temporal aprendible, así como modelos secuenciales como las Máquinas de Turing de Tokens. Experimentalmente confirmamos que BLIP-3-Video obtiene precisión en preguntas y respuestas de video comparable a modelos de vanguardia mucho más grandes (por ejemplo, 34B), siendo mucho más pequeño (es decir, 4B) y más eficiente al utilizar menos tokens visuales. El sitio web del proyecto se encuentra en https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
Los Modelos de Lenguaje y Visión a Gran Escala (LVLMs) recientes presentan notables capacidades de conversación y razonamiento cero-shot dadas las consultas multimodales. Sin embargo, sufren de alucinación de objetos, un fenómeno en el que los LVLMs tienden a generar respuestas textuales que no están alineadas factualmente con las entradas de imagen. Nuestro estudio piloto revela que la alucinación de objetos está estrechamente relacionada con la Codificación de Posición Rotativa (RoPE), un diseño de modelado de dependencia posicional ampliamente adoptado en los LVLMs existentes. Debido a la decadencia a largo plazo en RoPE, los LVLMs tienden a alucinar más cuando las señales visuales relevantes están distantes de los tokens de instrucción en la secuencia de entrada multimodal. Además, observamos un efecto similar al revertir el orden secuencial de los tokens visuales durante la alineación multimodal. Nuestros tests indican que la decadencia a largo plazo en RoPE plantea desafíos a los LVLMs al capturar interacciones visuales-instrucción a largas distancias. Proponemos Atención Causal Concéntrica (CCA), una estrategia de alineación posicional simple pero efectiva que mitiga el impacto de la decadencia a largo plazo de RoPE en los LVLMs al reducir naturalmente la distancia relativa entre los tokens visuales e instructivos. Con CCA, los tokens visuales pueden interactuar mejor con los tokens de instrucción, mejorando así la capacidad de percepción del modelo y aliviando la alucinación de objetos. Sin adornos, nuestro método de alineación posicional supera ampliamente las estrategias existentes de mitigación de alucinaciones en múltiples referencias de alucinación de objetos.
La destilación del conocimiento (KD) se utiliza ampliamente para entrenar modelos de lenguaje (LMs) pequeños y de alto rendimiento utilizando grandes LMs maestros. Si bien es efectiva en el ajuste fino, la KD durante la preentrenamiento enfrenta desafíos en eficiencia, flexibilidad y efectividad. Los métodos existentes incurren en altos costos computacionales debido a la inferencia en línea del maestro, requieren la coincidencia de la tokenización entre los LMs maestro y estudiante, o corren el riesgo de perder la dificultad y diversidad de los datos de entrenamiento generados por el maestro. Para abordar estos problemas, proponemos MiniPLM, un marco de KD para la preentrenamiento de LMs refinando la distribución de los datos de entrenamiento con el conocimiento del maestro. Para la eficiencia, MiniPLM realiza la inferencia del LM maestro sin conexión, lo que permite la KD para múltiples LMs estudiantes sin agregar costos de tiempo de entrenamiento. Para la flexibilidad, MiniPLM opera únicamente en el corpus de entrenamiento, lo que permite la KD entre familias de modelos. Para la efectividad, MiniPLM aprovecha las diferencias entre LMs grandes y pequeños para mejorar la dificultad y diversidad de los datos de entrenamiento, ayudando a los LMs estudiantes a adquirir conocimientos versátiles y sofisticados. Experimentos extensos demuestran que MiniPLM mejora el rendimiento de los LMs estudiantes en 9 tareas ampliamente utilizadas, mejora las capacidades de modelado del lenguaje y reduce la computación de preentrenamiento. El beneficio de MiniPLM se extiende a grandes escalas de preentrenamiento, evidenciado por la extrapolación de las curvas de escala. Un análisis adicional revela que MiniPLM soporta la KD entre familias de modelos y mejora la utilización de los datos de preentrenamiento. Nuestro modelo, código y datos están disponibles en https://github.com/thu-coai/MiniPLM.
En un sistema de IA compuesto, componentes como una llamada de LLM, un recuperador, un intérprete de código o herramientas están interconectados. El comportamiento del sistema está principalmente guiado por parámetros como instrucciones o definiciones de herramientas. Avances recientes permiten la optimización de extremo a extremo de estos parámetros utilizando un LLM. Es especialmente eficiente aprovechar un LLM como optimizador porque evita el cálculo de gradientes y puede generar código e instrucciones complejas. Este artículo presenta una encuesta de los principios y tendencias emergentes en la optimización de sistemas de IA compuestos basada en LLM. Cubre arquetipos de sistemas de IA compuestos, enfoques para la optimización de extremo a extremo basada en LLM, y perspectivas sobre direcciones futuras e impactos más amplios. Es importante destacar que esta encuesta utiliza conceptos de análisis de programas para ofrecer una visión unificada de cómo se motiva a un optimizador de LLM a optimizar un sistema de IA compuesto. La lista exhaustiva de artículos se proporciona en https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
La aceleración de la investigación sobre Modelos Multimodales Grandes (LMMs) en idiomas no ingleses es crucial para mejorar las experiencias de usuario en poblaciones más amplias. En este documento, presentamos JMMMU (Japanese MMMU), el primer banco de pruebas japonés a gran escala diseñado para evaluar LMMs en tareas de nivel experto basadas en el contexto cultural japonés. Para facilitar una evaluación integral consciente de la cultura, JMMMU cuenta con dos subconjuntos complementarios: (i) subconjunto sin cultura (CA), donde se seleccionan y traducen al japonés los temas independientes de la cultura (por ejemplo, Matemáticas), lo que permite una comparación uno a uno con su contraparte en inglés, MMMU; y (ii) subconjunto específico de la cultura (CS), que comprende temas recién creados que reflejan el contexto cultural japonés. Utilizando el subconjunto CA, observamos una disminución del rendimiento en muchos LMMs al ser evaluados en japonés, lo cual se atribuye únicamente a la variación del idioma. Al utilizar el subconjunto CS, revelamos su insuficiente comprensión de la cultura japonesa. Además, al combinar ambos subconjuntos, identificamos que algunos LMMs tienen un buen rendimiento en el subconjunto CA pero no en el subconjunto CS, lo que pone de manifiesto una comprensión superficial del idioma japonés que carece de profundidad en la comprensión cultural. Esperamos que este trabajo no solo contribuya al avance del rendimiento de LMMs en japonés, sino que también sirva como una guía para crear bancos de pruebas culturalmente diversos y de alto nivel para el desarrollo de LMMs multilingües. La página del proyecto es https://mmmu-japanese-benchmark.github.io/JMMMU/.
Los altos costos computacionales de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han dado lugar a una avalancha de investigaciones sobre la compresión de LLM, mediante métodos como la cuantificación, la esparcificación o la poda estructurada. Una nueva frontera en esta área es proporcionada por métodos de compresión dinámica y no uniforme, que ajustan los niveles de compresión (por ejemplo, la dispersión) por bloque o incluso por capa con el fin de minimizar la pérdida de precisión, al mismo tiempo que garantizan un umbral global de compresión. Sin embargo, los métodos actuales dependen de heurísticas para identificar la "importancia" de una capa dada hacia la pérdida, basándose en suposiciones como la monotonicidad del error, es decir, que el error de compresión del modelo de extremo a extremo es proporcional a la suma de los errores por capa. En este documento, revisitamos esta área y proponemos un enfoque nuevo y general para la compresión dinámica que es óptimo de manera demostrable en un rango de entrada dado. Partimos de la observación motivadora de que, en general, la monotonicidad del error no se cumple para los LLMs: los modelos comprimidos con una menor suma de errores por capa pueden tener un rendimiento peor que los modelos con sumas de errores más altas. Para abordar esto, proponemos un nuevo marco evolutivo general para la compresión dinámica de LLM llamado EvoPress, que tiene una convergencia demostrable y una baja complejidad de muestra y evaluación. Mostramos que estas garantías teóricas conducen a un rendimiento práctico altamente competitivo para la compresión dinámica de los modelos Llama, Mistral y Phi. A través de EvoPress, establecemos nuevos resultados de vanguardia en todos los enfoques de compresión: poda estructural (eliminación de bloques/capas), dispersión no estructurada, así como cuantificación con anchos de bits dinámicos. Nuestro código está disponible en https://github.com/IST-DASLab/EvoPress.
El razonamiento matemático es un área altamente activa de la investigación en Modelos de Lenguaje de Gran Escala (LLM) porque es un sello distintivo de la inteligencia artificial. Sin embargo, pocos trabajos han explorado cómo se codifica el razonamiento matemático dentro de los parámetros de los LLM y si es una habilidad que puede ser aislada dentro de un modelo. Hacerlo podría permitir intervenciones específicas para mejorar el rendimiento matemático sin alterar el comportamiento no matemático y fomentar la comprensión de cómo los modelos codifican el razonamiento matemático. Presentamos Neurocirugía Matemática (MathNeuro), un método para aislar parámetros específicos de matemáticas en los LLM utilizando solo pases hacia adelante. MathNeuro se basa en trabajos existentes al usar pesos y activaciones para calcular la importancia de los parámetros, pero aísla los parámetros específicos de matemáticas eliminando aquellos importantes para tareas de lenguaje general. La poda de parámetros identificados por MathNeuro elimina la capacidad de razonamiento matemático de un LLM sin destruir su capacidad de lenguaje general. Escalar estos parámetros por una pequeña constante mejora el rendimiento de un LLM preentrenado o ajustado a instrucciones en un 4-17% en GSM8K sin alterar el comportamiento no matemático. MathNeuro también es eficiente en datos: la mayor parte de su efectividad se mantiene al identificar parámetros específicos de matemáticas utilizando una sola muestra. MathNeuro destaca el potencial para futuros trabajos de intervenir en parámetros específicos de matemáticas.
La síntesis de vistas novedosas tiene como objetivo generar vistas novedosas de una escena a partir de múltiples imágenes o videos de entrada, y avances recientes como el salpicado gaussiano 3D (3DGS) han logrado un notable éxito en la producción de representaciones fotorrealistas con tuberías eficientes. Sin embargo, generar vistas novedosas de alta calidad en entornos desafiantes, como vistas de entrada dispersas, sigue siendo difícil debido a la información insuficiente en áreas submuestreadas, lo que a menudo resulta en artefactos notables. Este artículo presenta 3DGS-Enhancer, una nueva tubería para mejorar la calidad de representación de las representaciones 3DGS. Aprovechamos los priors de difusión de video 2D para abordar el desafiante problema de consistencia de vista 3D, reformulándolo como lograr consistencia temporal dentro de un proceso de generación de video. 3DGS-Enhancer restaura características latentes consistentes con la vista de las vistas novedosas renderizadas e las integra con las vistas de entrada a través de un decodificador espacial-temporal. Las vistas mejoradas se utilizan luego para ajustar finamente el modelo 3DGS inicial, mejorando significativamente su rendimiento de renderizado. Experimentos extensos en conjuntos de datos a gran escala de escenas ilimitadas demuestran que 3DGS-Enhancer produce un rendimiento de reconstrucción superior y resultados de renderizado de alta fidelidad en comparación con los métodos de vanguardia. La página web del proyecto es https://xiliu8006.github.io/3DGS-Enhancer-project.
La colonoscopia es actualmente uno de los métodos de detección más sensibles para el cáncer colorrectal. Este estudio investiga las fronteras de las técnicas de colonoscopia inteligente y sus posibles implicaciones para aplicaciones médicas multimodales. Con este objetivo, comenzamos evaluando los paisajes actuales centrados en datos y modelos a través de cuatro tareas para la percepción de escenas colonoscópicas, que incluyen clasificación, detección, segmentación y comprensión visión-lenguaje. Esta evaluación nos permite identificar desafíos específicos del dominio y revela que la investigación multimodal en colonoscopia sigue abierta para una mayor exploración. Para abrazar la próxima era multimodal, establecemos tres iniciativas fundamentales: un conjunto de datos de ajuste de instrucciones multimodal a gran escala, ColonINST, un modelo de lenguaje multimodal diseñado para colonoscopia, ColonGPT, y un punto de referencia multimodal. Para facilitar el monitoreo continuo de este campo en rápida evolución, proporcionamos un sitio web público para las últimas actualizaciones: https://github.com/ai4colonoscopy/IntelliScope.