Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

InternLM-XComposer-2.5: Un modelo de lenguaje de visión grande versátil que admite entradas y salidas contextuales largas.
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

Jul 3

ByPan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

Presentamos InternLM-XComposer-2.5 (IXC-2.5), un versátil modelo de lenguaje de gran visión que admite entradas y salidas contextuales largas. IXC-2.5 destaca en diversas aplicaciones de comprensión y composición de texto-imagen, logrando capacidades de nivel GPT-4V con solo 7B de capacidad LLM en el backend. Entrenado con 24K contextos de imagen-texto entrelazados, puede extenderse sin problemas a contextos largos de 96K mediante extrapolación de RoPE. Esta capacidad de contexto largo permite que IXC-2.5 sobresalga en tareas que requieren extensos contextos de entrada y salida. En comparación con su versión anterior 2.0, InternLM-XComposer-2.5 presenta tres importantes mejoras en comprensión de visión-lenguaje: (1) Comprensión de Ultra Alta Resolución, (2) Comprensión de Video Detallada y (3) Diálogo Multi-Vuelta Multi-Imagen. Además de la comprensión, IXC-2.5 se extiende a dos aplicaciones convincentes utilizando parámetros LoRA adicionales para la composición de texto-imagen: (1) Creación de páginas web y (2) Composición de artículos de texto-imagen de alta calidad. IXC-2.5 ha sido evaluado en 28 pruebas, superando a modelos de código abierto existentes de última generación en 16 pruebas. También supera o compite estrechamente con GPT-4V y Gemini Pro en 16 tareas clave. El InternLM-XComposer-2.5 está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.

TabReD: Un conjunto de pruebas de aprendizaje automático tabular en entornos reales
TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

Jun 27

ByIvan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko

Los puntos de referencia que reflejan de cerca los escenarios de aplicación son esenciales para la adopción eficiente de nuevas investigaciones en aprendizaje automático tabular (ML). En este trabajo, examinamos los puntos de referencia tabulares existentes y encontramos dos características comunes de los datos tabulares de calidad industrial que están subrepresentadas en los conjuntos de datos disponibles para la comunidad académica. En primer lugar, los datos tabulares a menudo cambian con el tiempo en escenarios de implementación del mundo real. Esto afecta el rendimiento del modelo y requiere divisiones de entrenamiento y prueba basadas en el tiempo para una evaluación correcta del modelo. Sin embargo, los conjuntos de datos tabulares académicos existentes a menudo carecen de metadatos de marca de tiempo para habilitar dicha evaluación. En segundo lugar, una parte considerable de los conjuntos de datos en entornos de producción proviene de extensos procesos de adquisición de datos e ingeniería de características. Para cada conjunto de datos específico, esto puede tener un impacto diferente en el número absoluto y relativo de características predictivas, no informativas y correlacionadas, lo que a su vez puede afectar la selección del modelo. Para cubrir las brechas mencionadas en los puntos de referencia académicos, presentamos TabReD, una colección de ocho conjuntos de datos tabulares de calidad industrial que abarcan una amplia gama de dominios, desde finanzas hasta servicios de entrega de alimentos. Evaluamos un gran número de modelos de ML tabulares en el entorno de datos rico en características y en evolución temporal facilitado por TabReD. Demostramos que la evaluación en divisiones de datos basadas en el tiempo conduce a una clasificación de métodos diferente, en comparación con la evaluación en divisiones aleatorias más comunes en los puntos de referencia académicos. Además, en los conjuntos de datos de TabReD, las arquitecturas tipo MLP y GBDT muestran los mejores resultados, mientras que los modelos de DL más sofisticados aún tienen que demostrar su efectividad.

Sin entrenamiento, sin problema: Repensando la orientación sin clasificador para Modelos de Difusión
No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models

Jul 2

BySeyedmorteza Sadat, Manuel Kansy, Otmar Hilliges, Romann M. Weber

La guía sin clasificador (CFG, por sus siglas en inglés) se ha convertido en el método estándar para mejorar la calidad de los modelos de difusión condicional. Sin embargo, utilizar CFG requiere entrenar un modelo incondicional junto al modelo principal de difusión o modificar el procedimiento de entrenamiento al insertar periódicamente una condición nula. Además, no existe una extensión clara de CFG a modelos incondicionales. En este artículo, revisamos los principios fundamentales de CFG e introducimos un nuevo método, guía de condición independiente (ICG, por sus siglas en inglés), que brinda los beneficios de CFG sin necesidad de procedimientos de entrenamiento especiales. Nuestro enfoque simplifica el proceso de entrenamiento de modelos de difusión condicional y también puede aplicarse durante la inferencia en cualquier modelo condicional preentrenado. Además, aprovechando la información de paso de tiempo codificada en todas las redes de difusión, proponemos una extensión de CFG, llamada guía de paso de tiempo (TSG, por sus siglas en inglés), que puede aplicarse a cualquier modelo de difusión, incluidos los incondicionales. Nuestras técnicas de guía son fáciles de implementar y tienen el mismo costo de muestreo que CFG. A través de experimentos extensos, demostramos que ICG iguala el rendimiento de CFG estándar en varios modelos de difusión condicional. Además, mostramos que TSG mejora la calidad de generación de manera similar a CFG, sin depender de ninguna información condicional.

TokenPacker: Proyector Visual Eficiente para LLM Multimodal
TokenPacker: Efficient Visual Projector for Multimodal LLM

Jul 2

ByWentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang

El proyector visual sirve como un puente esencial entre el codificador visual y el Modelo de Lenguaje Grande (LLM) en un LLM Multimodal (MLLM). Normalmente, los MLLM adoptan un MLP simple para preservar todos los contextos visuales a través de una transformación uno a uno. Sin embargo, los tokens visuales son redundantes y pueden aumentar considerablemente al tratar con imágenes de alta resolución, lo que afecta significativamente la eficiencia de los MLLM. Algunos trabajos recientes han introducido un remuestreador o un abstractor para reducir el número de tokens visuales resultantes. Desafortunadamente, no logran capturar detalles más finos y socavan las capacidades de razonamiento visual de los MLLM. En este trabajo, proponemos un proyector visual novedoso, que adopta un esquema de grueso a fino para inyectar las características enriquecidas y generar los tokens visuales condensados. Específicamente, primero interpolamos las características visuales como una consulta de punto de baja resolución, proporcionando la representación visual general como base. Luego, introducimos un módulo de inyección de región a punto que utiliza claves y valores de referencia de alta resolución y basados en regiones de varios niveles como referencias detalladas, permitiendo que se absorban completamente dentro de la región de contexto local correspondiente. Este paso actualiza efectivamente la consulta de punto grueso, transformándola en una enriquecida para el razonamiento LLM subsiguiente. Experimentos extensos demuestran que nuestro enfoque comprime los tokens visuales en un 75%~89%, mientras logra un rendimiento comparable o incluso mejor en diversos benchmarks con una eficiencia significativamente mayor. Los códigos fuente se pueden encontrar en https://github.com/CircleRadon/TokenPacker.

PicoAudio: Permitiendo el Control Preciso de la Marca de Tiempo y Frecuencia de Eventos de Audio en la Generación de Texto a Audio
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Jul 3

ByZeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu

Recientemente, las tareas de generación de audio han atraído considerable interés de investigación. La precisión en la controlabilidad temporal es esencial para integrar la generación de audio con aplicaciones reales. En este trabajo, proponemos un marco de trabajo para la generación de audio controlado temporalmente, PicoAudio. PicoAudio integra información temporal para guiar la generación de audio a través de un diseño de modelo personalizado. Aprovecha el rastreo de datos, la segmentación, el filtrado y la simulación de datos de audio-texto temporalmente alineados a nivel detallado. Tanto evaluaciones subjetivas como objetivas demuestran que PicoAudio supera drásticamente a los modelos de generación actuales más avanzados en cuanto a controlabilidad de marcas de tiempo y frecuencia de ocurrencia. Las muestras generadas están disponibles en el sitio web de demostración https://PicoAudio.github.io.

DisCo-Diff: Mejorando Modelos de Difusión Continua con Latentes Discretos
DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

Jul 3

ByYilun Xu, Gabriele Corso, Tommi Jaakkola, Arash Vahdat, Karsten Kreis

Los modelos de difusión (DMs) han revolucionado el aprendizaje generativo. Utilizan un proceso de difusión para codificar datos en una distribución Gaussiana simple. Sin embargo, codificar una distribución de datos compleja y potencialmente multimodal en una única distribución Gaussiana continua representa posiblemente un problema de aprendizaje innecesariamente desafiante. Proponemos Modelos de Difusión de Variables Latentes Discretas-Continuas (DisCo-Diff) para simplificar esta tarea mediante la introducción de variables latentes discretas complementarias. Ampliamos los DMs con variables latentes discretas aprendibles, inferidas con un codificador, y entrenamos el DM y el codificador de manera integral. DisCo-Diff no depende de redes pre-entrenadas, lo que hace que el marco sea universalmente aplicable. Las variables latentes discretas simplifican significativamente el aprendizaje del mapeo de ruido a datos del DM al reducir la curvatura de la Ecuación Diferencial Ordinaria (ODE) generativa del DM. Un transformador autoregresivo adicional modela la distribución de las variables latentes discretas, un paso sencillo porque DisCo-Diff solo requiere unas pocas variables discretas con diccionarios de códigos pequeños. Validamos DisCo-Diff en datos de juguete, varias tareas de síntesis de imágenes y acoplamiento molecular, y encontramos que la introducción de variables latentes discretas mejora consistentemente el rendimiento del modelo. Por ejemplo, DisCo-Diff logra puntuaciones FID de vanguardia en conjuntos de datos de ImageNet-64/128 condicionados por clase con muestreador ODE.

Investigación sobre Modelos de Lenguaje Grandes basados únicamente en Decodificadores para la Traducción de Voz a Texto.
Investigating Decoder-only Large Language Models for Speech-to-text Translation

Jul 3

ByChao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri

Los grandes modelos de lenguaje (LLMs), conocidos por sus excepcionales capacidades de razonamiento, generalización y fluidez en diversos dominios, representan una vía prometedora para mejorar las tareas relacionadas con el habla. En este documento, nos centramos en la integración de LLMs de solo decodificador en la tarea de traducción de habla a texto (S2TT). Proponemos una arquitectura de solo decodificador que permite al LLM consumir directamente la representación de habla codificada y generar la traducción de texto. Además, investigamos los efectos de diferentes técnicas de ajuste fino eficientes en parámetros y formulación de tareas. Nuestro modelo logra un rendimiento de vanguardia en CoVoST 2 y FLEURS entre los modelos entrenados sin datos propietarios. También realizamos análisis para validar las elecciones de diseño de nuestro modelo propuesto y aportar ideas a la integración de LLMs en S2TT.

Una Falsa Sensación de Seguridad: Fugas de Información Inseguras en la IA 'Segura' - Respuestas
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

Jul 2

ByDavid Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot

Los Modelos de Lenguaje de Gran Tamaño (LLMs) son vulnerables a jailbreaks, métodos para provocar salidas dañinas o generalmente inadmisibles. Se desarrollan medidas de seguridad y se evalúan por su efectividad en defenderse contra ataques de jailbreak, lo que indica la creencia de que la seguridad es equivalente a la robustez. Sostenemos que los mecanismos de defensa actuales, como los filtros de salida y el ajuste fino de alineación, son, y seguirán siendo, fundamentalmente insuficientes para garantizar la seguridad del modelo. Estas defensas no abordan los riesgos derivados de consultas con intenciones duales y la capacidad de componer salidas inofensivas para lograr objetivos dañinos. Para abordar esta brecha crítica, presentamos un modelo de amenazas de información llamado adversarios inferenciales que explotan la filtración de información inadmisible de las salidas del modelo para lograr objetivos maliciosos. Los distinguimos de los adversarios de seguridad comúnmente estudiados que solo buscan obligar a los modelos víctimas a generar salidas específicamente inadmisibles. Demostramos la viabilidad de automatizar adversarios inferenciales a través de la descomposición de preguntas y la agregación de respuestas. Para proporcionar garantías de seguridad, definimos un criterio de censura de información para los mecanismos de censura, limitando la filtración de información inadmisible. Proponemos un mecanismo de defensa que garantiza este límite y revelamos un compromiso intrínseco entre seguridad y utilidad. Nuestro trabajo proporciona la primera comprensión teóricamente fundamentada de los requisitos para liberar LLMs seguros y los costos de utilidad involucrados.

Eliminación del Sesgo de Posición de los Modelos de Lenguaje: Un Enfoque Mecanicista
Eliminating Position Bias of Language Models: A Mechanistic Approach

Jul 1

ByZiqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji

El sesgo de posición ha demostrado ser un problema prevalente en los modelos de lenguaje modernos (LM), donde los modelos priorizan el contenido según su posición dentro del contexto dado. Este sesgo a menudo conduce a fallas inesperadas en el modelo y afecta el rendimiento, la robustez y la confiabilidad en diversas aplicaciones. Nuestro análisis mecanicista atribuye el sesgo de posición a dos componentes utilizados en casi todos los LM de última generación: la atención causal y las codificaciones posicionales relativas. Específicamente, encontramos que la atención causal generalmente hace que los modelos favorezcan el contenido distante, mientras que las codificaciones posicionales relativas como RoPE prefieren los cercanos según el análisis de preguntas y respuestas aumentadas por recuperación (QA). Además, nuestro estudio empírico sobre detección de objetos revela que el sesgo de posición también está presente en los modelos de visión-lenguaje (VLM). Basándonos en los análisis anteriores, proponemos ELIMINAR el sesgo de posición causado por diferentes órdenes de segmentos de entrada (por ejemplo, opciones en LM-como-juez, documentos recuperados en QA) de manera ZERO-SHOT sin entrenamiento. Nuestro método cambia la atención causal a atención bidireccional entre segmentos y utiliza los valores de atención del modelo para decidir los órdenes relativos de los segmentos en lugar de usar el orden proporcionado en las indicaciones de entrada, permitiendo así una inferencia Posicionalmente INvariante (PINE) a nivel de segmento. Al eliminar el sesgo de posición, los modelos logran un mejor rendimiento y confiabilidad en tareas posteriores donde el sesgo de posición está ampliamente presente, como LM-como-juez y QA aumentada por recuperación. Es notable que PINE es especialmente útil al adaptar LM para evaluar pares de razonamiento: proporciona consistentemente ganancias de rendimiento de 8 a 10 puntos porcentuales en la mayoría de los casos, y hace que Llama-3-70B-Instruct funcione aún mejor que GPT-4-0125-preview en el subconjunto de razonamiento de RewardBench.