Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos InternLM-XComposer-2.5 (IXC-2.5), un versátil modelo de lenguaje de gran visión que admite entradas y salidas contextuales largas. IXC-2.5 destaca en diversas aplicaciones de comprensión y composición de texto-imagen, logrando capacidades de nivel GPT-4V con solo 7B de capacidad LLM en el backend. Entrenado con 24K contextos de imagen-texto entrelazados, puede extenderse sin problemas a contextos largos de 96K mediante extrapolación de RoPE. Esta capacidad de contexto largo permite que IXC-2.5 sobresalga en tareas que requieren extensos contextos de entrada y salida. En comparación con su versión anterior 2.0, InternLM-XComposer-2.5 presenta tres importantes mejoras en comprensión de visión-lenguaje: (1) Comprensión de Ultra Alta Resolución, (2) Comprensión de Video Detallada y (3) Diálogo Multi-Vuelta Multi-Imagen. Además de la comprensión, IXC-2.5 se extiende a dos aplicaciones convincentes utilizando parámetros LoRA adicionales para la composición de texto-imagen: (1) Creación de páginas web y (2) Composición de artículos de texto-imagen de alta calidad. IXC-2.5 ha sido evaluado en 28 pruebas, superando a modelos de código abierto existentes de última generación en 16 pruebas. También supera o compite estrechamente con GPT-4V y Gemini Pro en 16 tareas clave. El InternLM-XComposer-2.5 está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.
Los puntos de referencia que reflejan de cerca los escenarios de aplicación son esenciales para la adopción eficiente de nuevas investigaciones en aprendizaje automático tabular (ML). En este trabajo, examinamos los puntos de referencia tabulares existentes y encontramos dos características comunes de los datos tabulares de calidad industrial que están subrepresentadas en los conjuntos de datos disponibles para la comunidad académica. En primer lugar, los datos tabulares a menudo cambian con el tiempo en escenarios de implementación del mundo real. Esto afecta el rendimiento del modelo y requiere divisiones de entrenamiento y prueba basadas en el tiempo para una evaluación correcta del modelo. Sin embargo, los conjuntos de datos tabulares académicos existentes a menudo carecen de metadatos de marca de tiempo para habilitar dicha evaluación. En segundo lugar, una parte considerable de los conjuntos de datos en entornos de producción proviene de extensos procesos de adquisición de datos e ingeniería de características. Para cada conjunto de datos específico, esto puede tener un impacto diferente en el número absoluto y relativo de características predictivas, no informativas y correlacionadas, lo que a su vez puede afectar la selección del modelo. Para cubrir las brechas mencionadas en los puntos de referencia académicos, presentamos TabReD, una colección de ocho conjuntos de datos tabulares de calidad industrial que abarcan una amplia gama de dominios, desde finanzas hasta servicios de entrega de alimentos. Evaluamos un gran número de modelos de ML tabulares en el entorno de datos rico en características y en evolución temporal facilitado por TabReD. Demostramos que la evaluación en divisiones de datos basadas en el tiempo conduce a una clasificación de métodos diferente, en comparación con la evaluación en divisiones aleatorias más comunes en los puntos de referencia académicos. Además, en los conjuntos de datos de TabReD, las arquitecturas tipo MLP y GBDT muestran los mejores resultados, mientras que los modelos de DL más sofisticados aún tienen que demostrar su efectividad.
La guía sin clasificador (CFG, por sus siglas en inglés) se ha convertido en el método estándar para mejorar la calidad de los modelos de difusión condicional. Sin embargo, utilizar CFG requiere entrenar un modelo incondicional junto al modelo principal de difusión o modificar el procedimiento de entrenamiento al insertar periódicamente una condición nula. Además, no existe una extensión clara de CFG a modelos incondicionales. En este artículo, revisamos los principios fundamentales de CFG e introducimos un nuevo método, guía de condición independiente (ICG, por sus siglas en inglés), que brinda los beneficios de CFG sin necesidad de procedimientos de entrenamiento especiales. Nuestro enfoque simplifica el proceso de entrenamiento de modelos de difusión condicional y también puede aplicarse durante la inferencia en cualquier modelo condicional preentrenado. Además, aprovechando la información de paso de tiempo codificada en todas las redes de difusión, proponemos una extensión de CFG, llamada guía de paso de tiempo (TSG, por sus siglas en inglés), que puede aplicarse a cualquier modelo de difusión, incluidos los incondicionales. Nuestras técnicas de guía son fáciles de implementar y tienen el mismo costo de muestreo que CFG. A través de experimentos extensos, demostramos que ICG iguala el rendimiento de CFG estándar en varios modelos de difusión condicional. Además, mostramos que TSG mejora la calidad de generación de manera similar a CFG, sin depender de ninguna información condicional.
El proyector visual sirve como un puente esencial entre el codificador visual y el Modelo de Lenguaje Grande (LLM) en un LLM Multimodal (MLLM). Normalmente, los MLLM adoptan un MLP simple para preservar todos los contextos visuales a través de una transformación uno a uno. Sin embargo, los tokens visuales son redundantes y pueden aumentar considerablemente al tratar con imágenes de alta resolución, lo que afecta significativamente la eficiencia de los MLLM. Algunos trabajos recientes han introducido un remuestreador o un abstractor para reducir el número de tokens visuales resultantes. Desafortunadamente, no logran capturar detalles más finos y socavan las capacidades de razonamiento visual de los MLLM. En este trabajo, proponemos un proyector visual novedoso, que adopta un esquema de grueso a fino para inyectar las características enriquecidas y generar los tokens visuales condensados. Específicamente, primero interpolamos las características visuales como una consulta de punto de baja resolución, proporcionando la representación visual general como base. Luego, introducimos un módulo de inyección de región a punto que utiliza claves y valores de referencia de alta resolución y basados en regiones de varios niveles como referencias detalladas, permitiendo que se absorban completamente dentro de la región de contexto local correspondiente. Este paso actualiza efectivamente la consulta de punto grueso, transformándola en una enriquecida para el razonamiento LLM subsiguiente. Experimentos extensos demuestran que nuestro enfoque comprime los tokens visuales en un 75%~89%, mientras logra un rendimiento comparable o incluso mejor en diversos benchmarks con una eficiencia significativamente mayor. Los códigos fuente se pueden encontrar en https://github.com/CircleRadon/TokenPacker.
Recientemente, las tareas de generación de audio han atraído considerable interés de investigación. La precisión en la controlabilidad temporal es esencial para integrar la generación de audio con aplicaciones reales. En este trabajo, proponemos un marco de trabajo para la generación de audio controlado temporalmente, PicoAudio. PicoAudio integra información temporal para guiar la generación de audio a través de un diseño de modelo personalizado. Aprovecha el rastreo de datos, la segmentación, el filtrado y la simulación de datos de audio-texto temporalmente alineados a nivel detallado. Tanto evaluaciones subjetivas como objetivas demuestran que PicoAudio supera drásticamente a los modelos de generación actuales más avanzados en cuanto a controlabilidad de marcas de tiempo y frecuencia de ocurrencia. Las muestras generadas están disponibles en el sitio web de demostración https://PicoAudio.github.io.
Los modelos de difusión (DMs) han revolucionado el aprendizaje generativo. Utilizan un proceso de difusión para codificar datos en una distribución Gaussiana simple. Sin embargo, codificar una distribución de datos compleja y potencialmente multimodal en una única distribución Gaussiana continua representa posiblemente un problema de aprendizaje innecesariamente desafiante. Proponemos Modelos de Difusión de Variables Latentes Discretas-Continuas (DisCo-Diff) para simplificar esta tarea mediante la introducción de variables latentes discretas complementarias. Ampliamos los DMs con variables latentes discretas aprendibles, inferidas con un codificador, y entrenamos el DM y el codificador de manera integral. DisCo-Diff no depende de redes pre-entrenadas, lo que hace que el marco sea universalmente aplicable. Las variables latentes discretas simplifican significativamente el aprendizaje del mapeo de ruido a datos del DM al reducir la curvatura de la Ecuación Diferencial Ordinaria (ODE) generativa del DM. Un transformador autoregresivo adicional modela la distribución de las variables latentes discretas, un paso sencillo porque DisCo-Diff solo requiere unas pocas variables discretas con diccionarios de códigos pequeños. Validamos DisCo-Diff en datos de juguete, varias tareas de síntesis de imágenes y acoplamiento molecular, y encontramos que la introducción de variables latentes discretas mejora consistentemente el rendimiento del modelo. Por ejemplo, DisCo-Diff logra puntuaciones FID de vanguardia en conjuntos de datos de ImageNet-64/128 condicionados por clase con muestreador ODE.
Los grandes modelos de lenguaje (LLMs), conocidos por sus excepcionales capacidades de razonamiento, generalización y fluidez en diversos dominios, representan una vía prometedora para mejorar las tareas relacionadas con el habla. En este documento, nos centramos en la integración de LLMs de solo decodificador en la tarea de traducción de habla a texto (S2TT). Proponemos una arquitectura de solo decodificador que permite al LLM consumir directamente la representación de habla codificada y generar la traducción de texto. Además, investigamos los efectos de diferentes técnicas de ajuste fino eficientes en parámetros y formulación de tareas. Nuestro modelo logra un rendimiento de vanguardia en CoVoST 2 y FLEURS entre los modelos entrenados sin datos propietarios. También realizamos análisis para validar las elecciones de diseño de nuestro modelo propuesto y aportar ideas a la integración de LLMs en S2TT.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) son vulnerables a jailbreaks, métodos para provocar salidas dañinas o generalmente inadmisibles. Se desarrollan medidas de seguridad y se evalúan por su efectividad en defenderse contra ataques de jailbreak, lo que indica la creencia de que la seguridad es equivalente a la robustez. Sostenemos que los mecanismos de defensa actuales, como los filtros de salida y el ajuste fino de alineación, son, y seguirán siendo, fundamentalmente insuficientes para garantizar la seguridad del modelo. Estas defensas no abordan los riesgos derivados de consultas con intenciones duales y la capacidad de componer salidas inofensivas para lograr objetivos dañinos. Para abordar esta brecha crítica, presentamos un modelo de amenazas de información llamado adversarios inferenciales que explotan la filtración de información inadmisible de las salidas del modelo para lograr objetivos maliciosos. Los distinguimos de los adversarios de seguridad comúnmente estudiados que solo buscan obligar a los modelos víctimas a generar salidas específicamente inadmisibles. Demostramos la viabilidad de automatizar adversarios inferenciales a través de la descomposición de preguntas y la agregación de respuestas. Para proporcionar garantías de seguridad, definimos un criterio de censura de información para los mecanismos de censura, limitando la filtración de información inadmisible. Proponemos un mecanismo de defensa que garantiza este límite y revelamos un compromiso intrínseco entre seguridad y utilidad. Nuestro trabajo proporciona la primera comprensión teóricamente fundamentada de los requisitos para liberar LLMs seguros y los costos de utilidad involucrados.
El sesgo de posición ha demostrado ser un problema prevalente en los modelos de lenguaje modernos (LM), donde los modelos priorizan el contenido según su posición dentro del contexto dado. Este sesgo a menudo conduce a fallas inesperadas en el modelo y afecta el rendimiento, la robustez y la confiabilidad en diversas aplicaciones. Nuestro análisis mecanicista atribuye el sesgo de posición a dos componentes utilizados en casi todos los LM de última generación: la atención causal y las codificaciones posicionales relativas. Específicamente, encontramos que la atención causal generalmente hace que los modelos favorezcan el contenido distante, mientras que las codificaciones posicionales relativas como RoPE prefieren los cercanos según el análisis de preguntas y respuestas aumentadas por recuperación (QA). Además, nuestro estudio empírico sobre detección de objetos revela que el sesgo de posición también está presente en los modelos de visión-lenguaje (VLM). Basándonos en los análisis anteriores, proponemos ELIMINAR el sesgo de posición causado por diferentes órdenes de segmentos de entrada (por ejemplo, opciones en LM-como-juez, documentos recuperados en QA) de manera ZERO-SHOT sin entrenamiento. Nuestro método cambia la atención causal a atención bidireccional entre segmentos y utiliza los valores de atención del modelo para decidir los órdenes relativos de los segmentos en lugar de usar el orden proporcionado en las indicaciones de entrada, permitiendo así una inferencia Posicionalmente INvariante (PINE) a nivel de segmento. Al eliminar el sesgo de posición, los modelos logran un mejor rendimiento y confiabilidad en tareas posteriores donde el sesgo de posición está ampliamente presente, como LM-como-juez y QA aumentada por recuperación. Es notable que PINE es especialmente útil al adaptar LM para evaluar pares de razonamiento: proporciona consistentemente ganancias de rendimiento de 8 a 10 puntos porcentuales en la mayoría de los casos, y hace que Llama-3-70B-Instruct funcione aún mejor que GPT-4-0125-preview en el subconjunto de razonamiento de RewardBench.