Artículos de investigación en IA seleccionados diariamente con traducciones
La pérdida contrastiva es un enfoque poderoso para el aprendizaje de representaciones, donde tamaños de lote más grandes mejoran el rendimiento al proporcionar más ejemplos negativos para distinguir mejor entre datos similares y disímiles. Sin embargo, escalar los tamaños de lote está limitado por el crecimiento cuadrático en el consumo de memoria de la GPU, principalmente debido a la instanciación completa de la matriz de similitud. Para abordar esto, proponemos una estrategia de cálculo basada en bloques que divide el cálculo de la pérdida contrastiva en bloques pequeños arbitrarios, evitando la materialización completa de la matriz de similitud. Además, introducimos una estrategia de división multinivel para aprovechar la estructura jerárquica de los sistemas distribuidos, utilizando comunicación basada en anillos a nivel de GPU para optimizar la sincronización y núcleos CUDA fusionados a nivel de núcleo para reducir la sobrecarga de E/S. Los resultados experimentales muestran que el método propuesto escala los tamaños de lote a niveles sin precedentes. Por ejemplo, permite el entrenamiento contrastivo de un modelo CLIP-ViT-L/14 con un tamaño de lote de 4M o 12M utilizando 8 o 32 A800 80GB sin sacrificar precisión alguna. En comparación con las soluciones eficientes en memoria del estado del arte, logra una reducción de dos órdenes de magnitud en memoria manteniendo una velocidad comparable. El código estará disponible públicamente.
Los Modelos de Lenguaje Grandes (LLMs) sufren de alucinaciones, haciendo referencia a la información no factual en el contenido generado, a pesar de sus capacidades superiores en diversas tareas. Mientras tanto, la edición de conocimiento se ha desarrollado como un nuevo paradigma popular para corregir el conocimiento factual erróneo codificado en los LLMs con la ventaja de evitar el reentrenamiento desde cero. Sin embargo, un problema común de los conjuntos de datos de evaluación existentes para la edición de conocimiento es que no garantizan que los LLMs generen realmente respuestas alucinadas a las preguntas de evaluación antes de la edición. Cuando los LLMs son evaluados en tales conjuntos de datos después de ser editados por diferentes técnicas, es difícil adoptar directamente el rendimiento para evaluar la efectividad de los diferentes métodos de edición de conocimiento en la corrección de alucinaciones. Por lo tanto, la pregunta fundamental sigue siendo insuficientemente validada: ¿Puede la edición de conocimiento realmente corregir alucinaciones en los LLMs? Hemos propuesto HalluEditBench para evaluar de manera integral los métodos de edición de conocimiento en la corrección de alucinaciones del mundo real. En primer lugar, construimos rigurosamente un extenso conjunto de datos de alucinaciones con 9 dominios, 26 temas y más de 6,000 alucinaciones. Luego, evaluamos el rendimiento de los métodos de edición de conocimiento de manera integral en cinco dimensiones que incluyen Eficacia, Generalización, Portabilidad, Localidad y Robustez. A través de HalluEditBench, hemos proporcionado nuevas perspectivas sobre el potencial y las limitaciones de diferentes métodos de edición de conocimiento en la corrección de alucinaciones, lo cual podría inspirar mejoras futuras y facilitar el progreso en el campo de la edición de conocimiento.
Los modelos de contexto largo (LCMs) han demostrado un gran potencial en el procesamiento de secuencias de entrada largas (incluso más de 100 millones de tokens) de manera conveniente y efectiva. Con un progreso significativo, investigaciones recientes han señalado que los LCMs pueden localizar con precisión información relevante a nivel de token dentro del contexto. Sin embargo, el rendimiento generativo de estos LCMs está lejos de ser satisfactorio y podría resultar en respuestas desalineadas, como alucinaciones. Para mejorar la capacidad generativa de los LCMs, trabajos existentes han investigado los efectos del tamaño y la calidad de los datos tanto para el preentrenamiento como para la sintonización de instrucciones. Aunque logran mejoras significativas, los métodos anteriores adolecen de efectividad o eficiencia. En este artículo, presentamos LOGO (Alineación de largo contexto mediante Optimización eficiente de preferencias), una estrategia de entrenamiento que primero introduce la optimización de preferencias para la alineación de largo contexto. Para superar el problema de la memoria GPU limitada por la secuencia larga, LOGO emplea una estrategia de optimización de preferencias sin referencia y adopta un método de síntesis de posiciones para construir los datos de entrenamiento. Al entrenar con solo 0.3 mil millones de datos en una sola máquina GPU 8 veces A800 durante 16 horas, LOGO permite que el modelo Llama-3-8B-Instruct-80K logre un rendimiento comparable con GPT-4 en tareas del mundo real de largo contexto, al tiempo que conserva las capacidades originales del modelo en otras tareas, como modelado de lenguaje y MMLU. Además, LOGO puede ampliar el tamaño de la ventana de contexto del modelo al tiempo que mejora su rendimiento generativo.
La disponibilidad de datos de alta calidad es uno de los factores más importantes para mejorar la capacidad de razonamiento de los LLMs. Trabajos existentes han demostrado la efectividad de crear más datos instructivos a partir de preguntas iniciales o bases de conocimiento. Investigaciones recientes indican que escalar continuamente la síntesis de datos a partir de modelos potentes (por ejemplo, GPT-4) puede potenciar aún más el rendimiento de razonamiento. Aunque prometedor, la comunidad de código abierto aún carece de datos de alta calidad a gran escala y de métodos escalables de síntesis de datos con costos asequibles. Para abordar esto, presentamos ScaleQuest, un método de síntesis de datos escalable y novedoso que utiliza modelos de código abierto de "tamaño pequeño" (por ejemplo, 7B) para generar preguntas desde cero sin necesidad de datos iniciales con complejas restricciones de aumento. Con ScaleQuest eficiente, construimos automáticamente un conjunto de datos de razonamiento matemático que consta de 1 millón de pares problema-solución, los cuales son más efectivos que los conjuntos de datos de código abierto existentes. Puede aumentar universalmente el rendimiento de los modelos de código abierto principales (es decir, Mistral, Llama3, DeepSeekMath y Qwen2-Math) logrando mejoras del 29.2% al 46.4% en MATH. Es notable que simplemente ajustando finamente el modelo Qwen2-Math-7B-Base con nuestro conjunto de datos puede incluso superar a Qwen2-Math-7B-Instruct, un modelo sólido y bien alineado en datos de código cerrado, y a modelos propietarios como GPT-4-Turbo y Claude-3.5 Sonnet.
Proponemos Framer para la interpolación de fotogramas interactiva, que tiene como objetivo producir fotogramas con transiciones suaves entre dos imágenes según la creatividad del usuario. Concretamente, además de tomar los fotogramas inicial y final como entradas, nuestro enfoque admite personalizar el proceso de transición adaptando la trayectoria de algunos puntos clave seleccionados. Este diseño ofrece dos claros beneficios. En primer lugar, la incorporación de la interacción humana mitiga el problema que surge de las numerosas posibilidades de transformar una imagen en otra, lo que a su vez permite un control más preciso de los movimientos locales. En segundo lugar, como forma más básica de interacción, los puntos clave ayudan a establecer la correspondencia entre los fotogramas, mejorando el modelo para manejar casos desafiantes (por ejemplo, objetos en los fotogramas inicial y final tienen formas y estilos diferentes). Es importante destacar que nuestro sistema también ofrece un modo "autopilot", donde introducimos un módulo para estimar los puntos clave y refinar la trayectoria automáticamente, para simplificar el uso en la práctica. Los extensos resultados experimentales demuestran el rendimiento atractivo de Framer en diversas aplicaciones, como morfología de imágenes, generación de videos en lapso de tiempo, interpolación de dibujos animados, etc. El código, el modelo y la interfaz se publicarán para facilitar investigaciones futuras.
Introducimos el concepto de un juego generativo infinito, un videojuego que trasciende los límites tradicionales de los sistemas finitos y codificados mediante el uso de modelos generativos. Inspirados por la distinción de James P. Carse entre juegos finitos e infinitos, aprovechamos los avances recientes en IA generativa para crear Unbounded: un juego de simulación de vida de personajes que está completamente encapsulado en modelos generativos. Específicamente, Unbounded se inspira en simulaciones de vida sandbox y te permite interactuar con tu personaje virtual autónomo en un mundo virtual alimentándolo, jugando con él y guiándolo, con mecánicas de juego de final abierto generadas por un LLM, algunas de las cuales pueden ser emergentes. Para desarrollar Unbounded, proponemos innovaciones técnicas tanto en el dominio de LLM como en la generación visual. Específicamente, presentamos: (1) un modelo de lenguaje grande (LLM) especializado y destilado que genera dinámicamente mecánicas de juego, narrativas e interacciones de personajes en tiempo real, y (2) un nuevo Adaptador de indicaciones de imagen regional dinámico (IP-Adapter) para modelos de visión que garantiza una generación visual consistente pero flexible de un personaje en múltiples entornos. Evaluamos nuestro sistema a través de análisis cualitativos y cuantitativos, mostrando mejoras significativas en la simulación de vida de personajes, seguimiento de instrucciones de usuario, coherencia narrativa y consistencia visual tanto para personajes como para los entornos en comparación con enfoques relacionados tradicionales.
Resolver tareas complejas de preguntas y respuestas de gráficos requiere habilidades avanzadas de razonamiento visual en modelos de lenguaje multimodales grandes (MLLMs). Estudios recientes resaltan que estas habilidades consisten en dos partes principales: reconocer información clave de entradas visuales y realizar razonamientos sobre ella. Por lo tanto, un enfoque prometedor para mejorar los MLLMs es construir datos de entrenamiento relevantes centrándose en estos dos aspectos. Sin embargo, recolectar y anotar gráficos y preguntas complejas es costoso y consume tiempo, y garantizar la calidad de las respuestas anotadas sigue siendo un desafío. En este documento, proponemos Traducción de Código como Intermediario (CIT), un método de síntesis de datos rentable, eficiente y fácilmente escalable para destilar habilidades de razonamiento visual de LLMs a MLLMs. El código actúa como un intermediario que traduce representaciones visuales de gráficos en representaciones textuales, permitiendo a los LLMs entender información cruzada modal. Específicamente, empleamos técnicas de síntesis basadas en texto para construir código de trazado de gráficos y producir ReachQA, un conjunto de datos que contiene 3k gráficos intensivos en razonamiento y 20k pares de preguntas y respuestas para mejorar tanto las habilidades de reconocimiento como de razonamiento. Los experimentos muestran que cuando se ajustan finamente con nuestros datos, los modelos no solo se desempeñan bien en pruebas relacionadas con gráficos, sino que también demuestran habilidades mejoradas de razonamiento multimodal en pruebas matemáticas generales como MathVista. El código y el conjunto de datos están disponibles públicamente en https://github.com/hewei2001/ReachQA.
En este informe, presentamos una colección de métodos para mejorar la modelización de recompensas para LLMs, centrándonos específicamente en técnicas centradas en los datos. Proponemos estrategias efectivas de selección y filtrado de datos para la curación de conjuntos de datos de preferencias de código abierto de alta calidad, culminando en la colección de datos Skywork-Reward, que contiene solo 80K pares de preferencias, significativamente más pequeña que los conjuntos de datos existentes. Utilizando este conjunto de datos curado, desarrollamos la serie de modelos Skywork-Reward: Skywork-Reward-Gemma-27B y Skywork-Reward-Llama-3.1-8B, siendo el primero el actual líder en la tabla de clasificación de RewardBench. Notablemente, nuestras técnicas y conjuntos de datos han mejorado directamente el rendimiento de muchos modelos mejor clasificados en RewardBench, resaltando el impacto práctico de nuestras contribuciones en aplicaciones de aprendizaje de preferencias del mundo real.
Los modelos de lenguaje grandes (LLMs) pueden almacenar una cantidad significativa de conocimiento factual en sus parámetros. Sin embargo, su conocimiento paramétrico puede entrar en conflicto con la información proporcionada en el contexto -- este fenómeno, conocido como conflictos de conocimiento memoria-contexto, puede llevar a un comportamiento no deseado del modelo, como depender de información desactualizada o incorrecta. Al analizar las activaciones internas de los LLMs, encontramos que pueden registrar internamente las señales de conflicto de conocimiento en capas intermedias. Estas señales nos permiten detectar si ocurre un conflicto de conocimiento y utilizar estrategias de intervención en tiempo de inferencia para resolverlo. En este trabajo, proponemos SpARE, un método de ingeniería de representación sin entrenamiento que utiliza auto-codificadores dispersos pre-entrenados (SAEs) para controlar el comportamiento de selección de conocimiento de los LLMs. SpARE identifica las características funcionales que controlan los comportamientos de selección de conocimiento y las aplica para editar las activaciones internas de los LLMs en tiempo de inferencia. Nuestros resultados experimentales muestran que SpARE puede controlar efectivamente el uso de cualquiera de las fuentes de conocimiento para resolver conflictos de conocimiento en tareas de preguntas y respuestas de dominio abierto, superando a los métodos existentes de ingeniería de representación (+10%) así como a los métodos de decodificación contrastiva (+15%).
Los avances en el entrenamiento distribuido y los mecanismos de atención eficientes han ampliado significativamente los tamaños de ventana de contexto de los grandes modelos de lenguaje (LLMs). Sin embargo, trabajos recientes revelan que las longitudes efectivas de contexto de los LLMs de código abierto a menudo son insuficientes, generalmente sin superar la mitad de sus longitudes de entrenamiento. En este trabajo, atribuimos esta limitación a la distribución de frecuencia sesgada hacia la izquierda de las posiciones relativas formadas en las etapas de preentrenamiento y postentrenamiento de los LLMs, lo cual obstaculiza su capacidad para recopilar información distante de manera efectiva. Para abordar este desafío, presentamos ShifTed Rotray position embeddING (STRING). STRING desplaza posiciones bien entrenadas para sobrescribir las posiciones originales ineficaces durante la inferencia, mejorando el rendimiento dentro de sus longitudes de entrenamiento existentes. Los resultados experimentales muestran que sin entrenamiento adicional, STRING mejora drásticamente el rendimiento de los últimos modelos a gran escala, como Llama3.1 70B y Qwen2 72B, en más de 10 puntos en los populares bancos de pruebas de contexto largo RULER e InfiniteBench, estableciendo nuevos resultados de vanguardia para los LLMs de código abierto. En comparación con los modelos comerciales, Llama 3.1 70B con \method incluso logra un mejor rendimiento que GPT-4-128K y supera claramente a Claude 2 y Kimi-chat.
La modelización eficiente de lenguaje de largo contexto sigue siendo un desafío significativo en el Procesamiento del Lenguaje Natural (PLN). Si bien los Transformadores dominan las tareas de lenguaje, tienen dificultades con secuencias largas debido a la complejidad computacional cuadrática en el entrenamiento y al aumento lineal de los costos de memoria durante la inferencia. Los Modelos de Espacio de Estado (MES) recientes como Mamba ofrecen alternativas con uso de memoria constante, pero tienen un rendimiento inferior en tareas que requieren una recuperación extensa en contexto. Presentamos Taipan, una arquitectura híbrida novedosa que combina Mamba-2 con Capas de Atención Selectiva (CAS). Estas CAS identifican tokens que requieren interacciones a larga distancia, eliminan características menos importantes y luego mejoran sus representaciones utilizando el módulo de atención. Este enfoque equilibra la eficiencia de Mamba con el rendimiento similar al de los Transformadores en tareas intensivas en memoria. Al limitar el presupuesto de atención, Taipan extiende predicciones precisas a longitudes de contexto de hasta 1 millón de tokens mientras conserva la eficiencia computacional. Nuestros experimentos demuestran el rendimiento superior de Taipan en diversas escalas y tareas, ofreciendo una solución prometedora para la modelización eficiente de lenguaje de largo contexto.
Segmentar un objeto en un video presenta desafíos significativos. Cada píxel debe ser etiquetado con precisión, y estas etiquetas deben mantenerse consistentes a lo largo de los fotogramas. La dificultad aumenta cuando la segmentación es con una granularidad arbitraria, lo que significa que el número de segmentos puede variar arbitrariamente, y las máscaras se definen en base a solo una o unas pocas imágenes de muestra. En este documento, abordamos este problema empleando un modelo de difusión de texto a imagen pre-entrenado complementado con un mecanismo de seguimiento adicional. Demostramos que nuestro enfoque puede gestionar eficazmente varios escenarios de segmentación y supera a las alternativas de vanguardia.
Esta investigación aborda el problema de la edición interactiva de la generación de movimientos humanos. Los modelos previos de difusión de movimientos carecen de modelado explícito de la correspondencia texto-movimiento a nivel de palabra y de una buena capacidad explicativa, lo que limita su habilidad de edición detallada. Para abordar este problema, proponemos un modelo de difusión de movimientos basado en atención, denominado MotionCLR, con modelado CLeaR de mecanismos de atención. Técnicamente, MotionCLR modela las interacciones intra-modalidad e inter-modalidad con autoatención y atención cruzada, respectivamente. Específicamente, el mecanismo de autoatención tiene como objetivo medir la similitud secuencial entre fotogramas e impacta en el orden de las características del movimiento. En contraste, el mecanismo de atención cruzada trabaja para encontrar la correspondencia detallada de secuencias de palabras y activar los pasos de tiempo correspondientes en la secuencia de movimientos. Basándonos en estas propiedades clave, desarrollamos un conjunto versátil de métodos simples pero efectivos de edición de movimientos mediante la manipulación de mapas de atención, como (des) enfatizar movimientos, reemplazo de movimientos en su lugar y generación de movimientos basada en ejemplos, entre otros. Para una mayor verificación de la explicabilidad del mecanismo de atención, exploramos adicionalmente el potencial del conteo de acciones y la capacidad de generación de movimientos fundamentada a través de mapas de atención. Nuestros resultados experimentales muestran que nuestro método disfruta de una buena capacidad de generación y edición con una buena explicabilidad.
El desarrollo web implica convertir diseños de interfaz de usuario en páginas web funcionales, lo cual puede resultar difícil tanto para principiantes como para desarrolladores experimentados debido a la complejidad de las estructuras jerárquicas y estilos de HTML. Aunque los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) han demostrado ser prometedores en la generación de código fuente, dos desafíos principales persisten en la generación de código de UI a HTML: (1) representar de manera efectiva la estructura jerárquica de HTML para los LLMs, y (2) cerrar la brecha entre la naturaleza visual de los diseños de UI y el formato basado en texto del código HTML. Para abordar estos desafíos, presentamos Waffle, una nueva estrategia de ajuste fino que utiliza un mecanismo de atención consciente de la estructura para mejorar la comprensión de los LLMs sobre la estructura de HTML, y un enfoque de ajuste fino contrastivo para alinear la comprensión de los LLMs entre las imágenes de UI y el código HTML. Los modelos ajustados con Waffle muestran hasta un 9.00 pp (punto porcentual) más de coincidencia en HTML, 0.0982 más alto en CW-SSIM, 32.99 más alto en CLIP, y 27.12 pp más alto en LLEM en nuestro nuevo banco de pruebas WebSight-Test y en un banco de pruebas existente Design2Code, superando a los métodos actuales de ajuste fino.
Los últimos años han sido testigos de un gran interés en el desarrollo de modelos multimodales grandes (LMMs) capaces de realizar diversas tareas de razonamiento y comprensión visual. Esto ha llevado a la introducción de múltiples bancos de pruebas de evaluación de LMMs para evaluar su desempeño en diferentes tareas. Sin embargo, la mayoría de los bancos de pruebas de evaluación de LMM existentes están predominantemente centrados en el idioma inglés. En este trabajo, desarrollamos un banco de pruebas de evaluación de LMM exhaustivo para el idioma árabe para representar a una gran población de más de 400 millones de hablantes. El banco de pruebas propuesto, llamado CAMEL-Bench, comprende ocho dominios diversos y 38 subdominios que incluyen comprensión multiimagen, percepción visual compleja, comprensión de documentos manuscritos, comprensión de videos, imágenes médicas, enfermedades de plantas y comprensión del uso de la tierra basada en teledetección para evaluar la generalización del escenario amplio. Nuestro CAMEL-Bench consta de alrededor de 29,036 preguntas que se filtran de un conjunto más grande de muestras, donde la calidad es verificada manualmente por hablantes nativos para garantizar una evaluación confiable del modelo. Realizamos evaluaciones tanto de modelos de código cerrado, incluida la serie GPT-4, como de LMMs de código abierto. Nuestro análisis revela la necesidad de mejoras sustanciales, especialmente entre los mejores modelos de código abierto, incluso logrando el modelo de código cerrado GPT-4o una puntuación general del 62%. Nuestro banco de pruebas y scripts de evaluación están disponibles en código abierto.
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) a menudo alucinan, produciendo salidas no fieles o incorrectas desde el punto de vista factual al distorsionar el contexto proporcionado o recordar de forma incorrecta el conocimiento interno. Estudios recientes han identificado cabezas de atención específicas dentro de la arquitectura Transformer, conocidas como cabezas de recuperación, responsables de extraer información contextual relevante. Hipotetizamos que al enmascarar estas cabezas de recuperación se pueden inducir alucinaciones y que contrastar las salidas del LLM base y el LLM enmascarado puede reducir las alucinaciones. Con este fin, proponemos Decodificación por Contraste de Cabezas de Recuperación (DeCoRe), una novedosa estrategia de decodificación sin entrenamiento que amplifica la información encontrada en el contexto y los parámetros del modelo. DeCoRe mitiga las respuestas potencialmente alucinadas al contrastar dinámicamente las salidas del LLM base y el LLM enmascarado, utilizando la entropía condicional como guía. Nuestros extensos experimentos confirman que DeCoRe mejora significativamente el rendimiento en tareas que requieren una alta fidelidad contextual, como la sumarización (XSum en un 18.6%), el seguimiento de instrucciones (MemoTrap en un 10.9%), y la respuesta a preguntas de libro abierto (NQ-Open en un 2.4% y NQ-Swap en un 5.5%).
Presentamos CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), un subconjunto de alta calidad de 500GB del Corpora Chino de Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), desarrollado utilizando un novedoso pipeline híbrido de filtrado en dos etapas que mejora significativamente la calidad de los datos. Para evaluar su efectividad, entrenamos un modelo de 0.5B parámetros desde cero en 100B tokens a través de varios conjuntos de datos, logrando un rendimiento superior en 10 pruebas en un escenario de cero disparos en comparación con CCI3.0, SkyPile y WanjuanV1. El proceso de filtrado de alta calidad destila eficazmente las capacidades del modelo Qwen2-72B-instruct en un modelo compacto de 0.5B, logrando puntajes F1 óptimos para la clasificación de datos web chinos. Creemos que este conjunto de datos de acceso abierto facilitará un acceso más amplio a modelos de lenguaje de alta calidad.
Los modelos de difusión logran una calidad de generación superior pero sufren de una velocidad de generación lenta debido a la naturaleza iterativa del proceso de eliminación de ruido. En contraste, los modelos de consistencia, una nueva familia generativa, logran un rendimiento competitivo con una velocidad de muestreo significativamente más rápida. Estos modelos se entrenan ya sea a través de destilación de consistencia, que aprovecha modelos de difusión preentrenados, o mediante entrenamiento/ajuste de consistencia directamente desde datos en bruto. En este trabajo, proponemos un marco novedoso para entender los modelos de consistencia al modelar el proceso de eliminación de ruido del modelo de difusión como un Proceso de Decisión de Markov (MDP) y enmarcar el entrenamiento del modelo de consistencia como la estimación de valor a través del Aprendizaje por Diferencia Temporal (TD). Más importante aún, este marco nos permite analizar las limitaciones de las estrategias actuales de entrenamiento/ajuste de consistencia. Basándonos en el Ajuste de Consistencia Fácil (ECT), proponemos el Ajuste de Consistencia Estable (SCT), que incorpora aprendizaje con reducción de varianza utilizando la identidad de puntaje. SCT conduce a mejoras significativas en el rendimiento en conjuntos de datos como CIFAR-10 e ImageNet-64. En ImageNet-64, SCT logra un FID de 1 paso de 2.42 y un FID de 2 pasos de 1.55, un nuevo estado del arte para los modelos de consistencia.
Los métodos actuales de marca de agua en imágenes son vulnerables a técnicas avanzadas de edición de imágenes habilitadas por modelos de texto a imagen a gran escala. Estos modelos pueden distorsionar las marcas de agua incrustadas durante la edición, lo que plantea desafíos significativos para la protección de derechos de autor. En este trabajo, presentamos W-Bench, el primer banco de pruebas integral diseñado para evaluar la robustez de los métodos de marca de agua frente a una amplia gama de técnicas de edición de imágenes, incluyendo regeneración de imágenes, edición global, edición local y generación de imágenes a video. A través de evaluaciones exhaustivas de once métodos representativos de marca de agua frente a técnicas de edición prevalentes, demostramos que la mayoría de los métodos no logran detectar marcas de agua después de tales ediciones. Para abordar esta limitación, proponemos VINE, un método de marca de agua que mejora significativamente la robustez frente a diversas técnicas de edición de imágenes manteniendo una alta calidad de imagen. Nuestro enfoque implica dos innovaciones clave: (1) analizamos las características de frecuencia de la edición de imágenes e identificamos que las distorsiones por desenfoque exhiben propiedades de frecuencia similares, lo que nos permite utilizarlas como ataques sustitutos durante el entrenamiento para reforzar la robustez de la marca de agua; (2) aprovechamos un modelo de difusión preentrenado a gran escala, SDXL-Turbo, adaptándolo para la tarea de marca de agua para lograr una incrustación de marca de agua más imperceptible y robusta. Los resultados experimentales muestran que nuestro método logra un rendimiento excepcional en marca de agua bajo diversas técnicas de edición de imágenes, superando a los métodos existentes tanto en calidad de imagen como en robustez. El código está disponible en https://github.com/Shilin-LU/VINE.
Los Transformers pueden capturar dependencias de largo alcance utilizando autoatención, permitiendo que los tokens atiendan directamente a todos los demás. Sin embargo, apilar múltiples capas de atención conlleva a concentración de atención. Una forma natural de abordar este problema es utilizar atención entre capas, permitiendo que la información de capas anteriores sea accesible directamente por capas posteriores. Sin embargo, este enfoque es computacionalmente costoso. Para resolver este problema, proponemos el Transformer con valor residual (ResFormer) que aproxima la atención entre capas mediante la adición de una conexión residual desde los valores de la primera capa a todas las capas subsiguientes. Basado en este método, una variante es el Transformer con valor de una sola capa (SVFormer), donde todas las capas comparten el mismo incrustado de valor desde la primera capa, reduciendo la caché KV en casi un 50%. Evidencia empírica exhaustiva demuestra que ResFormer mitiga el problema de concentración de atención en capas más profundas y mejora la representación en la mayoría de las capas, superando al Transformer convencional, DenseFormer y NeuTRENO en error de entrenamiento, así como en tareas posteriores. SVFormer se entrena significativamente más rápido que el Transformer convencional y tiene un mejor rendimiento que otros métodos como GQA y CLA, con el rendimiento influenciado por la longitud de la secuencia y la tasa de aprendizaje acumulativa.
Los recientes avances en la fusión multimodal han presenciado el notable éxito de los modelos visión-lenguaje (VL), que sobresalen en diversas aplicaciones multimodales como la descripción de imágenes y la respuesta a preguntas visuales. Sin embargo, la construcción de modelos VL requiere recursos de hardware sustanciales, donde la eficiencia se ve restringida por dos factores clave: la secuencia de entrada extendida del modelo de lenguaje con características visuales demanda más operaciones computacionales, y un gran número de parámetros aprendibles adicionales aumentan la complejidad de la memoria. Estos desafíos restringen significativamente la aplicabilidad más amplia de tales modelos. Para cerrar esta brecha, proponemos ADEM-VL, un método eficiente de visión-lenguaje que ajusta modelos VL basados en modelos de lenguaje grandes preentrenados (LLMs) mediante la adopción de un mecanismo de atención cruzada sin parámetros para medidas de similitud en la fusión multimodal. Este enfoque solo requiere incrustar características visuales en el espacio del lenguaje, reduciendo significativamente el número de parámetros entrenables y acelerando tanto el entrenamiento como la inferencia. Para mejorar el aprendizaje de representación en el módulo de fusión, introducimos un eficiente esquema de generación de características multiescala que requiere solo un pase hacia adelante a través del codificador de visión. Además, proponemos un esquema de fusión adaptativo que descarta dinámicamente la información visual menos relevante para cada token de texto basado en su puntuación de atención. Esto asegura que el proceso de fusión priorice las características visuales más pertinentes. Con experimentos en diversas tareas que incluyen respuesta a preguntas visuales, descripción de imágenes y seguimiento de instrucciones, demostramos que nuestro marco supera a los enfoques existentes. Específicamente, nuestro método supera a los métodos existentes en un 0.77% de precisión promedio en el conjunto de datos ScienceQA, con una latencia reducida de entrenamiento e inferencia, demostrando la superioridad de nuestro marco. El código está disponible en https://github.com/Hao840/ADEM-VL.
Se cree que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) tienen dificultades con el aprendizaje aritmético debido a las diferencias inherentes entre el modelado del lenguaje y la computación numérica, pero ha faltado evidencia concreta al respecto. Este trabajo responde a esta afirmación a través de un experimento de dos partes. Primero investigamos si los LLMs aprovechan los productos parciales durante el aprendizaje aritmético. Descubrimos que aunque los LLMs pueden identificar algunos productos parciales después del aprendizaje, no logran aprovecharlos para las tareas aritméticas, al contrario. Luego exploramos cómo los LLMs abordan la aritmética de manera simbólica al desglosar las tareas en subgrupos, planteando la hipótesis de que las dificultades surgen de la complejidad y selección de los subgrupos. Nuestros resultados muestran que cuando la complejidad del subgrupo está fija, los LLMs tratan una colección de diferentes operaciones aritméticas de manera similar. Al analizar la precisión a nivel de posición a través de diferentes tamaños de entrenamiento, observamos además que sigue un patrón en forma de U: los LLMs aprenden rápidamente los patrones más fáciles en las primeras y últimas posiciones, mientras que progresivamente aprenden los patrones más difíciles en las posiciones intermedias. Esto sugiere que los LLMs seleccionan subgrupos siguiendo un paradigma de fácil a difícil durante el aprendizaje. Nuestro trabajo confirma que los LLMs son aprendices puramente simbólicos en tareas aritméticas y destaca la importancia de comprenderlos profundamente a través de la cuantificación a nivel de subgrupo.
La edición de modelos se ha convertido en una alternativa cada vez más popular para actualizar eficientemente el conocimiento dentro de los modelos de lenguaje. Los métodos actuales se centran principalmente en la fiabilidad, generalización y localidad, con muchos métodos destacando en estos criterios. Algunos trabajos recientes revelan las desventajas de estos métodos de edición, como la distorsión o conflicto del conocimiento. Sin embargo, las capacidades generales de los modelos de lenguaje post-editados permanecen inexploradas. En este documento, realizamos una evaluación exhaustiva de varios métodos de edición y diferentes modelos de lenguaje, y hemos obtenido los siguientes hallazgos. (1) Los métodos de edición existentes conducen a un inevitable deterioro del rendimiento en pruebas generales, lo que indica que los métodos de edición actuales mantienen las capacidades generales del modelo con solo unas pocas docenas de ediciones. Cuando el número de ediciones es ligeramente grande, la estructura de conocimiento intrínseco del modelo se ve perturbada o incluso completamente dañada. (2) Los modelos ajustados a instrucciones son más robustos a la edición, mostrando una menor disminución del rendimiento en conocimiento general después de la edición. (3) Un modelo de lenguaje a gran escala es más resistente a la edición en comparación con un modelo pequeño. (4) La seguridad del modelo editado se debilita significativamente, incluso para aquellos modelos alineados con la seguridad. Nuestros hallazgos indican que los métodos de edición actuales solo son adecuados para actualizaciones de conocimiento a pequeña escala dentro de los modelos de lenguaje, lo que motiva una investigación adicional sobre métodos de edición más prácticos y confiables. Los detalles del código y la reproducción se pueden encontrar en https://github.com/lqinfdim/EditingEvaluation.
En este artículo, realizamos un análisis detallado sobre las formulaciones de problemas matemáticos y las exploraciones de optimización probabilística para algunos de los componentes clave en el modelo Transformer [33] en el campo de la IA generativa. Exploramos y discutimos algunas posibles mejoras adicionales para los métodos actuales de vanguardia para algunas tecnologías subyacentes clave de los modelos de IA generativa desde una perspectiva de optimización algorítmica y probabilística. En particular, presentamos una solución óptima para la codificación de subpalabras (SWE) basada en configuraciones iniciales similares a las del algoritmo de codificación de pares de bytes (BPE) en [9] con objetivos similares a los del enfoque WordPiece en [28, 31] para maximizar la verosimilitud de los datos de entrenamiento. También presentamos un método de optimización de entropía cruzada para optimizar hiperparámetros para el modelo word2vec [17]. Además, proponemos una combinación factorizada de la codificación posicional rotativa (RoPE) [32] y atención con sesgos lineales (ALiBi) [23] con una serie armónica. También presentamos un método probabilístico FlashAttention [6, 7] (PrFlashAttention) con una distribución de probabilidad sobre las distancias de bloque en la matriz para decidir qué bloque es probable que participe en una ronda dada de cálculo de atención mientras se mantiene la forma de triángulo inferior del tensor para modelos de lenguaje autoregresivos mediante el reajuste de los tensores. Finalmente, presentamos una cuantificación adaptativa escalonada (SAQ) de la caché clave-valor (KV) para atención multi-consulta (MQA) basada en el marco presentado en [16] para tener una degradación gradual de la cuantificación mientras se logra una calidad de modelo razonable y ahorros de costos.
El paradigma dominante para RLHF es el RL en línea y en política: generando de forma síncrona a partir del gran modelo de lenguaje (LLM), etiquetando con un modelo de recompensa y aprendiendo utilizando retroalimentación sobre las salidas del propio LLM. Aunque efectivo, este paradigma es computacionalmente ineficiente. Inspirados en la literatura clásica de RL profundo, proponemos separar la generación y el aprendizaje en RLHF. Esto permite la generación asíncrona de nuevas muestras mientras se entrena simultáneamente en muestras antiguas, lo que conduce a un entrenamiento más rápido y una escalabilidad más óptima en términos de cómputo. Sin embargo, el entrenamiento asíncrono se basa en un régimen poco explorado, el RLHF en línea pero fuera de política: aprendiendo en muestras de iteraciones anteriores de nuestro modelo. Para comprender los desafíos en este régimen, investigamos una pregunta fundamental: ¿hasta qué punto podemos tolerar la falta de política para acelerar el aprendizaje pero mantener el rendimiento? Entre varios algoritmos de RLHF que probamos, encontramos que el DPO en línea es el más robusto ante datos fuera de política, y la robustez aumenta con la escala del modelo de política. Estudiamos más optimizaciones de cómputo para RLHF asíncrono pero observamos que estas conllevan un costo en rendimiento, lo que da lugar a un compromiso. Finalmente, verificamos la escalabilidad de RLHF asíncrono entrenando LLaMA 3.1 8B en una tarea de seguimiento de instrucciones un 40% más rápido que una ejecución síncrona mientras se mantiene el rendimiento final.
La escalabilidad de datos ha revolucionado campos como el procesamiento de lenguaje natural y la visión por computadora, proporcionando a los modelos capacidades de generalización notables. En este documento, investigamos si existen leyes de escalabilidad de datos similares en la robótica, particularmente en la manipulación robótica, y si una escalabilidad de datos adecuada puede generar políticas de robots de una sola tarea que puedan ser implementadas sin entrenamiento para cualquier objeto dentro de la misma categoría en cualquier entorno. Con este fin, realizamos un estudio empírico exhaustivo sobre la escalabilidad de datos en el aprendizaje por imitación. Al recopilar datos en numerosos entornos y objetos, estudiamos cómo cambia el rendimiento de generalización de una política con el número de entornos de entrenamiento, objetos y demostraciones. A lo largo de nuestra investigación, recopilamos más de 40,000 demostraciones y ejecutamos más de 15,000 implementaciones de robots en el mundo real bajo un protocolo de evaluación riguroso. Nuestros hallazgos revelan varios resultados intrigantes: el rendimiento de generalización de la política sigue una relación aproximadamente de ley de potencias con el número de entornos y objetos. La diversidad de entornos y objetos es mucho más importante que el número absoluto de demostraciones; una vez que el número de demostraciones por entorno u objeto alcanza un umbral determinado, demostraciones adicionales tienen un efecto mínimo. Basándonos en estos conocimientos, proponemos una estrategia eficiente de recopilación de datos. Con cuatro recolectores de datos trabajando durante una tarde, recopilamos datos suficientes para permitir que las políticas para dos tareas logren aproximadamente tasas de éxito del 90% en entornos novedosos con objetos no vistos.
La selección de datos es crucial para optimizar el rendimiento del modelo de lenguaje (LM) en tareas específicas, sin embargo, la mayoría de los métodos existentes no logran considerar de manera efectiva la distribución de la tarea objetivo. Los enfoques actuales suelen ignorar por completo los requisitos específicos de la tarea o basarse en aproximaciones que no logran capturar los patrones matizados necesarios para tareas como la Autoformalización o la generación de código. Los métodos que sí consideran la distribución objetivo a menudo se basan en representaciones simplistas, a veces ruidosas, como características de n-gramas hasheados, que pueden provocar colisiones e introducir ruido. Presentamos ZIP-FIT, un marco de selección de datos que utiliza la compresión gzip para medir directamente la alineación entre los datos de entrenamiento potenciales y la distribución de la tarea objetivo. En evaluaciones exhaustivas sobre Autoformalización y generación de código en Python, ZIP-FIT supera significativamente a los baselines líderes como DSIR y D4. Los modelos entrenados con datos seleccionados por ZIP-FIT logran su menor pérdida de entropía cruzada hasta un 85.1\% más rápido que los baselines, demostrando que una mejor alineación de la tarea conduce a un aprendizaje más eficiente. Además, ZIP-FIT realiza la selección hasta un 65.8\% más rápido que DSIR y dos órdenes de magnitud más rápido que D4. Es notable que ZIP-FIT muestra que conjuntos de datos más pequeños y bien alineados a menudo superan a los más grandes pero menos específicos, demostrando que una pequeña cantidad de datos de mayor calidad es superior a una gran cantidad de datos de menor calidad. Nuestros resultados implican que la selección de datos consciente de la tarea es crucial para una adaptación de dominio eficiente, y que la compresión ofrece una forma fundamentada de medir la alineación de la tarea. Al mostrar que la selección de datos específica puede mejorar drásticamente el rendimiento específico de la tarea, nuestro trabajo proporciona nuevas perspectivas sobre la relación entre la calidad de los datos, la alineación de la tarea y la eficiencia del aprendizaje del modelo.
Consideramos el muestreo especulativo multi-borrador, donde las secuencias de propuestas se muestrean de forma independiente a partir de diferentes modelos de borrador. En cada paso, un esquema de selección de borrador a nivel de token toma una lista de tokens válidos como entrada y produce un token de salida cuya distribución coincide con la del modelo objetivo. Trabajos previos han demostrado que el esquema óptimo (que maximiza la probabilidad de aceptar uno de los tokens de entrada) se puede formular como una solución a un programa lineal. En este trabajo mostramos que el esquema óptimo se puede descomponer en una solución de dos pasos: en el primer paso se utiliza un esquema tipo muestreo de importancia (IS) para seleccionar un token intermedio; en el segundo paso se aplica un muestreo especulativo (de un solo borrador) para generar el token de salida. Para el caso de dos modelos de borrador idénticos, establecemos además 1) una condición necesaria y suficiente sobre las distribuciones de los modelos objetivo y de borrador para que la probabilidad de aceptación sea igual a uno y 2) proporcionamos una expresión explícita para la probabilidad de aceptación óptima. Nuestro análisis teórico también motiva una nueva clase de esquema de selección a nivel de token basado en muestreo de importancia ponderado. Nuestros resultados experimentales demuestran mejoras consistentes en la eficiencia de bloque alcanzable y las tasas de tokens sobre los esquemas base en varios escenarios.
La demostración de teoremas asistida por máquina se refiere al proceso de llevar a cabo un razonamiento estructurado para generar automáticamente demostraciones de teoremas matemáticos. Recientemente, ha habido un aumento de interés en utilizar modelos de aprendizaje automático en conjunto con asistentes de demostración para realizar esta tarea. En este documento, presentamos Pantograph, una herramienta que proporciona una interfaz versátil al asistente de demostración Lean 4 y permite una búsqueda de pruebas eficiente a través de algoritmos de búsqueda poderosos como la Búsqueda de Árbol de Monte Carlo. Además, Pantograph posibilita el razonamiento de alto nivel al permitir un manejo más sólido de los pasos de inferencia de Lean 4. Presentamos una visión general de la arquitectura y características de Pantograph. También informamos sobre un caso de uso ilustrativo: utilizando modelos de aprendizaje automático y bosquejos de pruebas para demostrar teoremas de Lean 4. Las características innovadoras de Pantograph allanan el camino para que modelos de aprendizaje automático más avanzados realicen búsquedas de pruebas complejas y razonamiento de alto nivel, capacitando a futuros investigadores para diseñar demostradores de teoremas más versátiles y potentes.