Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Artículo 1: Sobre la Transferibilidad de LLMs Mejorados con Razonamiento a Finanzas
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

Feb 12

ByLingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie

Los avances recientes en modelos de lenguaje grandes (LLMs) han demostrado sólidas habilidades de razonamiento general, sin embargo, su efectividad en el razonamiento financiero sigue siendo poco explorada. En este estudio, evaluamos exhaustivamente 16 potentes LLMs de razonamiento general en tres tareas financieras complejas que involucran texto financiero, datos tabulares y ecuaciones, evaluando razonamiento numérico, interpretación tabular, comprensión de terminología financiera, procesamiento de contextos largos y resolución de problemas basados en ecuaciones. Nuestros resultados muestran que si bien mejores conjuntos de datos y preentrenamiento mejoran el razonamiento financiero, mejoras generales como el ajuste fino de CoT no siempre generan ganancias consistentes. Además, todas las estrategias de razonamiento enfrentan desafíos para mejorar el rendimiento en tareas de contextos largos y multi-tabla. Para abordar estas limitaciones, desarrollamos un modelo mejorado de razonamiento financiero basado en Llama-3.1-8B-Instruct, mediante ajuste fino de CoT y aprendizaje por refuerzo con caminos de razonamiento específicos del dominio. Incluso con un simple ajuste fino con un conjunto de datos financieros, nuestro modelo logra una mejora de rendimiento consistente del 10% en todas las tareas, superando a todos los modelos de 8B e incluso a Llama3-70B-Instruct y Llama3.1-70B-Instruct en promedio. Nuestros resultados resaltan la necesidad de adaptaciones específicas del dominio en tareas financieras, enfatizando futuras direcciones como el razonamiento multi-tabla, el procesamiento de contextos largos y la comprensión de terminología financiera. Todos nuestros conjuntos de datos, modelos y códigos están disponibles públicamente. Además, presentamos un tablero de líderes para la evaluación comparativa de futuros conjuntos de datos y modelos.

TransMLA: Atención Latente Multi-cabeza es Todo lo que Necesitas
TransMLA: Multi-head Latent Attention Is All You Need

Feb 11

ByFanxu Meng, Zengwei Yao, Muhan Zhang

Los modernos modelos de lenguaje de gran tamaño (LLMs) a menudo se enfrentan a cuellos de botella en la comunicación en el hardware actual, en lugar de limitaciones puramente computacionales. La Atención Latente Multi-Cabeza (MLA) aborda este desafío mediante el uso de matrices de rango bajo en las capas clave-valor (KV), lo que permite almacenar estados KV latentes comprimidos en caché. Este enfoque reduce significativamente el tamaño de la caché KV en comparación con la atención multi-cabeza tradicional, lo que conduce a una inferencia más rápida. Además, MLA emplea una matriz de proyección ascendente para aumentar la expresividad, intercambiando cálculos adicionales por una reducción en la sobrecarga de comunicación. Aunque MLA ha demostrado eficiencia y efectividad en Deepseek V2/V3/R1, muchos proveedores de modelos importantes aún confían en la Atención de Consulta de Grupo (GQA) y no han anunciado planes para adoptar MLA. En este documento, mostramos que GQA siempre se puede representar mediante MLA manteniendo la misma sobrecarga de caché KV, pero lo contrario no es cierto. Para fomentar un uso más amplio de MLA, presentamos **TransMLA**, un método de post-entrenamiento que convierte modelos pre-entrenados ampliamente utilizados basados en GQA (por ejemplo, LLaMA, Qwen, Mixtral) en modelos basados en MLA. Después de la conversión, el modelo puede someterse a entrenamiento adicional para aumentar la expresividad sin aumentar el tamaño de la caché KV. Además, planeamos desarrollar técnicas de aceleración de inferencia específicas de MLA para preservar una baja latencia en los modelos transformados, lo que permite una destilación más eficiente de Deepseek R1.

BenchMAX: un conjunto de evaluación multilingüe exhaustivo para modelos de lenguaje grandes
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Feb 11

ByXu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan

Los benchmarks multilingües anteriores se centran principalmente en tareas de comprensión simples, pero para los grandes modelos de lenguaje (LLMs), enfatizamos la competencia en seguir instrucciones, razonamiento, comprensión de contextos extensos, generación de código, y más. Sin embargo, la medición de estas capacidades avanzadas en varios idiomas está poco explorada. Para abordar esta disparidad, presentamos BenchMAX, un benchmark de evaluación multilingüe de múltiples vías que permite comparaciones justas de estas habilidades importantes en varios idiomas. Para mantener una alta calidad, tres anotadores nativos distintos anotan de forma independiente cada muestra en todas las tareas después de que los datos se tradujeran automáticamente del inglés a otros 16 idiomas. Además, presentamos un desafío de traducción novedoso derivado de la construcción del conjunto de datos. Experimentos exhaustivos en BenchMAX revelan la efectividad variable de las capacidades fundamentales en varios idiomas, resaltando brechas de rendimiento que no pueden ser superadas simplemente escalando el tamaño del modelo. BenchMAX sirve como una plataforma de evaluación multilingüe integral, proporcionando un prometedor banco de pruebas para fomentar el desarrollo de modelos de lenguaje multilingües. El conjunto de datos y el código son de acceso público.

Leyes de Escala de Destilación
Distillation Scaling Laws

Feb 12

ByDan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb

Presentamos una ley de escala de destilación que estima el rendimiento del modelo destilado en función de un presupuesto de cómputo y su asignación entre el estudiante y el profesor. Nuestros hallazgos reducen los riesgos asociados con el uso de la destilación a gran escala; la asignación de cómputo para los modelos tanto del profesor como del estudiante ahora puede realizarse para maximizar el rendimiento del estudiante. Proporcionamos recetas de destilación óptimas en cómputo para cuando 1) existe un profesor, o 2) un profesor necesita entrenamiento. Si se van a destilar muchos estudiantes, o si ya existe un profesor, la destilación supera al preentrenamiento supervisado hasta un nivel de cómputo que crece de manera predecible con el tamaño del estudiante. Si se va a destilar un solo estudiante y también se necesita entrenar a un profesor, en su lugar se debería realizar aprendizaje supervisado. Además, ofrecemos ideas a lo largo de nuestro estudio a gran escala sobre destilación, que aumentan nuestra comprensión de la destilación e informan el diseño experimental.

TextAtlas5M: Un conjunto de datos a gran escala para la generación de imágenes de texto denso
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

Feb 11

ByAlex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li

La generación de imágenes condicionada por texto ha ganado una atención significativa en los últimos años y está procesando textos cada vez más largos y completos. En la vida cotidiana, textos densos e intrincados aparecen en contextos como publicidad, infografías y señalización, donde la integración tanto del texto como de las imágenes es esencial para transmitir información compleja. Sin embargo, a pesar de estos avances, la generación de imágenes que contienen texto de formato largo sigue siendo un desafío persistente, en gran parte debido a las limitaciones de los conjuntos de datos existentes, que a menudo se centran en textos más cortos y simples. Para abordar esta brecha, presentamos TextAtlas5M, un nuevo conjunto de datos diseñado específicamente para evaluar la representación de textos largos en la generación de imágenes condicionada por texto. Nuestro conjunto de datos consta de 5 millones de imágenes generadas y recopiladas con textos largos de diversos tipos de datos, lo que permite una evaluación exhaustiva de modelos generativos a gran escala en la generación de imágenes con texto largo. Además, hemos creado un conjunto de pruebas TextAtlasEval mejorado por humanos con 3000 muestras a lo largo de 3 dominios de datos, estableciendo uno de los bancos de pruebas más extensos para la generación condicionada por texto. Las evaluaciones sugieren que los bancos de pruebas TextAtlasEval presentan desafíos significativos incluso para los modelos propietarios más avanzados (por ejemplo, GPT4o con DallE-3), mientras que sus contrapartes de código abierto muestran una brecha de rendimiento aún mayor. Estas evidencias sitúan a TextAtlas5M como un conjunto de datos valioso para entrenar y evaluar modelos de generación de imágenes condicionadas por texto de próxima generación.

CineMaster: Un marco consciente en 3D y controlable para la generación de video a partir de texto cinematográfico.
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Feb 12

ByQinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai

En este trabajo, presentamos CineMaster, un marco novedoso para la generación de texto a video con conciencia tridimensional y controlable. Nuestro objetivo es capacitar a los usuarios con una controlabilidad comparable a la de los directores de cine profesionales: colocación precisa de objetos dentro de la escena, manipulación flexible tanto de objetos como de la cámara en el espacio 3D, y control intuitivo del diseño sobre los fotogramas renderizados. Para lograr esto, CineMaster opera en dos etapas. En la primera etapa, diseñamos un flujo de trabajo interactivo que permite a los usuarios construir de manera intuitiva señales condicionales con conciencia 3D al posicionar cuadros delimitadores de objetos y definir movimientos de cámara dentro del espacio 3D. En la segunda etapa, estas señales de control, que incluyen mapas de profundidad renderizados, trayectorias de cámara y etiquetas de clase de objetos, sirven como guía para un modelo de difusión de texto a video, asegurando generar el contenido de video deseado por el usuario. Además, para superar la escasez de conjuntos de datos en entornos naturales con anotaciones de movimiento de objetos 3D y posición de cámara, establecemos cuidadosamente un proceso automatizado de anotación de datos que extrae cuadros delimitadores 3D y trayectorias de cámara de datos de video a gran escala. Experimentos cualitativos y cuantitativos extensos demuestran que CineMaster supera significativamente a los métodos existentes e implementa una destacada generación de texto a video con conciencia 3D. Página del proyecto: https://cinemaster-dev.github.io/.

Light-A-Video: Relumbrado de video sin entrenamiento a través de la Fusión de Luz Progresiva
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Feb 12

ByYujie Zhou, Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Qidong Huang, Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Anyi Rao, Jiaqi Wang, Li Niu

Los avances recientes en modelos de reiluminación de imágenes, impulsados por conjuntos de datos a gran escala y modelos de difusión pre-entrenados, han permitido la imposición de iluminación consistente. Sin embargo, la reiluminación de videos aún se rezaga, principalmente debido a los costos excesivos de entrenamiento y la escasez de conjuntos de datos de reiluminación de video diversos y de alta calidad. Una aplicación simple de modelos de reiluminación de imágenes en base a cuadro por cuadro conlleva varios problemas: inconsistencia en la fuente de iluminación e inconsistencia en la apariencia reiluminada, lo que resulta en parpadeos en los videos generados. En este trabajo, proponemos Light-A-Video, un enfoque sin entrenamiento para lograr una reiluminación de video temporalmente suave. Adaptado de modelos de reiluminación de imágenes, Light-A-Video introduce dos técnicas clave para mejorar la consistencia de iluminación. En primer lugar, diseñamos un módulo de Atención de Luz Consistente (CLA), que mejora las interacciones entre cuadros dentro de las capas de autoatención para estabilizar la generación de la fuente de iluminación de fondo. En segundo lugar, aprovechando el principio físico de independencia del transporte de luz, aplicamos mezcla lineal entre la apariencia del video fuente y la apariencia reiluminada, utilizando una estrategia de Fusión de Luz Progresiva (PLF) para garantizar transiciones temporales suaves en la iluminación. Los experimentos muestran que Light-A-Video mejora la consistencia temporal de videos reiluminados manteniendo la calidad de imagen, asegurando transiciones de iluminación coherentes entre cuadros. Página del proyecto: https://bujiazi.github.io/light-a-video.github.io/.

Preentrenamiento de LLM con Conceptos Continuos
LLM Pretraining with Continuous Concepts

Feb 12

ByJihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan, Shibo Hao, Yuandong Tian, Jason Weston, Xian Li

La predicción del siguiente token ha sido el objetivo estándar de entrenamiento utilizado en el preentrenamiento de modelos de lenguaje a gran escala. Las representaciones se aprenden como resultado de optimizar la perplejidad a nivel de token. Proponemos Continuous Concept Mixing (CoCoMix), un nuevo marco de preentrenamiento que combina la predicción discreta del siguiente token con conceptos continuos. Específicamente, CoCoMix predice conceptos continuos aprendidos de un autoencoder disperso preentrenado y los mezcla en el estado oculto del modelo intercalándolos con representaciones ocultas de tokens. A través de experimentos en múltiples referencias, incluyendo modelado de lenguaje y tareas de razonamiento posteriores, demostramos que CoCoMix es más eficiente en muestras y supera consistentemente a la predicción estándar del siguiente token, destilación de conocimiento e inserción de tokens de pausa. Encontramos que combinar tanto el aprendizaje de conceptos como la intercalación en un marco de extremo a extremo es fundamental para obtener mejoras de rendimiento. Además, CoCoMix mejora la interpretabilidad y la capacidad de control al permitir la inspección directa y modificación del concepto predicho, ofreciendo una forma transparente de guiar el proceso de razonamiento interno del modelo.

WorldGUI: Pruebas Dinámicas para Automatización Integral de Interfaces Gráficas de Usuario en Escritorio
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

Feb 12

ByHenry Hengyuan Zhao, Difei Gao, Mike Zheng Shou

Los agentes GUI actuales han logrado un rendimiento sobresaliente en la fundamentación de elementos GUI. Sin embargo, la planificación sigue siendo altamente desafiante, especialmente debido a la sensibilidad al estado inicial del entorno. Específicamente, pequeñas diferencias en el estado inicial, como el software objetivo no estar abierto o la interfaz no estar en su estado predeterminado, a menudo conducen a errores de planificación. Este problema es común en escenarios de usuarios reales, pero los bancos de pruebas existentes no logran evaluarlo. En este documento, presentamos WorldGUI, un nuevo banco de pruebas GUI que diseña tareas GUI con varios estados iniciales para simular interacciones reales entre computadoras y usuarios. El banco de pruebas abarca una amplia gama de tareas en 10 aplicaciones de software populares, incluyendo PowerPoint, VSCode y Adobe Acrobat. Además, para abordar los desafíos de las tareas de automatización GUI dinámicas, proponemos GUI-Thinker, un marco holístico que aprovecha un mecanismo de crítica para gestionar de manera efectiva la imprevisibilidad y complejidad de las interacciones GUI. Los resultados experimentales demuestran que GUI-Thinker supera significativamente a Claude-3.5 (Uso de Computadora) en un 14.9% en la tasa de éxito en las tareas de WorldGUI. Esta mejora subraya la efectividad de nuestro marco basado en el pensamiento crítico para mejorar la automatización GUI.

LASP-2: Repensando el Paralelismo de Secuencia para Atención Lineal y su Híbrido
LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Feb 11

ByWeigao Sun, Disen Lan, Yiran Zhong, Xiaoye Qu, Yu Cheng

Los enfoques de modelado de secuencias lineales, como la atención lineal, ofrecen ventajas como el entrenamiento en tiempo lineal y la inferencia en memoria constante sobre longitudes de secuencia. Sin embargo, los métodos existentes de paralelismo de secuencias (SP) no están optimizados para la característica de producto primero correcto de la atención lineal o utilizan una estrategia de comunicación de estilo anular, lo que resulta en un menor paralelismo de cálculo, limitando su escalabilidad para secuencias más largas en sistemas distribuidos. En este documento, presentamos LASP-2, un nuevo método de SP para mejorar tanto el paralelismo de comunicación como de cálculo al entrenar modelos transformadores de atención lineal con secuencias de entrada muy largas. En comparación con el trabajo anterior LASP, LASP-2 reconsidera el requisito mínimo de comunicación para SP en capas de atención lineal, reorganiza todo el flujo de trabajo de comunicación-cálculo de LASP. De esta manera, solo se necesita una única comunicación colectiva AllGather en estados de memoria intermedios, cuyos tamaños son independientes de la longitud de la secuencia, lo que conduce a mejoras significativas tanto en la comunicación como en el paralelismo de cálculo, así como en su superposición. Además, extendemos LASP-2 a LASP-2H aplicando un rediseño de comunicación similar a los módulos de atención estándar, ofreciendo una solución de SP eficiente para modelos híbridos que combinan capas de atención lineal y estándar. Nuestra evaluación en un modelo Linear-Llama3, una variante de Llama3 con atención lineal reemplazando la atención estándar, demuestra la efectividad de LASP-2 y LASP-2H. Específicamente, LASP-2 logra mejoras en la velocidad de entrenamiento del 15.2% sobre LASP y del 36.6% sobre Ring Attention, con una longitud de secuencia de 2048K en 64 GPUs. El código se encuentra disponible en: https://github.com/OpenSparseLLMs/Linear-MoE.

Animar a Cualquiera 2: Animación de Imágenes de Personajes de Alta Fidelidad con Aprovechamiento del Entorno
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Feb 10

ByLi Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo

Los métodos recientes de animación de imágenes de personajes basados en modelos de difusión, como Animate Anyone, han logrado avances significativos en la generación de animaciones de personajes consistentes y generalizables. Sin embargo, estos enfoques no logran establecer asociaciones razonables entre los personajes y sus entornos. Para abordar esta limitación, presentamos Animate Anyone 2, con el objetivo de animar personajes con capacidad de adaptación al entorno. Además de extraer señales de movimiento del video fuente, capturamos representaciones ambientales adicionales como entradas condicionales. El entorno se formula como la región excluyendo a los personajes y nuestro modelo genera personajes para poblar estas regiones manteniendo coherencia con el contexto ambiental. Proponemos una estrategia de máscara agnóstica a la forma que caracteriza de manera más efectiva la relación entre el personaje y el entorno. Además, para mejorar la fidelidad de las interacciones de objetos, aprovechamos un guía de objetos para extraer características de los objetos que interactúan y empleamos mezcla espacial para la inyección de características. También introducimos una estrategia de modulación de postura que permite al modelo manejar patrones de movimiento más diversos. Los resultados experimentales demuestran el rendimiento superior del método propuesto.

¡Ignora la penalización de KL! Impulso a la exploración en tokens críticos para mejorar el ajuste fino de RL.
Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning

Feb 10

ByJean Vassoyan, Nathanaël Beau, Roman Plaud

La capacidad de lograr objetivos a largo plazo es un desafío clave en el desarrollo actual de grandes modelos de lenguaje (LLMs). Para abordar esto, los LLMs pre-entrenados pueden ser ajustados con aprendizaje por refuerzo (RL) para explorar soluciones que optimicen un objetivo dado. Sin embargo, la exploración con LLMs es difícil, ya que se debe encontrar un equilibrio entre descubrir nuevas soluciones y mantenerse lo suficientemente cerca del modelo pre-entrenado, para no degradar las capacidades básicas. Esto se controla típicamente con una penalización de Kullback-Leibler (KL). En este documento, investigamos la dinámica de exploración de un pequeño modelo de lenguaje en una tarea aritmética simple. Mostramos cómo diferentes grados de pre-entrenamiento influyen en la exploración y demostramos la importancia de los "tokens críticos" que tienen un impacto dramático en el resultado final. En consecuencia, introducimos una modificación simple a la penalización de KL que favorece la exploración en los tokens críticos, aumentando la eficiencia de la etapa de ajuste fino de RL.

Controlador de EDP: LLM para Autoformalización y Razonamiento de EDP
PDE-Controller: LLMs for Autoformalization and Reasoning of PDEs

Feb 3

ByMauricio Soroco, Jialin Song, Mengzhou Xia, Kye Emond, Weiran Sun, Wuyang Chen

Si bien recientemente la IA para matemáticas ha avanzado en matemáticas puras, áreas de matemáticas aplicadas, en particular las EDP, siguen siendo poco exploradas a pesar de sus significativas aplicaciones en el mundo real. Presentamos PDE-Controller, un marco que permite a los grandes modelos de lenguaje (LLMs) controlar sistemas gobernados por ecuaciones en derivadas parciales (EDPs). Nuestro enfoque permite a los LLMs transformar instrucciones informales en lenguaje natural en especificaciones formales, y luego ejecutar pasos de razonamiento y planificación para mejorar la utilidad del control de EDP. Construimos una solución integral que comprende conjuntos de datos (casos escritos por humanos y 2 millones de muestras sintéticas), modelos de razonamiento matemático y métricas de evaluación novedosas, todos los cuales requieren un esfuerzo significativo. Nuestro PDE-Controller supera significativamente a los modelos de código abierto más recientes y a los modelos GPT en razonamiento, autoformalización y síntesis de programas, logrando hasta un 62% de mejora en la ganancia de utilidad para el control de EDP. Al cerrar la brecha entre la generación de lenguaje y los sistemas de EDP, demostramos el potencial de los LLMs para abordar desafíos científicos y de ingeniería complejos. Publicaremos todos los datos, puntos de control del modelo y código en https://pde-controller.github.io/.

DPO-Shift: Cambiando la Distribución de la Optimización de Preferencia Directa
DPO-Shift: Shifting the Distribution of Direct Preference Optimization

Feb 11

ByXiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li

La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) y sus variantes se han vuelto cada vez más populares para alinear los modelos de lenguaje con las preferencias humanas. Estos métodos tienen como objetivo enseñar a los modelos a distinguir mejor entre respuestas elegidas (o preferidas) y respuestas rechazadas (o no preferidas). Sin embargo, investigaciones previas han identificado que la probabilidad de respuestas elegidas a menudo disminuye durante el entrenamiento, fenómeno conocido como desplazamiento de probabilidad. Para abordar este desafío, en este trabajo presentamos \method para desplazar de manera controlada la distribución de la probabilidad de las respuestas elegidas. Luego, demostramos que \method exhibe un trade-off fundamental entre mejorar la probabilidad de las respuestas elegidas y sacrificar el margen de recompensa, respaldado tanto por análisis teóricos como por validación experimental. Además, demostramos la superioridad de \method sobre DPO en tareas posteriores como MT-Bench y un experimento diseñado para la tasa de victorias. Creemos que este estudio muestra que el problema de desplazamiento de probabilidad de DPO puede ser mitigado de manera efectiva con una solución simple y fundamentada teóricamente. Nuestro código está disponible en https://github.com/Meaquadddd/DPO-Shift.

NoLiMa: Evaluación de Contexto Largo más Allá de la Coincidencia Literal
NoLiMa: Long-Context Evaluation Beyond Literal Matching

Feb 7

ByAli Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze

Los modelos de lenguaje grandes (LLMs) recientes admiten contextos largos que van desde 128K hasta 1M de tokens. Un método popular para evaluar estas capacidades es la prueba de "aguja en un pajar" (NIAH), que implica recuperar una "aguja" (información relevante) de un "pajar" (contexto largo e irrelevante). Las extensiones de este enfoque incluyen el aumento de distractores, encadenamiento de hechos y razonamiento contextual. Sin embargo, en estos benchmarks, los modelos pueden aprovechar coincidencias literales existentes entre la aguja y el pajar para simplificar la tarea. Para abordar esto, presentamos NoLiMa, un benchmark que extiende NIAH con un conjunto de agujas cuidadosamente diseñado, donde las preguntas y agujas tienen una superposición léxica mínima, lo que requiere que los modelos infieran asociaciones latentes para localizar la aguja dentro del pajar. Evaluamos 12 LLMs populares que afirman admitir contextos de al menos 128K tokens. Si bien se desempeñan bien en contextos cortos (<1K), el rendimiento se degrada significativamente a medida que aumenta la longitud del contexto. A 32K, por ejemplo, 10 modelos caen por debajo del 50% de sus baselines sólidos de longitud corta. Incluso GPT-4o, una de las excepciones con mejor rendimiento, experimenta una reducción desde un baseline casi perfecto del 99.3% al 69.7%. Nuestro análisis sugiere que estos descensos se derivan de la mayor dificultad que enfrenta el mecanismo de atención en contextos más largos cuando no hay coincidencias literales, lo que dificulta la recuperación de información relevante.

SARChat-Bench-2M: Un banco de pruebas visión-lenguaje multi-tarea para la interpretación de imágenes SAR.
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation

Feb 12

ByZhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan

En el campo de la interpretación de imágenes de teledetección por radar de apertura sintética (SAR), aunque los modelos de lenguaje visual (VLMs, por sus siglas en inglés) han logrado avances notables en el procesamiento del lenguaje natural y la comprensión de imágenes, sus aplicaciones siguen siendo limitadas en dominios profesionales debido a la falta de experiencia en el dominio. Este documento propone de manera innovadora el primer conjunto de datos de diálogo multimodal a gran escala para imágenes SAR, llamado SARChat-2M, que contiene aproximadamente 2 millones de pares de alta calidad de imagen y texto, abarcando diversos escenarios con anotaciones detalladas de objetivos. Este conjunto de datos no solo respalda varias tareas clave como la comprensión visual y la detección de objetos, sino que también presenta aspectos innovadores únicos: este estudio desarrolla un conjunto de datos visual-lenguaje y un punto de referencia para el dominio SAR, permitiendo y evaluando las capacidades de los VLMs en la interpretación de imágenes SAR, lo que proporciona un marco paradigmático para la construcción de conjuntos de datos multimodales en varios dominios verticales de teledetección. A través de experimentos con 16 VLMs principales, se ha verificado plenamente la efectividad del conjunto de datos, y se ha establecido con éxito el primer punto de referencia de diálogo multitarea en el campo SAR. El proyecto se lanzará en https://github.com/JimmyMa99/SARChat, con el objetivo de promover el desarrollo en profundidad y la amplia aplicación de modelos de lenguaje visual SAR.

Predicción del Próximo Bloque: Generación de Video a través de Modelado Semiautoregresivo
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

Feb 11

ByShuhuai Ren, Shuming Ma, Xu Sun, Furu Wei

La Predicción del Próximo Token (NTP) es un enfoque de facto para la generación de video autoregresiva (AR), pero sufre de dependencias unidireccionales subóptimas y una velocidad de inferencia lenta. En este trabajo, proponemos un marco semi-autoregresivo (semi-AR), llamado Predicción del Próximo Bloque (NBP), para la generación de video. Al descomponer uniformemente el contenido del video en bloques de tamaño igual (por ejemplo, filas o cuadros), trasladamos la unidad de generación de tokens individuales a bloques, lo que permite que cada token en el bloque actual prediga simultáneamente el token correspondiente en el siguiente bloque. A diferencia del modelado AR tradicional, nuestro marco emplea atención bidireccional dentro de cada bloque, lo que permite que los tokens capturen dependencias espaciales más robustas. Al predecir múltiples tokens en paralelo, los modelos NBP reducen significativamente el número de pasos de generación, lo que conduce a una inferencia más rápida y eficiente. Nuestro modelo logra puntajes FVD de 103.3 en UCF101 y 25.5 en K600, superando al modelo NTP básico en un promedio de 4.4. Además, gracias al menor número de pasos de inferencia, el modelo NBP genera 8.89 cuadros (resolución 128x128) por segundo, logrando una aceleración de 11 veces. También exploramos escalas de modelos que van desde 700M hasta 3B parámetros, observando mejoras significativas en la calidad de generación, con puntajes FVD que disminuyen de 103.3 a 55.3 en UCF101 y de 25.5 a 19.5 en K600, demostrando la escalabilidad de nuestro enfoque.

Hacia la Generación Aumentada de Recuperación Confiable para Modelos de Lenguaje Grandes: Una Encuesta
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey

Feb 8

ByBo Ni, Zheyuan Liu, Leyao Wang, Yongjia Lei, Yuying Zhao, Xueqi Cheng, Qingkai Zeng, Luna Dong, Yinglong Xia, Krishnaram Kenthapadi, Ryan Rossi, Franck Dernoncourt, Md Mehrab Tanjim, Nesreen Ahmed, Xiaorui Liu, Wenqi Fan, Erik Blasch, Yu Wang, Meng Jiang, Tyler Derr

La Generación con Recuperación (RAG, por sus siglas en inglés) es una técnica avanzada diseñada para abordar los desafíos del Contenido Generado por Inteligencia Artificial (AIGC). Al integrar la recuperación de contexto en la generación de contenido, RAG proporciona conocimiento externo confiable y actualizado, reduce las alucinaciones y garantiza un contexto relevante en una amplia gama de tareas. Sin embargo, a pesar del éxito y el potencial de RAG, estudios recientes han demostrado que el paradigma de RAG también introduce nuevos riesgos, incluidos problemas de robustez, preocupaciones de privacidad, ataques adversariales y problemas de responsabilidad. Abordar estos riesgos es fundamental para las futuras aplicaciones de los sistemas RAG, ya que impactan directamente en su confiabilidad. Aunque se han desarrollado varios métodos para mejorar la confiabilidad de los métodos RAG, existe una falta de una perspectiva unificada y un marco de investigación en este tema. Por lo tanto, en este documento, nuestro objetivo es abordar esta brecha proporcionando una hoja de ruta integral para desarrollar sistemas RAG confiables. Enfocamos nuestra discusión en torno a cinco perspectivas clave: confiabilidad, privacidad, seguridad, equidad, explicabilidad y responsabilidad. Para cada perspectiva, presentamos un marco general y una taxonomía, ofreciendo un enfoque estructurado para comprender los desafíos actuales, evaluar las soluciones existentes e identificar prometedores futuros enfoques de investigación. Para fomentar una adopción más amplia e innovación, también destacamos las aplicaciones derivadas donde los sistemas RAG confiables tienen un impacto significativo.

Módulos LLM: Transferencia de Conocimiento de un Modelo Grande a uno Pequeño utilizando Atención Cruzada Mejorada
LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention

Feb 12

ByKonstantin Kolomeitsev

En este trabajo, proponemos una arquitectura de Módulos LLM que permite la transferencia de conocimiento de un modelo pre-entrenado grande a un modelo más pequeño utilizando un mecanismo de Atención Cruzada Mejorada. En el esquema propuesto, el modelo Qwen2-1.5B se mantiene congelado y sus representaciones se pasan a través de capas de atención especialmente diseñadas al modelo GPT-Neo-125M, el cual está entrenado en recursos computacionales limitados. Los resultados experimentales en el conjunto de datos Bespoke-Stratos-17k demuestran que después de 15 épocas de entrenamiento, el modelo combinado genera respuestas de calidad comparable a las obtenidas mediante destilación. Discutimos las ventajas del enfoque modular, proporcionamos ejemplos de consultas de entrada y análisis comparativo, y esbozamos perspectivas para una mayor extensión del método.

Mediador: Fusión LLM eficiente en memoria con menos conflictos de parámetros y enrutamiento basado en incertidumbre.
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

Feb 6

ByKunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu

La fusión de modelos combina Modelos de Lenguaje Grandes (LLMs) ajustados finamente en diferentes tareas en uno más robusto. Sin embargo, los conflictos de parámetros entre los modelos conducen a una degradación del rendimiento en el promedio. Mientras que el enrutamiento de modelos aborda este problema seleccionando modelos individuales durante la inferencia, impone costos excesivos de almacenamiento y computación, y no aprovecha el conocimiento común de diferentes modelos. En este trabajo, observamos que diferentes capas muestran niveles variables de conflictos de parámetros. Basándonos en esta percepción, promediamos las capas con conflictos de parámetros mínimos y utilizamos un enrutamiento de expertos a nivel de tarea novedoso para capas con conflictos significativos. Para reducir aún más los costos de almacenamiento, inspirados en la dispersión aritmética de tareas, separamos múltiples expertos ajustados finamente en un experto denso y varios expertos dispersos. Considerando las muestras fuera de distribución, seleccionamos y fusionamos expertos apropiados en función de la incertidumbre de la tarea de los datos de entrada. Realizamos experimentos exhaustivos tanto en LLaMA como en Qwen con escalas de parámetros variables, y evaluamos en tareas de razonamiento del mundo real. Los resultados demuestran que nuestro método logra consistentemente mejoras significativas en el rendimiento, al tiempo que requiere menos costos del sistema en comparación con los métodos existentes.

MetaSC: Optimización de la Especificación de Seguridad en Tiempo de Prueba para Modelos de Lenguaje
MetaSC: Test-Time Safety Specification Optimization for Language Models

Feb 11

ByVíctor Gallego

Proponemos un nuevo marco de seguridad dinámica que optimiza el razonamiento de seguridad del modelo de lenguaje (LM) en tiempo de inferencia sin modificar los pesos del modelo. Basándonos en los avances recientes en métodos de autorrevisión, nuestro enfoque aprovecha un mecanismo de metacrítica que actualiza de forma iterativa las indicaciones de seguridad, denominadas especificaciones, para impulsar el proceso de crítica y revisión de manera adaptativa. Esta optimización en tiempo de prueba no solo mejora el rendimiento frente a solicitudes de desbloqueo adversarias, sino también en diversas tareas generales relacionadas con la seguridad, como evitar daños morales o buscar respuestas honestas. Nuestras evaluaciones empíricas en varios modelos de lenguaje demuestran que las indicaciones de seguridad optimizadas dinámicamente producen puntuaciones de seguridad significativamente más altas en comparación con las indicaciones fijas del sistema y las defensas estáticas de autorrevisión. El código se publicará en https://github.com/vicgalle/meta-self-critique.git.

Prior de Homeomorfismo para el Problema de Falsos Positivos y Negativos en el Aprendizaje de Representaciones Densas Contrastivas de Imágenes Médicas
Homeomorphism Prior for False Positive and Negative Problem in Medical Image Dense Contrastive Representation Learning

Feb 7

ByYuting He, Boyu Wang, Rongjun Ge, Yang Chen, Guanyu Yang, Shuo Li

El aprendizaje de representaciones contrastivas densas (DCRL) ha mejorado significativamente la eficiencia de aprendizaje para tareas de predicción de imágenes densas, mostrando un gran potencial para reducir los altos costos de recopilación de imágenes médicas y anotaciones densas. Sin embargo, las propiedades de las imágenes médicas hacen que el descubrimiento de correspondencias sea poco confiable, lo que plantea un problema abierto de pares falsos positivos y negativos a gran escala (FP&N) en DCRL. En este artículo, proponemos el aprendizaje de similitud visual densa geométrica (GEMINI) que incorpora el conocimiento previo de homeomorfismo en DCRL y permite un descubrimiento confiable de correspondencias para un contraste denso efectivo. Proponemos un aprendizaje de homeomorfismo deformable (DHL) que modela el homeomorfismo de imágenes médicas y aprende a estimar un mapeo deformable para predecir la correspondencia de píxeles manteniendo la preservación topológica. Esto reduce efectivamente el espacio de búsqueda de emparejamiento y facilita un aprendizaje implícito y suave de pares negativos a través de un gradiente. También proponemos una similitud semántica geométrica (GSS) que extrae información semántica en características para medir el grado de alineación en el aprendizaje de correspondencias. Esto promoverá la eficiencia de aprendizaje y el rendimiento de deformación, construyendo pares positivos de manera confiable. Implementamos dos variantes prácticas en dos tareas típicas de aprendizaje de representaciones en nuestros experimentos. Nuestros resultados prometedores en siete conjuntos de datos, que superan a los métodos existentes, muestran nuestra gran superioridad. Publicaremos nuestro código en un enlace complementario: https://github.com/YutingHe-list/GEMINI.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Artículo 1: Sobre la Transferibilidad de LLMs Mejorados con Razonamiento a Finanzas
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

Feb 12

ByLingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie

TransMLA: Atención Latente Multi-cabeza es Todo lo que Necesitas
TransMLA: Multi-head Latent Attention Is All You Need

Feb 11

ByFanxu Meng, Zengwei Yao, Muhan Zhang

BenchMAX: un conjunto de evaluación multilingüe exhaustivo para modelos de lenguaje grandes
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Feb 11

ByXu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan

Leyes de Escala de Destilación
Distillation Scaling Laws

Feb 12

ByDan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb

TextAtlas5M: Un conjunto de datos a gran escala para la generación de imágenes de texto denso
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

Feb 11

ByAlex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li

CineMaster: Un marco consciente en 3D y controlable para la generación de video a partir de texto cinematográfico.
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Feb 12

ByQinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai

Light-A-Video: Relumbrado de video sin entrenamiento a través de la Fusión de Luz Progresiva
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Feb 12

ByYujie Zhou, Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Qidong Huang, Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Anyi Rao, Jiaqi Wang, Li Niu