Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los modelos de lenguaje grandes se vuelven cada vez más comunes en el sector financiero, existe una necesidad apremiante de un método estandarizado para evaluar exhaustivamente su rendimiento. Sin embargo, los benchmarks financieros existentes a menudo sufren de una cobertura limitada en lenguaje y tareas, así como de desafíos como conjuntos de datos de baja calidad e inadecuada adaptabilidad para la evaluación de LLM. Para abordar estas limitaciones, proponemos "Golden Touchstone", el primer benchmark bilingüe integral para LLM financieros, que incorpora conjuntos de datos representativos tanto en chino como en inglés en ocho tareas fundamentales de PNL financiera. Desarrollado a partir de una extensa recopilación de datos de código abierto y demandas específicas de la industria, este benchmark incluye una variedad de tareas financieras destinadas a evaluar a fondo las capacidades de comprensión y generación de lenguaje de los modelos. A través del análisis comparativo de los principales modelos en el benchmark, como GPT-4o Llama3, FinGPT y FinMA, revelamos sus fortalezas y limitaciones en el procesamiento de información financiera compleja. Además, hemos hecho de código abierto Touchstone-GPT, un LLM financiero entrenado a través de pre-entrenamiento continuo y ajuste de instrucciones financieras, que demuestra un rendimiento sólido en el benchmark bilingüe pero aún tiene limitaciones en tareas específicas. Esta investigación no solo proporciona a los grandes modelos de lenguaje financieros una herramienta de evaluación práctica, sino que también guía el desarrollo y la optimización de futuras investigaciones. El código fuente de Golden Touchstone y el peso del modelo de Touchstone-GPT se han puesto a disposición del público en https://github.com/IDEA-FinAI/Golden-Touchstone, contribuyendo a la evolución continua de los FinLLMs y fomentando más investigaciones en esta área crítica.
Agregar un objeto en imágenes basado en instrucciones de texto es una tarea desafiante en la edición semántica de imágenes, que requiere un equilibrio entre preservar la escena original e integrar sin problemas el nuevo objeto en una ubicación adecuada. A pesar de los esfuerzos extensos, los modelos existentes a menudo tienen dificultades con este equilibrio, especialmente al encontrar una ubicación natural para agregar un objeto en escenas complejas. Presentamos Add-it, un enfoque sin entrenamiento que extiende los mecanismos de atención de los modelos de difusión para incorporar información de tres fuentes clave: la imagen de la escena, la indicación de texto y la imagen generada en sí misma. Nuestro mecanismo de atención extendida ponderado mantiene la consistencia estructural y los detalles finos al garantizar una colocación natural del objeto. Sin ajuste fino específico de la tarea, Add-it logra resultados de vanguardia tanto en imágenes reales como generadas, incluido nuestro nuevo "Banco de Pruebas de Adecuación de Agregado" para evaluar la plausibilidad de la colocación del objeto, superando a los métodos supervisados. Las evaluaciones humanas muestran que Add-it es preferido en más del 80% de los casos, y también demuestra mejoras en varias métricas automatizadas.
Los métodos de edición de imágenes guiados por instrucciones han demostrado un potencial significativo al entrenar modelos de difusión en pares de edición de imágenes sintetizados automáticamente o anotados manualmente. Sin embargo, estos métodos siguen estando lejos de aplicaciones prácticas en la vida real. Identificamos tres desafíos principales que contribuyen a esta brecha. En primer lugar, los modelos existentes tienen habilidades de edición limitadas debido al proceso de síntesis sesgado. En segundo lugar, estos métodos se entrenan con conjuntos de datos con un alto volumen de ruido y artefactos. Esto se debe a la aplicación de métodos de filtrado simples como CLIP-score. En tercer lugar, todos estos conjuntos de datos están restringidos a una sola resolución baja y relación de aspecto fija, lo que limita la versatilidad para manejar casos de uso del mundo real. En este documento, presentamos \omniedit, que es un editor omnipotente para manejar siete tareas diferentes de edición de imágenes con cualquier relación de aspecto de manera fluida. Nuestra contribución se divide en cuatro partes: (1) \omniedit se entrena utilizando la supervisión de siete modelos especializados diferentes para garantizar la cobertura de tareas. (2) Utilizamos muestreo de importancia basado en las puntuaciones proporcionadas por modelos multimodales grandes (como GPT-4o) en lugar de CLIP-score para mejorar la calidad de los datos. (3) Proponemos una nueva arquitectura de edición llamada EditNet para aumentar significativamente la tasa de éxito en la edición, (4) proporcionamos imágenes con diferentes relaciones de aspecto para garantizar que nuestro modelo pueda manejar cualquier imagen en la naturaleza. Hemos recopilado un conjunto de pruebas que contiene imágenes de diferentes relaciones de aspecto, acompañadas de diversas instrucciones para cubrir diferentes tareas. Tanto la evaluación automática como las evaluaciones humanas demuestran que \omniedit puede superar significativamente a todos los modelos existentes. Nuestro código, conjunto de datos y modelo estarán disponibles en https://tiger-ai-lab.github.io/OmniEdit/
La capacidad de comprender y responder preguntas sobre documentos puede ser útil en muchas aplicaciones comerciales y prácticas. Sin embargo, los documentos a menudo contienen contenidos multimodales extensos y diversos, como textos, figuras y tablas, que son muy consumidores de tiempo para que los humanos los lean a fondo. Por lo tanto, existe una necesidad urgente de desarrollar métodos efectivos y automatizados para ayudar a los humanos en esta tarea. En este trabajo, presentamos M-LongDoc, un banco de pruebas de 851 muestras, y un marco automatizado para evaluar el rendimiento de modelos multimodales grandes. Además, proponemos un enfoque de ajuste consciente de la recuperación para una lectura eficiente y efectiva de documentos multimodales. En comparación con los trabajos existentes, nuestro banco de pruebas consta de documentos más recientes y extensos con cientos de páginas, y también requiere soluciones abiertas y no solo respuestas extractivas. Hasta donde sabemos, nuestro marco de entrenamiento es el primero en abordar directamente el entorno de recuperación para documentos multimodales extensos. Para habilitar el ajuste de modelos de código abierto, construimos un corpus de entrenamiento de manera totalmente automática para la tarea de pregunta-respuesta sobre dichos documentos. Los experimentos muestran que nuestro enfoque de ajuste logra una mejora relativa del 4.6% en la corrección de las respuestas del modelo, en comparación con los modelos de código abierto de referencia. Nuestros datos, código y modelos están disponibles en https://multimodal-documents.github.io.
Los nuevos puntos de referencia de evaluación de LLM son importantes para alinearse con el rápido desarrollo de Modelos de Lenguaje Grandes (LLMs). En este trabajo, presentamos Chinese SimpleQA, el primer punto de referencia chino integral para evaluar la capacidad de factualidad de los modelos de lenguaje para responder preguntas cortas, y Chinese SimpleQA principalmente tiene cinco propiedades (es decir, Chino, Diverso, de Alta Calidad, Estático, Fácil de Evaluar). Específicamente, primero nos centramos en el idioma chino sobre 6 temas principales con 99 subtemas diversos. En segundo lugar, llevamos a cabo un proceso integral de control de calidad para lograr preguntas y respuestas de alta calidad, donde las respuestas de referencia son estáticas y no pueden cambiarse con el tiempo. En tercer lugar, siguiendo SimpleQA, las preguntas y respuestas son muy breves, y el proceso de calificación es fácil de evaluar basado en la API de OpenAI. Basándonos en Chinese SimpleQA, realizamos una evaluación exhaustiva de las capacidades de factualidad de los LLM existentes. Finalmente, esperamos que Chinese SimpleQA pueda guiar a los desarrolladores para comprender mejor las capacidades de factualidad chinas de sus modelos y facilitar el crecimiento de los modelos fundamentales.
Presentamos Edify Image, una familia de modelos de difusión capaces de generar contenido de imagen fotorrealista con una precisión de píxel perfecta. Edify Image utiliza modelos de difusión en el espacio de píxeles en cascada entrenados utilizando un novedoso proceso de difusión laplaciana, en el cual las señales de imagen en diferentes bandas de frecuencia se atenúan a tasas variables. Edify Image admite una amplia gama de aplicaciones, incluyendo síntesis de texto a imagen, aumento de resolución 4K, ControlNets, generación de panoramas HDR de 360 grados y ajuste fino para personalización de imágenes.
Los métodos de marca de agua en imágenes no están diseñados para manejar áreas pequeñas marcadas. Esto limita las aplicaciones en escenarios del mundo real donde partes de la imagen pueden provenir de diferentes fuentes o haber sido editadas. Presentamos un modelo de aprendizaje profundo para la marca de agua localizada en imágenes, denominado Modelo Watermark Anything (WAM). El incrustador de WAM modifica imperceptiblemente la imagen de entrada, mientras que el extractor segmenta la imagen recibida en áreas marcadas y no marcadas, y recupera uno o varios mensajes ocultos de las áreas identificadas como marcadas. Los modelos se entrenan conjuntamente a baja resolución y sin restricciones perceptuales, luego se post-entrenan para lograr imperceptibilidad y múltiples marcas de agua. Los experimentos muestran que WAM es competitivo con los métodos de vanguardia en términos de imperceptibilidad y robustez, especialmente contra retoques e inserciones, incluso en imágenes de alta resolución. Además, ofrece nuevas capacidades: WAM puede localizar áreas marcadas en imágenes compuestas y extraer mensajes distintos de 32 bits con menos de 1 bit de error de múltiples regiones pequeñas, no mayores al 10% de la superficie de la imagen, incluso para imágenes pequeñas de 256x256 píxeles.
La rápida evolución de las bibliotecas de software presenta un desafío significativo para los modelos de generación de código, los cuales deben adaptarse a las actualizaciones frecuentes de versiones manteniendo la compatibilidad con versiones anteriores. Los benchmarks existentes de completado de código a menudo pasan por alto este aspecto dinámico, y aquellos que lo consideran se basan en tareas estáticas de predicción de código sin evaluación basada en la ejecución, ofreciendo una perspectiva limitada sobre la usabilidad práctica de un modelo. Para abordar esta brecha, presentamos \GitChameleon{}, un conjunto de datos novedoso y creado manualmente que consta de 116 problemas de completado de código en Python, cada uno condicionado a versiones específicas de bibliotecas y acompañado de pruebas unitarias ejecutables. Está diseñado para evaluar rigurosamente la capacidad de los modernos modelos de lenguaje de gran tamaño (LLMs) para generar código específico de versión que no solo sea sintácticamente correcto, sino también funcionalmente preciso al ejecutarse. Nuestras evaluaciones exhaustivas revelan que los LLMs de última generación tienen dificultades con esta tarea; por ejemplo, GPT-4o logra un pass@10 de solo el 39.9\% (43.7\% cuando se proporciona retroalimentación de errores), resaltando la complejidad del problema y las limitaciones de los modelos actuales. Al proporcionar un benchmark basado en la ejecución que enfatiza la naturaleza dinámica de las bibliotecas de código, \GitChameleon{} sirve como una herramienta crítica para avanzar en el desarrollo de modelos de generación de código más adaptables y confiables. Para facilitar una mayor exploración de la generación de código condicionada por versiones, ponemos nuestro repositorio de código públicamente accesible en https://github.com/NizarIslah/GitChameleon.
En el ámbito de los modelos de lenguaje grandes (LLMs), la capacidad de los modelos para seguir instrucciones con precisión es primordial a medida que más agentes y aplicaciones aprovechan los LLMs para la construcción, donde la complejidad de las instrucciones está aumentando rápidamente. Sin embargo, por un lado, solo hay una cierta cantidad de datos de evaluación de instrucciones complejas; por otro lado, no existen algoritmos dedicados para mejorar la capacidad de seguir instrucciones complejas. Con este fin, este documento presenta TRACE, un punto de referencia para mejorar y evaluar la capacidad de seguir instrucciones complejas, que consta de 120K datos de entrenamiento y 1K datos de evaluación. Además, proponemos el método de alineación IOPO (Optimización de Preferencia de Entrada-Salida) que tiene en cuenta pares de preferencias de entrada y salida, donde los LLMs no solo se alinean rápidamente con las preferencias de respuesta, sino que también exploran meticulosamente las preferencias de instrucciones. Experimentos extensos en conjuntos de datos tanto dentro como fuera del dominio confirman la efectividad de IOPO, mostrando mejoras del 8.15%, 2.18% en datos dentro del dominio y del 6.29%, 3.13% en datos fuera del dominio en comparación con SFT y DPO respectivamente.
La modelización autoregresiva ha sido un gran éxito en el campo del procesamiento de lenguaje natural (NLP). Recientemente, los modelos autoregresivos han surgido como un área significativa de enfoque en la visión por computadora, donde destacan en la producción de contenido visual de alta calidad. Los modelos autoregresivos en NLP típicamente operan en tokens de subpalabras. Sin embargo, la estrategia de representación en visión por computadora puede variar en diferentes niveles, es decir, a nivel de píxel, a nivel de token o a nivel de escala, reflejando la naturaleza diversa y jerárquica de los datos visuales en comparación con la estructura secuencial del lenguaje. Esta encuesta examina exhaustivamente la literatura sobre modelos autoregresivos aplicados a la visión. Para mejorar la legibilidad para investigadores de diversos ámbitos de investigación, comenzamos con la representación y modelización secuencial preliminar en visión. A continuación, dividimos los marcos fundamentales de los modelos autoregresivos visuales en tres subcategorías generales, incluyendo modelos basados en píxeles, basados en tokens y basados en escalas según la estrategia de representación. Luego exploramos las interconexiones entre los modelos autoregresivos y otros modelos generativos. Además, presentamos una categorización multifacética de los modelos autoregresivos en visión, incluyendo generación de imágenes, generación de videos, generación 3D y generación multimodal. También detallamos sus aplicaciones en diversos dominios, incluyendo dominios emergentes como la IA incorporada y la IA médica 3D, con alrededor de 250 referencias relacionadas. Finalmente, destacamos los desafíos actuales para los modelos autoregresivos en visión con sugerencias sobre posibles direcciones de investigación. También hemos creado un repositorio en Github para organizar los documentos incluidos en esta encuesta en: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
Este documento investiga la racionalidad de los grandes modelos de lenguaje (LLMs) en contextos de toma de decisiones estratégicas, específicamente dentro del marco de la teoría de juegos. Evaluamos varios LLMs de última generación en un espectro de juegos de información completa e incompleta. Nuestros hallazgos revelan que los LLMs frecuentemente se desvían de estrategias racionales, especialmente a medida que la complejidad del juego aumenta con matrices de pagos más grandes o árboles secuenciales más profundos. Para abordar estas limitaciones, diseñamos múltiples flujos de trabajo de teoría de juegos que guían los procesos de razonamiento y toma de decisiones de los LLMs. Estos flujos de trabajo tienen como objetivo mejorar la capacidad de los modelos para calcular los equilibrios de Nash y tomar decisiones racionales, incluso en condiciones de incertidumbre e información incompleta. Los resultados experimentales demuestran que la adopción de estos flujos de trabajo mejora significativamente la racionalidad y robustez de los LLMs en tareas de teoría de juegos. Específicamente, con el flujo de trabajo, los LLMs muestran mejoras significativas en la identificación de estrategias óptimas, logrando asignaciones casi óptimas en escenarios de negociación y reduciendo la susceptibilidad a la explotación durante las negociaciones. Además, exploramos consideraciones metaestratégicas sobre si es racional para los agentes adoptar dichos flujos de trabajo, reconociendo que la decisión de usar o renunciar al flujo de trabajo constituye en sí misma un problema de teoría de juegos. Nuestra investigación contribuye a una comprensión más profunda de las capacidades de toma de decisiones de los LLMs en contextos estratégicos y proporciona ideas para mejorar su racionalidad a través de flujos de trabajo estructurados. Los hallazgos tienen implicaciones para el desarrollo de agentes de IA más robustos y estratégicamente sólidos capaces de navegar entornos interactivos complejos. El código y los datos que respaldan este estudio están disponibles en https://github.com/Wenyueh/game_theory.
Comprender y manipular los mecanismos de generación causal en los modelos de lenguaje es esencial para controlar su comportamiento. Trabajos anteriores se han basado principalmente en técnicas como la cirugía de representación, por ejemplo, ablaciones del modelo o manipulación de subespacios lineales vinculados a conceptos específicos, para intervenir en estos modelos. Para comprender con precisión el impacto de las intervenciones, es útil examinar los contrafactuales, por ejemplo, cómo habría aparecido una oración dada si hubiera sido generada por el modelo siguiendo una intervención específica. Destacamos que el razonamiento contrafactual es conceptualmente distinto de las intervenciones, como se articula en la jerarquía causal de Pearl. Basándonos en esta observación, proponemos un marco para generar contrafactuales de cadenas verdaderas reformulando los modelos de lenguaje como Modelos de Ecuaciones Estructurales Generalizadas utilizando el truco Gumbel-max. Esto nos permite modelar la distribución conjunta sobre cadenas originales y sus contrafactuales resultantes de la misma instanciación del ruido de muestreo. Desarrollamos un algoritmo basado en el muestreo Gumbel retrospectivo que nos permite inferir las variables de ruido latentes y generar contrafactuales de cadenas observadas. Nuestros experimentos demuestran que el enfoque produce contrafactuales significativos al mismo tiempo que muestran que las técnicas de intervención comúnmente utilizadas tienen efectos secundarios no deseados considerablemente importantes.
La generación de movimiento humano es un área de vanguardia en la investigación de visión por computadora generativa, con aplicaciones prometedoras en la creación de videos, desarrollo de juegos y manipulación robótica. La reciente arquitectura Mamba muestra resultados prometedores en modelado eficiente de secuencias largas y complejas, sin embargo, dos desafíos significativos persisten: En primer lugar, aplicar directamente Mamba a la generación de movimiento extendido es ineficaz, ya que la capacidad limitada de la memoria implícita conduce a la degradación de la memoria. En segundo lugar, Mamba tiene dificultades con la fusión multimodal en comparación con los Transformadores, y carece de alineación con consultas textuales, a menudo confundiendo direcciones (izquierda o derecha) u omitiendo partes de consultas de texto más largas. Para abordar estos desafíos, nuestro artículo presenta tres contribuciones clave: En primer lugar, presentamos KMM, una arquitectura novedosa que presenta Modelado de Enmascaramiento de Fotogramas Clave, diseñada para mejorar el enfoque de Mamba en acciones clave en segmentos de movimiento. Este enfoque aborda el problema de degradación de la memoria y representa un método pionero en la personalización de enmascaramiento estratégico a nivel de fotograma en SSMs. Además, diseñamos un paradigma de aprendizaje contrastivo para abordar el problema de fusión multimodal en Mamba y mejorar la alineación entre movimiento y texto. Finalmente, realizamos experimentos extensos en el conjunto de datos de referencia, BABEL, logrando un rendimiento de vanguardia con una reducción de más del 57% en FID y un 70% menos de parámetros en comparación con métodos de vanguardia anteriores. Consulte el sitio web del proyecto: https://steve-zeyu-zhang.github.io/KMM
Los algoritmos de ajuste fino de seguridad se utilizan comúnmente para refinar modelos de lenguaje con el fin de reducir salidas dañinas, pero los mecanismos internos exactos de cómo estos modelos logran esto siguen siendo poco claros. Al estudiar la optimización de preferencias directas (OPD) para la reducción de toxicidad, las explicaciones actuales afirman que la OPD funciona al atenuar las neuronas MLP más tóxicas para aprender un desplazamiento que evite regiones tóxicas en el flujo residual. Sin embargo, al eliminar las neuronas más tóxicas y aplicar parches de activación, encontramos que esta explicación es incompleta. Al proyectar los cambios de activación de las neuronas en una sonda de toxicidad, descubrimos que solo el 31.8\% de la reducción de toxicidad proviene de neuronas tóxicas atenuadas. En cambio, la OPD reduce la toxicidad acumulando efectos en múltiples grupos de neuronas, tanto disminuyendo la escritura en la dirección tóxica como promoviendo la anti-toxicidad en el flujo residual. Además, la OPD proporciona ajustes ruidosos a las activaciones de las neuronas, con muchas neuronas aumentando en realidad la toxicidad. Esto indica que la OPD es un proceso de equilibrio entre efectos opuestos de neuronas para lograr la reducción de toxicidad.
Los grandes modelos de lenguaje (LLMs) han demostrado un éxito significativo en tareas de procesamiento de lenguaje natural (NLP) y han mostrado resultados prometedores en otros ámbitos como la generación de secuencias de proteínas. Sin embargo, existen diferencias destacadas entre los LLMs utilizados para NLP, que manejan eficazmente múltiples tareas y están disponibles en tamaños pequeños, y los modelos de lenguaje de proteínas que a menudo están especializados para tareas específicas y solo existen en tamaños más grandes. En este trabajo, presentamos dos pequeños modelos de lenguaje de proteínas, basados en Llama-3-8B y Phi-3-mini, que son capaces de generar tanto proteínas de forma incontrolada como controlada. Para la tarea de generación incontrolada, nuestro mejor modelo logra un puntaje pLDDT promedio de 69.75, demostrando un rendimiento sólido en la generación de estructuras de proteínas viables. Para la tarea de generación controlada, en la cual el modelo genera proteínas de acuerdo con propiedades especificadas en la indicación, logramos un notable puntaje TM-Score promedio de 0.84, indicando una alta similitud estructural con las proteínas objetivo. Elegimos 10 propiedades, incluidas seis clases de enzimas, para ampliar las capacidades de los modelos de lenguaje de proteínas anteriores. Nuestro enfoque utiliza la técnica de Adaptador de Rango Bajo (LoRA), reduciendo los parámetros entrenables a solo el 4% del tamaño original del modelo, disminuyendo los requisitos computacionales. Al utilizar un subconjunto del conjunto de datos UniRef50 y modelos pequeños, redujimos el tiempo total de entrenamiento en un 70% sin comprometer el rendimiento. Especialmente, Phi-3-mini redujo los parámetros entrenables en un 60%, disminuyendo el costo de entrenamiento en un 30% en comparación con Llama 3. En consecuencia, Phi-3 logró un puntaje TM-Score comparable de 0.81, demostrando que los modelos más pequeños pueden igualar el rendimiento de los más grandes, como Llama 3. También demostramos la implementación de nuestros modelos en el chip energéticamente eficiente ET-SoC-1, mejorando significativamente el TPS/W en un factor de 3.
La construcción de un corrector de errores de posreconocimiento de propósito general plantea una pregunta crucial: ¿cómo podemos entrenar de manera más efectiva un modelo en una amplia mezcla de conjuntos de datos de dominio? La respuesta radicaría en aprender características específicas de cada conjunto de datos y asimilar su conocimiento en un único modelo. Métodos anteriores logran esto al tener modelos de lenguaje de corrección separados, lo que resulta en un aumento significativo de parámetros. En este trabajo, presentamos la Mezcla de Expertos como una solución, resaltando que los MoEs son mucho más que una herramienta de escalabilidad. Proponemos un MoE de Corrección Multi-Tarea, donde entrenamos a los expertos para convertirse en un "experto" en conjuntos de datos de habla a texto, lenguaje a texto y visión a texto, aprendiendo a dirigir los tokens de cada conjunto de datos a su experto asignado. Experimentos en el Open ASR Leaderboard muestran que exploramos un nuevo rendimiento de vanguardia al lograr una reducción promedio relativa del 5.0% en WER y mejoras sustanciales en las puntuaciones BLEU para tareas de habla y traducción. En la evaluación de cero disparo, NeKo supera a GPT-3.5 y Claude-Opus con una reducción relativa de WER del 15.5% al 27.6% en el benchmark de Hyporadise. NeKo tiene un rendimiento competitivo en corrección gramatical y pos-OCR como modelo multi-tarea.