HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

15 papers found

Leyes de Escala con Vocabulario: Modelos Más Grandes Merecen Vocabularios Más Grandes
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Jul 18

ByChaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

La investigación sobre el escalado de grandes modelos de lenguaje (LLMs) se ha centrado principalmente en los parámetros del modelo y el tamaño de los datos de entrenamiento, pasando por alto el papel del tamaño del vocabulario. Intuitivamente, vocabularios más grandes permiten una tokenización más eficiente al representar oraciones con menos tokens, pero también aumentan el riesgo de representaciones insuficientes para tokens raros. Investigamos cómo el tamaño del vocabulario afecta las leyes de escalado de LLM al entrenar modelos que van desde 33M hasta 3B de parámetros en hasta 500B de caracteres con varias configuraciones de vocabulario. Proponemos tres enfoques complementarios para predecir el tamaño de vocabulario óptimo en términos de cómputo: análisis de IsoFLOPs, estimación de derivadas y ajuste paramétrico de la función de pérdida. Nuestros enfoques convergen en el mismo resultado de que el tamaño de vocabulario óptimo depende del presupuesto de cómputo disponible y que los modelos más grandes merecen vocabularios más grandes. Sin embargo, la mayoría de los LLMs utilizan tamaños de vocabulario demasiado pequeños. Por ejemplo, predecimos que el tamaño de vocabulario óptimo de Llama2-70B debería haber sido de al menos 216K, 7 veces más grande que su vocabulario de 32K. Validamos nuestras predicciones empíricamente al entrenar modelos con 3B de parámetros en diferentes presupuestos de FLOPs. Adoptar nuestro tamaño de vocabulario óptimo predicho mejora consistentemente el rendimiento en tareas posteriores en comparación con los tamaños de vocabulario comúnmente utilizados. Al aumentar el tamaño del vocabulario de los convencionales 32K a 43K, mejoramos el rendimiento en ARC-Challenge de 29.1 a 32.0 con los mismos 2.3e21 FLOPs. Nuestro trabajo enfatiza la necesidad de considerar conjuntamente los parámetros del modelo y el tamaño del vocabulario para un escalado eficiente.

Escalando modelos de lenguaje basados en recuperación con un almacén de datos de un billón de tokens.
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

Jul 9

ByRulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh

Las leyes de escala con respecto a la cantidad de datos de entrenamiento y el número de parámetros nos permiten predecir los compromisos costo-beneficio de preentrenar modelos de lenguaje (LMs) en diferentes configuraciones. En este documento, consideramos otra dimensión de escala: la cantidad de datos disponibles en el momento de inferencia. Específicamente, encontramos que aumentar el tamaño del almacén de datos utilizado por un LM basado en recuperación mejora monótonamente la modelización del lenguaje y varias tareas posteriores sin una saturación obvia, de modo que un modelo más pequeño, complementado con un gran almacén de datos, supera a un modelo LM solo más grande en tareas intensivas en conocimiento. Al trazar curvas de escala óptima de cálculo con tamaños de almacén de datos, modelo y preentrenamiento variables, mostramos que el uso de almacenes de datos más grandes puede mejorar significativamente el rendimiento del modelo para el mismo presupuesto de cálculo de entrenamiento. Realizamos nuestro estudio construyendo un almacén de datos de 1,4 billones de tokens llamado MassiveDS, que es el almacén de datos de código abierto más grande y diverso hasta la fecha para LMs basados en recuperación, y diseñando un pipeline eficiente para estudiar la escala del almacén de datos de manera computacionalmente accesible. Finalmente, analizamos el efecto de mejorar el recuperador, el filtrado de calidad del almacén de datos y otras elecciones de diseño en nuestras tendencias de escala observadas. En general, nuestros resultados muestran que el tamaño del almacén de datos debe considerarse como una parte integral de los compromisos de eficiencia y rendimiento de LM. Para facilitar la investigación futura, compartimos nuestro almacén de datos y código de código abierto en https://github.com/RulinShao/retrieval-scaling.

Escalando modelos de código de granito a 128K de contexto.
Scaling Granite Code Models to 128K Context

Jul 18

ByMatt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda

Este artículo presenta modelos de código Granite de largo contexto que admiten ventanas de contexto efectivas de hasta 128K tokens. Nuestra solución para ampliar la longitud del contexto de los modelos de código Granite 3B/8B de 2K/4K a 128K consiste en un preentrenamiento continuo de bajo peso al aumentar gradualmente su frecuencia base de RoPE con empaquetado de archivos a nivel de repositorio y datos de largo contexto aumentados en longitud. Además, también lanzamos modelos ajustados a instrucciones con soporte de largo contexto que se derivan al ajustar aún más los modelos base de largo contexto en una mezcla de pares de instrucciones-respuesta de contexto corto y largo con licencias permisivas. Al comparar con los modelos de código Granite de contexto corto originales, nuestros modelos de largo contexto logran mejoras significativas en tareas de largo contexto sin degradación del rendimiento notable en bancos de pruebas regulares de finalización de código (por ejemplo, HumanEval). Publicamos todos nuestros modelos de código Granite de largo contexto bajo una licencia Apache 2.0 para uso tanto en investigación como comercial.

Forma del Movimiento: Reconstrucción 4D a partir de un Único Video
Shape of Motion: 4D Reconstruction from a Single Video

Jul 18

ByQianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa

La reconstrucción dinámica monocular es un problema desafiante y de larga data en visión debido a la naturaleza altamente mal planteada de la tarea. Los enfoques existentes están limitados en que dependen de plantillas, son efectivos solo en escenas cuasi estáticas, o no logran modelar explícitamente el movimiento 3D. En este trabajo, presentamos un método capaz de reconstruir escenas dinámicas genéricas, con un movimiento 3D explícito y de secuencia completa, a partir de videos monoculares capturados de manera casual. Abordamos la naturaleza subdeterminada del problema con dos ideas clave: Primero, explotamos la estructura de baja dimensión del movimiento 3D representando el movimiento de la escena con un conjunto compacto de bases de movimiento SE3. El movimiento de cada punto se expresa como una combinación lineal de estas bases, facilitando la descomposición suave de la escena en múltiples grupos que se mueven rígidamente. Segundo, utilizamos un conjunto completo de precondiciones basadas en datos, incluidos mapas de profundidad monoculares y pistas 2D de largo alcance, y diseñamos un método para consolidar eficazmente estas señales de supervisión ruidosas, lo que resulta en una representación globalmente consistente de la escena dinámica. Los experimentos muestran que nuestro método logra un rendimiento de vanguardia tanto en la estimación de movimiento 3D/2D de largo alcance como en la síntesis de vistas novedosas en escenas dinámicas. Página del proyecto: https://shape-of-motion.github.io/

Paisajes urbanos: Generación a gran escala de vistas de calles consistentes utilizando Difusión de Video Autoregresivo.
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Jul 18

ByBoyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

Presentamos un método para generar Paisajes Urbanos: secuencias largas de vistas a través de una escena a escala de ciudad sintetizada sobre la marcha. Nuestra generación está condicionada por la entrada de lenguaje (por ejemplo, nombre de la ciudad, clima), así como un mapa/diseño subyacente que alberga la trayectoria deseada. En comparación con modelos recientes para generación de video o síntesis de vistas 3D, nuestro método puede escalar a trayectorias de cámara de mucho mayor alcance, abarcando varios bloques de la ciudad, manteniendo la calidad visual y la consistencia. Para lograr este objetivo, nos basamos en trabajos recientes sobre difusión de video, utilizados dentro de un marco autoregresivo que puede escalar fácilmente a secuencias largas. En particular, introducimos un nuevo método de imputación temporal que evita que nuestro enfoque autoregresivo se desvíe de la distribución de imágenes realistas de la ciudad. Entrenamos nuestro sistema Streetscapes en una fuente convincente de datos: imágenes de Google Street View, junto con datos de mapas contextuales, lo que permite a los usuarios generar vistas de la ciudad condicionadas a cualquier diseño de ciudad deseado, con poses de cámara controlables. Para ver más resultados, visite nuestra página de proyecto en https://boyangdeng.com/streetscapes.

Evaluación de la confiabilidad de modelos de lenguaje multimodales de gran escala: un estudio exhaustivo
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

Jun 11

ByYichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

A pesar de las capacidades superiores de los Modelos de Lenguaje Multimodal Grande (MLLMs) en diversas tareas, aún enfrentan desafíos significativos de confiabilidad. Sin embargo, la literatura actual sobre la evaluación de MLLMs confiables sigue siendo limitada, careciendo de una evaluación holística que ofrezca ideas exhaustivas para futuras mejoras. En este trabajo, establecemos MultiTrust, el primer banco de pruebas integral y unificado sobre la confiabilidad de MLLMs en cinco aspectos principales: veracidad, seguridad, robustez, equidad y privacidad. Nuestro banco de pruebas emplea una estrategia de evaluación rigurosa que aborda tanto los riesgos multimodales como los impactos cruzados, abarcando 32 tareas diversas con conjuntos de datos auto-curados. Experimentos extensos con 21 MLLMs modernos revelan algunos problemas y riesgos de confiabilidad previamente no explorados, resaltando las complejidades introducidas por la multimodalidad y subrayando la necesidad de metodologías avanzadas para mejorar su confiabilidad. Por ejemplo, los modelos propietarios típicos aún tienen dificultades con la percepción de imágenes visualmente confusas y son vulnerables a ataques multimodales y de desbloqueo de seguridad; los MLLMs tienden más a revelar privacidad en texto y mostrar sesgos ideológicos y culturales incluso cuando se emparejan con imágenes irrelevantes en la inferencia, lo que indica que la multimodalidad amplifica los riesgos internos de los MLLMs base. Además, lanzamos un conjunto de herramientas escalable para la investigación estandarizada de confiabilidad, con el objetivo de facilitar futuros avances en este campo importante. El código y los recursos están disponibles públicamente en: https://multi-trust.github.io/.

Comprendiendo las Políticas de Referencia en la Optimización de Preferencias Directas
Understanding Reference Policies in Direct Preference Optimization

Jul 18

ByYixin Liu, Pengfei Liu, Arman Cohan

La Optimización Directa de Preferencias (DPO) se ha convertido en un método de entrenamiento ampliamente utilizado para el ajuste fino de instrucciones en modelos de lenguaje grandes (LLMs). En este trabajo, exploramos un aspecto poco investigado de la DPO: su dependencia del modelo de referencia o política. Estas políticas de referencia, generalmente implementadas como el modelo a ajustar finamente, son importantes ya que pueden imponer un límite superior en la efectividad de la DPO. Por lo tanto, abordamos tres preguntas de investigación relacionadas en este trabajo. Primero, exploramos la fuerza óptima de la restricción de divergencia de Kullback-Leibler en la DPO, que penaliza las desviaciones de la política de referencia, y encontramos que la DPO es sensible a esta fuerza. A continuación, examinamos la necesidad de políticas de referencia para el ajuste fino de instrucciones mediante comparaciones teóricas y empíricas entre la DPO y objetivos de aprendizaje relacionados, demostrando la superioridad de la DPO. Además, investigamos si la DPO se beneficia de políticas de referencia más fuertes, encontrando que una política de referencia más fuerte puede llevar a un mejor rendimiento, pero solo cuando es similar al modelo que se está ajustando finamente. Nuestros hallazgos resaltan el papel confuso de las políticas de referencia en la DPO y ofrecen ideas para las mejores prácticas, al mismo tiempo que identifican preguntas de investigación abiertas para estudios futuros.

CLAY: Un Modelo Generativo a Gran Escala Controlable para Crear Activos 3D de Alta Calidad
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30

ByLongwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu

En el ámbito de la creatividad digital, nuestro potencial para crear intrincados mundos 3D a partir de la imaginación se ve a menudo obstaculizado por las limitaciones de las herramientas digitales existentes, que requieren una amplia experiencia y esfuerzos. Para reducir esta disparidad, presentamos CLAY, un generador de geometría y materiales en 3D diseñado para transformar sin esfuerzo la imaginación humana en estructuras digitales 3D intrincadas. CLAY admite entradas clásicas de texto o imagen, así como controles 3D conscientes de diversos primitivos (imágenes de múltiples vistas, voxels, cajas delimitadoras, nubes de puntos, representaciones implícitas, etc.). En su núcleo se encuentra un modelo generativo a gran escala compuesto por un Autoencoder Variacional (VAE) de múltiples resoluciones y un Transformador de Difusión latente (DiT) minimalista, para extraer priors 3D ricos directamente de una amplia gama de geometrías 3D. Específicamente, adopta campos neuronales para representar superficies continuas y completas y utiliza un módulo generativo de geometría con bloques de transformadores puros en el espacio latente. Presentamos un esquema de entrenamiento progresivo para entrenar a CLAY en un conjunto de datos de modelos 3D ultra grande obtenido a través de un pipeline de procesamiento cuidadosamente diseñado, lo que resulta en un generador de geometría nativo en 3D con 1.5 mil millones de parámetros. Para la generación de apariencia, CLAY se propone producir texturas de renderizado basadas en física (PBR) empleando un modelo de difusión de materiales de múltiples vistas que puede generar texturas de resolución 2K con modalidades de difusión, rugosidad y metálicas. Demostramos el uso de CLAY para una variedad de creaciones de activos 3D controlables, desde diseños conceptuales esquemáticos hasta activos listos para producción con detalles intrincados. Incluso los usuarios primerizos pueden utilizar CLAY fácilmente para dar vida a sus vívidas imaginaciones en 3D, desatando una creatividad ilimitada.

BRIGHT: Un banco de pruebas realista y desafiante para la recuperación intensiva de razonamiento.
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

Los benchmarks de recuperación existentes consisten principalmente en consultas de búsqueda de información (por ejemplo, preguntas agregadas de motores de búsqueda) donde la recuperación basada en palabras clave o semántica suele ser suficiente. Sin embargo, muchas consultas complejas del mundo real requieren un razonamiento profundo para identificar documentos relevantes que van más allá de la coincidencia en la forma superficial. Por ejemplo, encontrar documentación para una pregunta de codificación requiere comprender la lógica y la sintaxis de las funciones involucradas. Para mejorar la evaluación de la recuperación en tales consultas desafiantes, presentamos BRIGHT, el primer benchmark de recuperación de texto que requiere un razonamiento intensivo para recuperar documentos relevantes. BRIGHT se construye a partir de 1,398 consultas del mundo real recopiladas de diversos dominios (como economía, psicología, robótica, ingeniería de software, ciencias de la tierra, etc.), obtenidas de datos humanos naturalmente ocurridos o cuidadosamente seleccionados. Una evaluación exhaustiva revela que incluso los modelos de recuperación de vanguardia tienen un bajo rendimiento en BRIGHT. El modelo líder en la tabla de clasificación MTEB [38], que alcanza una puntuación de 59.0 nDCG@10, produce una puntuación de nDCG@10 de 18.0 en BRIGHT. Además, demostramos que la mejora de las consultas con razonamiento de Cadena de Pensamiento generado por modelos de lenguaje grandes (LLMs) mejora el rendimiento hasta en 12.2 puntos. Además, BRIGHT es robusto frente a la fuga de datos durante el preentrenamiento de los modelos evaluados, como validamos mostrando un rendimiento similar incluso cuando se incluyen documentos del benchmark en los datos de entrenamiento. Creemos que BRIGHT allana el camino para futuras investigaciones sobre sistemas de recuperación en entornos más realistas y desafiantes. Nuestro código y datos están disponibles en https://brightbenchmark.github.io.

CodeV: Potenciando LLMs para la Generación de Verilog a través de la Sumarización Multinivel
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization

Jul 15

ByYang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

La creciente complejidad y los altos costos asociados con el diseño de procesadores modernos han llevado a un aumento en la demanda de automatización del diseño de procesadores. Los modelos de lenguaje grandes (LLMs) ajustados a instrucciones han demostrado un rendimiento notable en la generación automática de código para lenguajes de programación de propósito general como Python. Sin embargo, estos métodos fallan en lenguajes de descripción de hardware (HDLs) como Verilog debido a la escasez de datos de ajuste de instrucciones de alta calidad, ya que incluso LLMs avanzados como GPT-3.5 muestran un rendimiento limitado en la generación de Verilog. En relación con este problema, observamos que (1) el código Verilog recopilado del mundo real tiene una calidad superior al generado por LLMs. (2) LLMs como GPT-3.5 sobresalen en resumir el código Verilog en lugar de generarlo. Basándonos en estas observaciones, este artículo presenta CodeV, una serie de LLMs de generación de Verilog ajustados a instrucciones de código abierto. En lugar de generar descripciones primero y luego obtener el código correspondiente de LLMs avanzados, solicitamos al LLM con código Verilog y dejamos que el LLM genere la descripción en lenguaje natural correspondiente mediante una sumarización multinivel. Los resultados experimentales muestran que CodeV supera relativamente al estado del arte anterior de código abierto en un 14.4% (BetterV en VerilogEval) y 11.3% (RTLCoder en RTLLM) respectivamente, y también supera relativamente al estado del arte comercial anterior GPT-4 en un 22.1% en VerilogEval.

Atención desbordada: Difuminación de la entrada del modelo de lenguaje durante contextos largos Recomendación de elementos faltantes
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Jul 18

ByDamien Sileo

Los modelos de lenguaje grandes (LLMs) pueden sugerir elementos faltantes de los elementos enumerados en un estímulo, los cuales pueden utilizarse para completar listas o hacer recomendaciones basadas en el historial de los usuarios. Sin embargo, su rendimiento se degrada cuando se presentan demasiados elementos, ya que comienzan a sugerir elementos que ya están incluidos en la lista de entrada. Esto ocurre alrededor de los 100 elementos para los LLMs insignia de mediados de 2024. Evaluamos este fenómeno tanto en problemas sintéticos (por ejemplo, encontrar números faltantes en un rango dado de enteros desordenados) como en escenarios realistas de recomendación de películas. Nos referimos a este problema como desbordamiento de atención, ya que prevenir la repetición requiere prestar atención a todos los elementos simultáneamente. Aunque los bucles iterativos pueden mitigar este problema, sus costos aumentan con la tasa de repetición, afectando la capacidad de los modelos de lenguaje para derivar novedad de entradas extensas.

Aprendizaje Automático Mejorado por Recuperación: Síntesis y Oportunidades
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

Jul 17

ByTo Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani

En el campo del modelado del lenguaje, han surgido modelos mejorados con componentes de recuperación como una solución prometedora para abordar varios desafíos enfrentados en el campo del procesamiento del lenguaje natural (PLN), incluyendo la fundamentación del conocimiento, la interpretabilidad y la escalabilidad. A pesar del enfoque principal en el PLN, sostenemos que el paradigma de mejora mediante recuperación puede extenderse a un espectro más amplio de aprendizaje automático (AA) como la visión por computadora, la predicción de series temporales y la biología computacional. Por lo tanto, este trabajo introduce un marco formal de este paradigma, Aprendizaje Automático Mejorado por Recuperación (REML, por sus siglas en inglés), mediante la síntesis de la literatura en varios dominios en AA con notaciones consistentes que faltan en la literatura actual. Además, encontramos que si bien varios estudios emplean componentes de recuperación para mejorar sus modelos, hay una falta de integración con la investigación fundamental en Recuperación de Información (IR, por sus siglas en inglés). Nosotros cerramos esta brecha entre la investigación seminal en IR y los estudios contemporáneos de REML investigando cada componente que conforma el marco de REML. En última instancia, el objetivo de este trabajo es equipar a los investigadores de diversas disciplinas con un marco integral y formal de modelos mejorados por recuperación, fomentando así la investigación interdisciplinaria futura.

Un Estudio Comparativo sobre la Codificación Automática de Cartas Médicas con Explicabilidad
A Comparative Study on Automatic Coding of Medical Letters with Explainability

Jul 18

ByJamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic

Este estudio tiene como objetivo explorar la implementación de técnicas de Procesamiento de Lenguaje Natural (PLN) y aprendizaje automático (AA) para automatizar la codificación de cartas médicas con explicabilidad visual y configuraciones informáticas locales livianas. Actualmente, en entornos clínicos, la codificación es un proceso manual que implica asignar códigos a cada condición, procedimiento y medicamento en la documentación de un paciente (por ejemplo, 56265001 enfermedad cardíaca utilizando el código SNOMED CT). Existen investigaciones preliminares sobre la codificación automática en este campo utilizando modelos de AA de última generación; sin embargo, debido a la complejidad y tamaño de los modelos, no se ha logrado su implementación en el mundo real. Para facilitar aún más la posibilidad de prácticas de codificación automática, exploramos algunas soluciones en una configuración informática local; además, investigamos la función de explicabilidad para la transparencia de los modelos de IA. Utilizamos la base de datos MIMIC-III disponible públicamente y los modelos de red HAN/HLAN para fines de predicción de códigos ICD. También experimentamos con el mapeo entre las bases de conocimiento ICD y SNOMED CT. En nuestros experimentos, los modelos proporcionaron información útil para el 97.98\% de los códigos. El resultado de esta investigación puede arrojar algo de luz sobre la implementación de la codificación clínica automática en la práctica, como en entornos hospitalarios, en las computadoras locales utilizadas por los clínicos, página del proyecto https://github.com/Glenj01/Medical-Coding.

Pruebas de Acuerdo de Referencia Bien Realizadas: Una Guía para la Evaluación de Referencia de LLM
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Jul 18

ByYotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen

Los avances recientes en Modelos de Lenguaje (LMs) han catalizado la creación de múltiples puntos de referencia, diseñados para evaluar las capacidades generales de estos modelos. Sin embargo, una tarea crucial es evaluar la validez de los propios puntos de referencia. Esto se hace más comúnmente a través de las Pruebas de Acuerdo de Puntos de Referencia (BAT), donde nuevos puntos de referencia se validan contra los establecidos utilizando alguna métrica de acuerdo (por ejemplo, correlación de rangos). A pesar del papel crucial de BAT para los constructores y usuarios de puntos de referencia, no existen procedimientos estandarizados para dicha prueba de acuerdo. Esta deficiencia puede llevar a conclusiones inválidas, fomentando la desconfianza en los puntos de referencia y dificultando la elección adecuada del punto de referencia a utilizar. Al analizar más de 40 puntos de referencia prominentes, demostramos cómo algunas elecciones metodológicas pasadas por alto pueden influir significativamente en los resultados de BAT, socavando potencialmente la validez de las conclusiones. Para abordar estas inconsistencias, proponemos un conjunto de mejores prácticas para BAT y demostramos cómo el uso de estas metodologías mejora en gran medida la robustez y validez de BAT. Para fomentar la adopción y facilitar la investigación futura, presentamos BenchBench, un paquete de Python para BAT, y lanzamos el BenchBench-leaderboard, un meta-punto de referencia diseñado para evaluar puntos de referencia utilizando sus pares. Nuestros hallazgos subrayan la necesidad de un BAT estandarizado, asegurando la robustez y validez de las evaluaciones de puntos de referencia en el cambiante panorama de la investigación de modelos de lenguaje. Paquete BenchBench: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench

PM-LLM-Benchmark: Evaluación de Modelos de Lenguaje Grandes en Tareas de Minería de Procesos
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Jul 18

ByAlessandro Berti, Humam Kourani, Wil M. P. van der Aalst

Los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) tienen el potencial de automatizar parcialmente algunos análisis de minería de procesos (PM). Si bien los modelos comerciales ya son adecuados para muchas tareas analíticas, el nivel competitivo de los LLMs de código abierto en tareas de PM es desconocido. En este documento, proponemos PM-LLM-Benchmark, el primer benchmark integral para PM que se centra en el conocimiento del dominio (específico de la minería de procesos y específico de procesos) y en diferentes estrategias de implementación. También nos enfocamos en los desafíos para crear dicho benchmark, relacionados con la disponibilidad pública de los datos y los sesgos de evaluación por parte de los LLMs. En general, observamos que la mayoría de los LLMs considerados pueden realizar algunas tareas de minería de procesos a un nivel satisfactorio, pero los modelos pequeños que se ejecutarían en dispositivos periféricos aún son inadecuados. Concluimos también que si bien el benchmark propuesto es útil para identificar LLMs adecuados para tareas de minería de procesos, se necesita más investigación para superar los sesgos de evaluación y realizar una clasificación más exhaustiva de los LLMs competitivos.

BRIGHT: Un banco de pruebas realista y desafiante para la recuperación intensiva de razonamiento.
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu