ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Законы масштабирования с словарным запасом: более крупные модели заслуживают более обширных словарей.
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Jul 18
ByChaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
56
6

Исследования по масштабированию крупных языковых моделей (LLM) в основном сосредоточены на параметрах модели и размере обучающих данных, игнорируя роль размера словаря. Интуитивно большие словари позволяют более эффективную токенизацию, представляя предложения с меньшим количеством токенов, но они также увеличивают риск недообучения представлений для редких токенов. Мы исследуем, как размер словаря влияет на законы масштабирования LLM, обучая модели с 33M до 3B параметров на объеме до 500B символов с различными конфигурациями словаря. Мы предлагаем три дополняющих подхода для прогнозирования оптимального размера словаря для вычислений: анализ IsoFLOPs, оценку производной и параметрическое приближение функции потерь. Наши подходы сходятся к одному результату: оптимальный размер словаря зависит от доступного бюджета вычислений и что более крупные модели заслуживают более крупные словари. Однако большинство LLM используют слишком маленькие размеры словарей. Например, мы предсказываем, что оптимальный размер словаря для Llama2-70B должен был быть не менее 216K, в 7 раз больше, чем его словарь из 32K. Мы подтверждаем наши прогнозы эмпирически, обучая модели с 3B параметрами при различных бюджетах FLOPs. Принятие нашего прогнозируемого оптимального размера словаря последовательно улучшает результаты на практике по сравнению с широко используемыми размерами словарей. Увеличивая размер словаря с обычных 32K до 43K, мы улучшаем результаты на ARC-Challenge с 29.1 до 32.0 при том же объеме 2.3e21 FLOPs. Наша работа подчеркивает необходимость совместного рассмотрения параметров модели и размера словаря для эффективного масштабирования.

2

Масштабирование моделей на основе извлечения информации с хранилищем данных на триллион меток
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

Jul 9
ByRulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh
31
3

Законы масштабирования относительно объема обучающих данных и количества параметров позволяют нам предсказывать компромиссы между затратами и выгодой от предварительного обучения языковых моделей (ЯМ) в различных конфигурациях. В данной статье мы рассматриваем еще одно измерение масштабирования: объем данных, доступных в момент вывода. Конкретно, мы обнаружили, что увеличение размера хранилища данных, используемого моделью на основе поиска, монотонно улучшает языковое моделирование и несколько последующих задач без явной насыщенности, так что более маленькая модель, дополненная большим хранилищем данных, превосходит более крупную модель только на языковых задачах, требующих знаний. Построив кривые масштабирования, оптимальные с точки зрения вычислений, с различными размерами хранилища данных, модели и объемами предварительных данных, мы показываем, что использование более крупных хранилищ данных может значительно улучшить производительность модели при том же бюджете обучения. Мы проводим наше исследование, создавая хранилище данных MassiveDS объемом 1,4 триллиона токенов, которое является к настоящему времени самым крупным и разнообразным открытым хранилищем данных для моделей на основе поиска, и разрабатывая эффективный конвейер для изучения масштабирования хранилища данных в доступной вычислительно форме. Наконец, мы анализируем влияние улучшения поисковика, фильтрации качества хранилища данных и других выборов дизайна на наши наблюдаемые тенденции масштабирования. В целом, наши результаты показывают, что размер хранилища данных следует рассматривать как неотъемлемую часть компромиссов между эффективностью и производительностью ЯМ. Для упрощения будущих исследований мы предоставляем наше хранилище данных и код в открытом доступе по адресу https://github.com/RulinShao/retrieval-scaling.

3

Масштабирование моделей кода Granite до 128K контекста
Scaling Granite Code Models to 128K Context

Jul 18
ByMatt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
20
3

Эта статья представляет длинноконтекстные модели кода Granite, поддерживающие эффективные контекстные окна до 128K токенов. Наше решение для увеличения длины контекста моделей кода Granite 3B/8B с 2K/4K до 128K состоит в легком постоянном предварительном обучении путем постепенного увеличения базовой частоты RoPE с упаковкой файлов на уровне репозитория и увеличением длины данных с длинным контекстом. Кроме того, мы также выпускаем модели, настроенные под инструкции, с поддержкой длинного контекста, которые получены путем дальнейшего донастройки базовых моделей с длинным контекстом на смешанном наборе лицензированных разрешений коротких и длинноконтекстных пар инструкция-ответ. При сравнении с оригинальными моделями кода Granite с коротким контекстом наши модели с длинным контекстом достигают значительных улучшений в задачах с длинным контекстом без заметного ухудшения производительности на стандартных бенчмарках завершения кода (например, HumanEval). Мы выпускаем все наши длинноконтекстные модели кода Granite под лицензией Apache 2.0 для использования в исследованиях и коммерческих целях.

4

Форма движения: восстановление 4D из одного видео
Shape of Motion: 4D Reconstruction from a Single Video

Jul 18
ByQianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
20
2

Монокулярная динамическая реконструкция является сложной и давней проблемой компьютерного зрения из-за сильно недоопределенной природы задачи. Существующие подходы ограничены тем, что либо зависят от шаблонов, эффективны только в квазистатических сценах, либо не учитывают явным образом трехмерное движение. В данной работе мы представляем метод способный реконструировать общие динамические сцены, отличающийся явным, полносеквенчным трехмерным движением, из случайно захваченных монокулярных видео. Мы решаем недостаточно определенную природу проблемы с помощью двух ключевых идей: Во-первых, мы используем низкоразмерную структуру трехмерного движения, представляя движение сцены компактным набором базовых SE3 движений. Движение каждой точки выражается как линейная комбинация этих баз, облегчая мягкое разложение сцены на несколько жестко движущихся групп. Во-вторых, мы используем обширный набор данных, включая монокулярные карты глубины и долгосрочные 2D треки, и разрабатываем метод эффективного объединения этих шумных сигналов надзора, что приводит к глобально согласованному представлению динамической сцены. Эксперименты показывают, что наш метод достигает передового уровня производительности как в оценке трехмерного/двумерного движения на длинные расстояния, так и в синтезе нового вида на динамических сценах. Страница проекта: https://shape-of-motion.github.io/

5

Уличные пейзажи: Генерация уличного видео крупного масштаба с использованием авторегрессионной диффузии видео.
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Jul 18
ByBoyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein
18
2

Мы представляем метод генерации улиц-длинных последовательностей видов через сцену городского масштаба, синтезируемую на лету. Наша генерация зависит от языкового ввода (например, название города, погода), а также базовой карты/макета, содержащего желаемую траекторию. По сравнению с недавними моделями для генерации видео или синтеза 3D-видов, наш метод может масштабироваться до гораздо более длинных траекторий камеры, охватывающих несколько городских кварталов, сохраняя при этом визуальное качество и последовательность. Для достижения этой цели мы опираемся на недавние работы по диффузии видео, используемые в авторегрессивной структуре, которая легко масштабируется до длинных последовательностей. В частности, мы представляем новый метод временной импутации, который предотвращает отклонение нашего авторегрессивного подхода от распределения реалистичных изображений города. Мы обучаем нашу систему Streetscapes на убедительных данных-изображениях из Google Street View, вместе с контекстуальными картографическими данными, что позволяет пользователям генерировать виды города, зависящие от любого желаемого макета города, с управляемыми позами камеры. Пожалуйста, ознакомьтесь с дополнительными результатами на странице нашего проекта по адресу https://boyangdeng.com/streetscapes.

6

Измерение надежности мультимодальных крупных языковых моделей: комплексное исследование
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

Jun 11
ByYichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
17
4

Несмотря на превосходные возможности Многомодальных Больших Языковых Моделей (MLLMs) в различных задачах, они все еще сталкиваются с существенными проблемами доверия. Однако текущая литература по оценке доверия MLLMs остается ограниченной, лишенной комплексной оценки, способной предложить глубокие исследования для будущих улучшений. В данной работе мы создаем MultiTrust, первый всесторонний и объединенный бенчмарк по доверию к MLLMs в пять основных аспектов: правдивость, безопасность, устойчивость, справедливость и конфиденциальность. Наш бенчмарк использует стратегию строгой оценки, которая учитывает как многомодальные риски, так и перекрестные воздействия, охватывая 32 разнообразные задачи с самостоятельно составленными наборами данных. Обширные эксперименты с 21 современными MLLMs раскрывают некоторые ранее не исследованные проблемы доверия и риски, подчеркивая сложности, вносимые многомодальностью, и указывая на необходимость развития передовых методологий для повышения их надежности. Например, типичные собственные модели все еще испытывают трудности с восприятием визуально запутанных изображений и уязвимы к многомодальному обходу защиты и атакам злоумышленников; MLLMs более склонны к разглашению конфиденциальной информации в тексте и раскрывают идеологические и культурные предвзятости даже при сопоставлении с несвязанными изображениями в выводе, что указывает на то, что многомодальность усиливает внутренние риски от базовых LLMs. Кроме того, мы представляем масштабный инструментарий для стандартизированных исследований доверия, с целью облегчить будущие прогрессивные достижения в этой важной области. Код и ресурсы доступны публично по адресу: https://multi-trust.github.io/.

7

Понимание политик ссылок в прямой оптимизации предпочтений
Understanding Reference Policies in Direct Preference Optimization

Jul 18
ByYixin Liu, Pengfei Liu, Arman Cohan
17
3

Оптимизация прямого предпочтения (Direct Preference Optimization, DPO) стала широко используемым методом обучения для настройки инструкций крупных языковых моделей (Large Language Models, LLMs). В данной работе мы исследуем мало изученный аспект DPO - его зависимость от эталонной модели или политики. Эти эталонные политики, обычно представленные в виде модели, которую необходимо дополнительно настраивать, важны, поскольку они могут устанавливать верхний предел эффективности DPO. Поэтому мы рассматриваем три связанных исследовательских вопроса в данной работе. Во-первых, мы исследуем оптимальную силу ограничения расхождения Кульбака-Лейблера в DPO, которое штрафует отклонения от эталонной политики, и обнаруживаем, что DPO чувствителен к этой силе. Затем мы исследуем необходимость эталонных политик для настройки инструкций, предоставляя как теоретические, так и эмпирические сравнения между DPO и связанными целями обучения, демонстрируя превосходство DPO. Кроме того, мы исследуем, приносит ли DPO пользу от более сильных эталонных политик, обнаруживая, что более сильная эталонная политика может привести к улучшению производительности, но только если она похожа на модель, которую настраивают. Наши результаты подчеркивают сбивающую с толку роль эталонных политик в DPO и предлагают практические рекомендации, а также выявляют открытые исследовательские вопросы для будущих исследований.

8

CLAY: Управляемая масштабная генеративная модель для создания высококачественных 3D-объектов
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30
ByLongwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
12
2

В области цифрового творчества наше потенциальное умение создавать сложные 3D миры из воображения часто ограничивается ограничениями существующих цифровых инструментов, требующих обширной экспертизы и усилий. Для сокращения этого разрыва мы представляем CLAY, генератор 3D геометрии и материалов, разработанный для легкого превращения человеческого воображения в сложные 3D цифровые структуры. CLAY поддерживает классические текстовые или изображенческие входы, а также управление 3D-контролями от различных примитивов (многовидовые изображения, воксели, ограничивающие параллелепипеды, облака точек, неявные представления и т. д.). В его основе лежит масштабная генеративная модель, состоящая из многоуровневого вариационного автокодировщика (VAE) и минималистичного латентного диффузионного трансформера (DiT), для извлечения богатых 3D априорных знаний непосредственно из разнообразных 3D геометрий. В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует геометрический генеративный модуль с чистыми блоками трансформатора в латентном пространстве. Мы представляем прогрессивную схему обучения для обучения CLAY на сверхбольшом наборе данных 3D-моделей, полученных через тщательно разработанный конвейер обработки, что приводит к генератору 3D геометрии с 1,5 миллиарда параметров. Для генерации внешнего вида CLAY стремится создавать текстуры физически основанного рендеринга (PBR), используя многовидовую модель диффузии материалов, способную генерировать текстуры разрешением 2K с диффузией, шероховатостью и металлическими модальностями. Мы демонстрируем использование CLAY для создания ряда управляемых 3D-активов, от набросков концептуальных дизайнов до активов, готовых к производству с сложными деталями. Даже новички могут легко использовать CLAY, чтобы оживить свои яркие 3D воображения, раскрывая безграничное творчество.

9

BRIGHT: Реалистичный и сложный бенчмарк для поиска с высокой нагрузкой на рассуждения
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16
ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
11
2

Существующие бенчмарки по поиску информации в основном состоят из запросов, направленных на получение информации (например, агрегированные вопросы из поисковых систем), где обычно достаточно ключевого или семантического поиска. Однако многие сложные запросы из реального мира требуют глубокого рассуждения для идентификации соответствующих документов, выходящих за пределы поверхностного сопоставления форм. Например, для поиска документации по вопросу о кодировании требуется понимание логики и синтаксиса используемых функций. Для более точной оценки поиска по таким сложным запросам мы представляем BRIGHT - первый бенчмарк по текстовому поиску, требующий интенсивного рассуждения для извлечения соответствующих документов. BRIGHT состоит из 1 398 запросов из реального мира, собранных из различных областей (таких как экономика, психология, робототехника, инженерия программного обеспечения, науки о Земле и т. д.), полученных из естественных и тщательно подобранных данных людей. Обширное тестирование показывает, что даже передовые модели поиска показывают плохие результаты на BRIGHT. Ведущая модель на доске лидеров MTEB [38], достигающая показателя 59.0 nDCG@10, показывает результат nDCG@10 18.0 на BRIGHT. Мы также демонстрируем, что добавление запросов с рассуждениями "Цепочка мыслей", созданными большими языковыми моделями (LLM), улучшает производительность на до 12.2 пункта. Более того, BRIGHT устойчив к утечкам данных во время предварительного обучения моделей, что мы подтверждаем, показывая схожую производительность даже при включении документов из бенчмарка в обучающие данные. Мы считаем, что BRIGHT открывает путь для будущих исследований по системам поиска в более реалистичных и сложных условиях. Наш код и данные доступны по адресу https://brightbenchmark.github.io.

10

CodeV: Повышение эффективности LLM для генерации Verilog с помощью многоуровневой суммаризации
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization

Jul 15
ByYang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen
11
3

Растущая сложность и высокие затраты, связанные с современным проектированием процессоров, привели к всплеску спроса на автоматизацию проектирования процессоров. Инструкционно настроенные большие языковые модели (LLM) продемонстрировали выдающуюся производительность в автоматическом создании кода для общеиспользуемых языков программирования, таких как Python. Однако эти методы терпят неудачу при работе с языками описания аппаратуры (HDL), такими как Verilog, из-за недостатка высококачественных данных для настройки инструкций, поскольку даже передовые LLM, такие как GPT-3.5, проявляют ограниченную производительность при генерации Verilog. Относительно этой проблемы мы отмечаем, что (1) Verilog-код, собранный из реального мира, имеет более высокое качество, чем тот, который генерируют LLM. (2) LLM, такие как GPT-3.5, отличаются в том, что они лучше подходят для краткого изложения кода на Verilog, чем для его генерации. Исходя из этих наблюдений, в данной статье представляется CodeV, серия открытых инструкционно настроенных LLM для генерации Verilog. Вместо того чтобы сначала генерировать описания, а затем получать соответствующий код от передовых LLM, мы подаем LLM код на Verilog и позволяем ему сгенерировать соответствующее описание на естественном языке путем многоуровневого краткого изложения. Экспериментальные результаты показывают, что CodeV относительно превосходит предыдущий открытый SOTA на 14,4% (BetterV в VerilogEval) и 11,3% (RTLCoder в RTLLM) соответственно, а также относительно превосходит предыдущий коммерческий SOTA GPT-4 на 22,1% в VerilogEval.

11

Переполнение внимания: размытие ввода языковой модели во время длинного контекста Рекомендация отсутствующих элементов
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Jul 18
ByDamien Sileo
10
3

Большие языковые модели (LLM) могут предлагать отсутствующие элементы из перечисленных в запросе, что можно использовать для завершения списка или рекомендаций на основе истории пользователей. Однако их производительность снижается при представлении слишком большого количества элементов, поскольку они начинают предлагать элементы, уже включенные во входной список. Это происходит примерно при 100 элементах для флагманских LLM середины 2024 года. Мы оцениваем это явление как переполнение внимания как на синтетических проблемах (например, поиск отсутствующих чисел в заданном диапазоне переставленных целых чисел), так и в реалистичных сценариях рекомендации фильмов. Мы называем эту проблему переполнением внимания, поскольку предотвращение повторения требует одновременного обращения ко всем элементам. Хотя итерационные циклы могут смягчить эту проблему, их затраты увеличиваются с увеличением частоты повторений, влияя на способность языковых моделей извлекать новизну из длинных входных данных.

12

Машинное обучение с улучшенным поиском: синтез и возможности
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

Jul 17
ByTo Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani
6
2

В области языкового моделирования модели, дополненные компонентами извлечения, выделяются как многообещающее решение для решения нескольких вызовов, стоящих перед обработкой естественного языка (NLP), включая закрепление знаний, интерпретируемость и масштабируемость. Несмотря на основное внимание на NLP, мы предполагаем, что парадигму усиления извлечения можно расширить на более широкий спектр машинного обучения (ML), таких как компьютерное зрение, прогнозирование временных рядов и вычислительная биология. Поэтому данная работа представляет формальную концепцию этой парадигмы, Усиленное извлечение в машинном обучении (REML), синтезируя литературу в различных областях в ML с согласованными обозначениями, которых не хватает в текущей литературе. Также мы обнаружили, что, хотя ряд исследований используют компоненты извлечения для усиления своих моделей, имеется недостаток интеграции с фундаментальными исследованиями по информационному поиску (IR). Мы сокращаем этот разрыв между классическими исследованиями по IR и современными исследованиями REML, исследуя каждый компонент, входящий в структуру REML. В конечном итоге цель данной работы - оснастить исследователей в различных областях с обширной, формально структурированной концепцией моделей с усилением извлечения, тем самым способствуя междисциплинарным будущим исследованиям.

13

Сравнительное исследование автоматического кодирования медицинских писем с возможностью объяснения
A Comparative Study on Automatic Coding of Medical Letters with Explainability

Jul 18
ByJamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic
5
2

Данное исследование направлено на изучение применения техник обработки естественного языка (Natural Language Processing, NLP) и машинного обучения (Machine Learning, ML) для автоматизации кодирования медицинских писем с визуализированным объяснением и легковесными локальными настройками компьютера. В настоящее время в клинической практике кодирование является ручным процессом, который включает в себя присвоение кодов каждому состоянию, процедуре и лекарству в документах пациента (например, 56265001 сердечное заболевание с использованием кода SNOMED CT). Существуют предварительные исследования по автоматическому кодированию в этой области с использованием передовых моделей ML; однако из-за сложности и размера моделей реальное внедрение не достигнуто. Для дальнейшего облегчения возможности практики автоматического кодирования мы исследуем некоторые решения на локальном компьютере; кроме того, мы изучаем функцию объяснимости для прозрачности моделей искусственного интеллекта. Мы использовали общедоступную базу данных MIMIC-III и сетевые модели HAN/HLAN для целей предсказания кодов ICD. Мы также экспериментировали с сопоставлением между базами знаний ICD и SNOMED CT. В наших экспериментах модели предоставили полезную информацию для 97,98\% кодов. Результаты данного исследования могут пролить свет на внедрение автоматического клинического кодирования на практике, например, в больничных условиях, на локальных компьютерах, используемых медицинским персоналом, страница проекта https://github.com/Glenj01/Medical-Coding.

14

Тестирование согласованности бенчмарков: Руководство по оценке бенчмарков LLM
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Jul 18
ByYotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen
5
3

Недавние достижения в области языковых моделей (LMs) стимулировали создание нескольких бенчмарков, разработанных для оценки общих возможностей этих моделей. Однако критической задачей является оценка достоверности самих бенчмарков. Это обычно делается с помощью тестирования согласованности бенчмарков (Benchmark Agreement Testing, BAT), где новые бенчмарки проверяются на соответствие установленным с использованием какого-либо метрического показателя согласованности (например, ранговой корреляции). Несмотря на важную роль BAT для создателей и пользователей бенчмарков, не существует стандартизированных процедур для такого тестирования согласованности. Этот недостаток может привести к недействительным выводам, способствуя недоверию к бенчмаркам и нарушая возможность правильного выбора подходящего бенчмарка для использования. Анализируя более 40 важных бенчмарков, мы демонстрируем, как некоторые недооцененные методологические выборы могут значительно влиять на результаты BAT, потенциально подрывая достоверность выводов. Для устранения этих несоответствий мы предлагаем набор лучших практик для BAT и демонстрируем, как использование этих методологий значительно повышает устойчивость и достоверность BAT. Для поощрения принятия и облегчения будущих исследований мы представляем BenchBench, пакет на языке Python для BAT, и выпускаем таблицу лидеров BenchBench, мета-бенчмарк, разработанный для оценки бенчмарков с использованием их коллег. Наши результаты подчеркивают необходимость стандартизированного BAT, обеспечивая устойчивость и достоверность оценок бенчмарков в развивающемся ландшафте исследований языковых моделей. Пакет BenchBench: https://github.com/IBM/BenchBench Таблица лидеров: https://huggingface.co/spaces/per/BenchBench

15

PM-LLM-Benchmark: Оценка больших языковых моделей на задачах по процессному майнингу.
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Jul 18
ByAlessandro Berti, Humam Kourani, Wil M. P. van der Aalst
2
2

Большие языковые модели (LLM) имеют потенциал для полуавтоматизации некоторых анализов процессов майнинга (PM). В то время как коммерческие модели уже достаточно эффективны для многих аналитических задач, конкурентоспособный уровень открытых LLM в задачах PM неизвестен. В данной статье мы предлагаем PM-LLM-Benchmark, первый всесторонний бенчмарк для PM, сосредоточенный на предметных знаниях (специфичных для процесс-майнинга и конкретных процессов) и на различных стратегиях реализации. Мы также обращаем внимание на вызовы, связанные с созданием такого бенчмарка, включая общедоступность данных и оценочные предвзятости со стороны LLM. В целом, мы отмечаем, что большинство рассматриваемых LLM могут выполнять некоторые задачи по процесс-майнингу на удовлетворительном уровне, но небольшие модели, которые могли бы работать на периферийных устройствах, все еще недостаточны. Мы также приходим к выводу, что хотя предложенный бенчмарк полезен для выявления LLM, подходящих для задач процесс-майнинга, требуется дальнейшее исследование для преодоления оценочных предвзятостей и проведения более тщательного ранжирования конкурентоспособных LLM.

Jul 18
Jul 19
Jul 22