Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением с верифицируемыми наградами (RLVR) продемонстрировало потенциал в улучшении способностей крупных языковых моделей к рассуждению за счет обучения на основе наград, связанных с результатами. Недавние работы по RLVR, работающие в условиях нулевого надзора, избегают контроля за процессом маркировки рассуждений, но все же зависят от вручную подготовленных наборов вопросов и ответов для обучения. Недостаток высококачественных примеров, созданных человеком, вызывает опасения относительно долгосрочной масштабируемости зависимости от человеческого надзора, что уже заметно в области предварительного обучения языковых моделей. Более того, в гипотетическом будущем, где ИИ превзойдет человеческий интеллект, задачи, предоставляемые людьми, могут предложить ограниченный потенциал для обучения сверхразумной системы. Чтобы решить эти проблемы, мы предлагаем новую парадигму RLVR под названием Absolute Zero, в которой одна модель учится предлагать задачи, которые максимизируют ее собственный прогресс в обучении, и улучшает рассуждения, решая их, не полагаясь на внешние данные. В рамках этой парадигмы мы представляем Absolute Zero Reasoner (AZR) — систему, которая самостоятельно развивает свою учебную программу и способность к рассуждению, используя исполнитель кода как для проверки предложенных задач на рассуждение, так и для верификации ответов, выступая в качестве единого источника верифицируемых наград для руководства открытым, но обоснованным обучением. Несмотря на то, что AZR обучается полностью без внешних данных, она достигает наилучших результатов на задачах по программированию и математическому рассуждению, превосходя существующие модели в условиях нулевого надзора, которые полагаются на десятки тысяч примеров, подготовленных человеком в соответствующей области. Кроме того, мы показываем, что AZR может эффективно применяться на различных масштабах моделей и совместима с различными классами моделей.
Последние достижения в области мультимодальных моделей вознаграждения (Reward Models, RMs) показали значительный потенциал в предоставлении сигналов вознаграждения для согласования визуальных моделей с человеческими предпочтениями. Однако современные RMs, как правило, ограничены предоставлением прямых ответов или участием в поверхностных процессах рассуждений с ограниченной глубиной, что часто приводит к неточным сигналам вознаграждения. Мы предполагаем, что включение явных длинных цепочек рассуждений (Chain of Thought, CoT) в процесс оценки вознаграждения может значительно повысить их надежность и устойчивость. Более того, мы считаем, что как только RMs усвоят CoT-рассуждения, точность их прямых ответов также может быть улучшена за счет неявных способностей к рассуждению. В связи с этим данная работа предлагает UnifiedReward-Think — первую унифицированную мультимодальную модель вознаграждения на основе CoT, способную к многомерным, пошаговым длинным цепочкам рассуждений как для задач визуального понимания, так и для задач генерации вознаграждения. В частности, мы применяем подход тонкой настройки с подкреплением, основанный на исследовании, чтобы выявить и стимулировать скрытую способность модели к сложным рассуждениям: (1) Сначала мы используем небольшое количество данных о предпочтениях генерации изображений для дистилляции процесса рассуждений GPT-4o, который затем используется для "холодного старта" модели, чтобы она изучила формат и структуру CoT-рассуждений. (2) Затем, используя априорные знания и обобщающие способности модели, мы подготавливаем крупномасштабные унифицированные мультимодальные данные о предпочтениях, чтобы выявить процесс рассуждений модели в различных визуальных задачах. На этом этапе корректные результаты рассуждений сохраняются для отбора с отклонением (rejection sampling) с целью улучшения модели, (3) в то время как некорректные предсказанные образцы в конечном итоге используются для тонкой настройки с подкреплением на основе Group Relative Policy Optimization (GRPO), что позволяет модели исследовать разнообразные пути рассуждений и оптимизировать их для получения корректных и устойчивых решений. Многочисленные эксперименты на различных задачах визуального вознаграждения демонстрируют превосходство нашей модели.
Мы представляем Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS) — протокол для быстрого преобразования трансформеров с softmax-вниманием в модели декодеров с линейным вниманием, а также две новые архитектуры на основе RWKV и модели, преобразованные из популярных открытых моделей Qwen2.5 размером 7B, 32B и 72B. Наш процесс преобразования требует всего 350–700 миллионов токенов, что составляет менее 0,005% от количества токенов, использованных для обучения исходных моделей-учителей. Преобразование в нашу 72B-модель с линейным вниманием обходится менее чем в 2000 долларов США по текущим ценам, при этом качество на этапе вывода остается близким к исходному трансформеру. Эти модели демонстрируют передовые результаты на наборе стандартных бенчмарков для моделей с линейным вниманием соответствующего размера. Мы публикуем все наши модели на HuggingFace под лицензией Apache 2.0, за исключением моделей размером 72B, которые также регулируются Лицензионным соглашением Qwen. Модели доступны по адресу: https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Код для обучения: https://github.com/recursal/RADLADS-paper
Настройка действий предполагает создание видео, в которых объект выполняет действия, заданные входными управляющими сигналами. Современные методы используют настройку на основе поз или глобального движения, но ограничены строгими требованиями к пространственной структуре, такими как компоновка, скелет и согласованность точки зрения, что снижает адаптивность для различных объектов и сценариев. Чтобы преодолеть эти ограничения, мы предлагаем FlexiAct, который переносит действия из эталонного видео на произвольное целевое изображение. В отличие от существующих методов, FlexiAct допускает вариации в компоновке, точке зрения и структуре скелета между объектом эталонного видео и целевым изображением, сохраняя при этом идентичность. Для достижения этого требуется точное управление действиями, адаптация пространственной структуры и сохранение согласованности. С этой целью мы представляем RefAdapter — легковесный адаптер, управляемый изображением, который превосходит существующие методы в балансировке согласованности внешнего вида и структурной гибкости. Кроме того, на основе наших наблюдений, процесс удаления шума демонстрирует различный уровень внимания к движению (низкая частота) и деталям внешнего вида (высокая частота) на разных временных шагах. Поэтому мы предлагаем FAE (Frequency-aware Action Extraction), который, в отличие от существующих методов, использующих раздельные пространственно-временные архитектуры, непосредственно извлекает действия в процессе удаления шума. Эксперименты показывают, что наш метод эффективно переносит действия на объекты с различной компоновкой, скелетом и точками зрения. Мы публикуем наш код и веса модели для поддержки дальнейших исследований на https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
Растущая длина контекста в крупных языковых моделях (LLM) создает значительные трудности для эффективного вывода, в основном из-за ограничений памяти GPU и пропускной способности. Мы представляем RetroInfer — новую систему, которая переосмысливает кэш ключ-значение (KV) как систему векторного хранения, использующую присущую разреженность внимания для ускорения вывода LLM с длинным контекстом. В ее основе лежит wave index — Attention-aWare VEctor индекс, который обеспечивает эффективное и точное извлечение критических токенов с помощью таких методов, как трипартитная аппроксимация внимания, оценка внимания с ограниченной точностью и сегментированная кластеризация. Это дополняется wave buffer, который координирует размещение кэша KV и перекрывает вычисления и передачу данных между GPU и CPU для поддержания высокой пропускной способности. В отличие от предыдущих методов, основанных на разреженности, которые сталкиваются с проблемами выбора токенов и координации оборудования, RetroInfer обеспечивает стабильную производительность без ущерба для точности модели. Эксперименты на бенчмарках с длинным контекстом показывают ускорение до 4,5 раз по сравнению с полным вниманием в пределах памяти GPU и до 10,5 раз по сравнению с базовыми методами разреженного внимания, когда кэш KV расширяется до памяти CPU, при этом сохраняя точность на уровне полного внимания.
Серия моделей Qwen стала ведущим семейством открытых больших языковых моделей (LLM), демонстрируя выдающиеся способности в задачах понимания естественного языка. С недавним выпуском Qwen3, который показывает превосходную производительность на различных бенчмарках, растет интерес к эффективному развертыванию этих моделей в условиях ограниченных ресурсов. Низкобитная квантизация представляет собой перспективное решение, однако ее влияние на производительность Qwen3 остается недостаточно изученным. В данном исследовании проводится систематическая оценка устойчивости Qwen3 при различных настройках квантизации с целью выявления как возможностей, так и проблем при сжатии этой передовой модели. Мы тщательно оцениваем 5 существующих классических методов посттренировочной квантизации, примененных к Qwen3, охватывая битовые диапазоны от 1 до 8 бит, и оцениваем их эффективность на множестве наборов данных. Наши результаты показывают, что хотя Qwen3 сохраняет конкурентоспособную производительность при умеренных битовых диапазонах, она испытывает значительное ухудшение в лингвистических задачах при сверхнизкой точности, что подчеркивает сохраняющиеся трудности в сжатии LLM. Эти результаты подчеркивают необходимость дальнейших исследований для снижения потери производительности в экстремальных сценариях квантизации. Мы ожидаем, что этот эмпирический анализ предоставит практические рекомендации для разработки методов квантизации, адаптированных для Qwen3 и будущих LLM, что в конечном итоге повысит их практичность без ущерба для точности. Наш проект доступен по адресам https://github.com/Efficient-ML/Qwen3-Quantization и https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
Последние достижения в области понимания футбола с использованием ИИ демонстрируют быстрый прогресс, однако существующие исследования в основном сосредоточены на изолированных или узких задачах. Чтобы устранить этот пробел, мы предлагаем комплексную структуру для целостного понимания футбола. В частности, в данной статье мы делаем следующие вклады: (i) мы создаем SoccerWiki, первую крупномасштабную мультимодальную базу знаний о футболе, интегрирующую богатые знания о игроках, командах, судьях и аренах для обеспечения рассуждений на основе знаний; (ii) мы представляем SoccerBench, самый крупный и всеобъемлющий футбольный бенчмарк, содержащий около 10 тысяч стандартизированных мультимодальных (текст, изображение, видео) вопросов с множественным выбором, охватывающих 13 различных задач понимания, созданных с использованием автоматизированных процессов и ручной проверки; (iii) мы представляем SoccerAgent, новую мультиагентную систему, которая разбивает сложные футбольные вопросы с помощью совместного рассуждения, используя экспертные знания из SoccerWiki и достигая высокой производительности; (iv) обширные оценки и абляции, которые сравнивают современные MLLM на SoccerBench, подчеркивая превосходство нашей предложенной агентной системы. Все данные и код доступны по адресу: https://jyrao.github.io/SoccerAgent/.
При чтении мы часто ищем в тексте конкретную информацию, которая нас интересует. Например, вы можете читать эту статью, потому что вам любопытны большие языковые модели (LLM) в контексте движений глаз при чтении, экспериментальный дизайн или, возможно, вас волнует только вопрос «но работает ли это?». В более широком смысле, в повседневной жизни люди подходят к текстам с различными целями, которые определяют их поведение при чтении. В данной работе мы впервые задаемся вопросом, можно ли автоматически декодировать открытые цели чтения на основе движений глаз. Чтобы ответить на этот вопрос, мы вводим задачи классификации и реконструкции целей, а также соответствующие оценочные рамки, и используем масштабные данные отслеживания движений глаз при чтении на английском языке с сотнями задач поиска текстовой информации. Мы разрабатываем и сравниваем несколько дискриминативных и генеративных мультимодальных LLM, которые объединяют движения глаз и текст для классификации и реконструкции целей. Наши эксперименты показывают значительный успех в обеих задачах, что свидетельствует о том, что LLM могут извлекать ценную информацию о текстовых целях читателей на основе их движений глаз.
Быстрое развитие диффузионных моделей обещает революционизировать применение технологий виртуальной (VR) и дополненной (AR) реальности, которые обычно требуют сценовых 4D-активов для обеспечения пользовательского опыта. Тем не менее, существующие диффузионные модели в основном сосредоточены на моделировании статических 3D-сцен или динамики на уровне объектов, что ограничивает их способность предоставлять по-настоящему иммерсивные впечатления. Для решения этой проблемы мы предлагаем HoloTime — фреймворк, который интегрирует видео-диффузионные модели для генерации панорамных видео из одного текстового запроса или эталонного изображения, а также метод реконструкции 360-градусных 4D-сцен, который плавно преобразует сгенерированные панорамные видео в 4D-активы, обеспечивая полностью иммерсивный 4D-опыт для пользователей. В частности, для адаптации видео-дифузионных моделей к генерации высококачественных панорамных видео мы представляем 360World — первый всеобъемлющий набор панорамных видео, подходящих для задач реконструкции 4D-сцен. Используя этот тщательно отобранный набор данных, мы предлагаем Panoramic Animator — двухэтапную диффузионную модель "изображение-в-видео", которая может преобразовывать панорамные изображения в высококачественные панорамные видео. Затем мы представляем Panoramic Space-Time Reconstruction, который использует метод оценки глубины в пространстве-времени для преобразования сгенерированных панорамных видео в 4D-облака точек, что позволяет оптимизировать целостное представление 4D Gaussian Splatting для реконструкции пространственно и временно согласованных 4D-сцен. Для проверки эффективности нашего метода мы провели сравнительный анализ с существующими подходами, который показал его превосходство как в генерации панорамных видео, так и в реконструкции 4D-сцен. Это демонстрирует способность нашего метода создавать более увлекательные и реалистичные иммерсивные среды, тем самым улучшая пользовательский опыт в приложениях VR и AR.
Несмотря на недавние успехи в области языковых моделей (Language Models, LMs) для разработки программного обеспечения, сбор обучающих данных остается серьезной проблемой. Существующие наборы данных малы, содержат не более нескольких тысяч обучающих примеров из 11 или менее репозиториев GitHub. Процедуры подготовки таких наборов данных часто сложны и требуют сотен часов человеческого труда; сопутствующие среды выполнения также занимают несколько терабайт памяти, что серьезно ограничивает их масштабируемость и удобство использования. Чтобы решить эту проблему, мы представляем SWE-smith — новый подход для генерации обучающих данных для разработки ПО в больших масштабах. Для любого кодового проекта на Python SWE-smith создает соответствующую среду выполнения, а затем автоматически синтезирует от сотен до тысяч задач, которые нарушают существующие тесты в кодовой базе. С помощью SWE-smith мы создали набор данных из 50 тысяч примеров, полученных из 128 репозиториев GitHub, что на порядок больше, чем во всех предыдущих работах. Мы обучили модель SWE-agent-LM-32B, достигнув показателя 40,2% Pass@1 на бенчмарке SWE-bench Verified, что является лучшим результатом среди моделей с открытым исходным кодом. Мы открываем исходный код SWE-smith (процедуры сбора, задачи, траектории, модели), чтобы снизить барьер для исследований в области систем языковых моделей для автоматизированной разработки ПО. Все материалы доступны по адресу https://swesmith.com.
Крупные языковые модели (LLM) продемонстрировали беспрецедентные возможности в различных задачах обработки естественного языка. Их способность обрабатывать и генерировать осмысленный текст и код сделала их повсеместно используемыми во многих областях, в то время как их применение в качестве баз знаний и инструментов "рассуждения" остается областью активных исследований. В географии растущий объем литературы сосредоточен на оценке географических знаний LLM и их способности выполнять пространственные рассуждения. Однако до сих пор мало что известно о внутреннем функционировании этих моделей, особенно о том, как они обрабатывают географическую информацию. В этой главе мы предлагаем новый подход к изучению геопространственной механистической интерпретируемости — использование пространственного анализа для обратного проектирования того, как LLM обрабатывают географическую информацию. Наша цель — углубить понимание внутренних представлений, которые эти сложные модели генерируют при обработке географической информации, — то, что можно было бы назвать "как LLM думают о географической информации", если бы такая формулировка не была излишним антропоморфизмом. Сначала мы описываем использование зондирования для выявления внутренних структур в LLM. Затем мы знакомим с областью механистической интерпретируемости, обсуждая гипотезу суперпозиции и роль разреженных автокодировщиков в разделении полисемантических внутренних представлений LLM на более интерпретируемые моносемантические признаки. В наших экспериментах мы используем пространственную автокорреляцию, чтобы показать, как признаки, полученные для названий мест, демонстрируют пространственные закономерности, связанные с их географическим положением, и, таким образом, могут быть интерпретированы геопространственно, что дает представление о том, как эти модели обрабатывают географическую информацию. В заключение мы обсуждаем, как наш подход может способствовать изучению и использованию базовых моделей в географии.
С растущими требованиями к естественному взаимодействию человека с компьютером, речевые системы привлекают все больше внимания, поскольку речь является одной из наиболее распространенных форм повседневного общения. Однако существующие речевые модели по-прежнему сталкиваются с высокой задержкой при генерации первого аудиотокена в потоковом режиме, что создает значительное препятствие для их внедрения. Для решения этой проблемы мы предлагаем VITA-Audio — крупную сквозную речевую модель с быстрой генерацией аудио-текстовых токенов. В частности, мы представляем легковесный модуль Multiple Cross-modal Token Prediction (MCTP), который эффективно генерирует несколько аудиотокенов за один прямой проход модели, что не только ускоряет вывод, но и значительно сокращает задержку при генерации первого аудио в потоковых сценариях. Кроме того, исследуется четырехэтапная прогрессивная стратегия обучения для ускорения модели с минимальной потерей качества речи. Насколько нам известно, VITA-Audio является первой многомодальной крупной языковой моделью, способной генерировать аудиовыход уже при первом прямом проходе, что обеспечивает возможности для реального времени с минимальной задержкой. VITA-Audio полностью воспроизводима и обучается исключительно на открытых данных. Экспериментальные результаты показывают, что наша модель достигает ускорения вывода в 3–5 раз при масштабе в 7 миллиардов параметров, а также значительно превосходит открытые модели аналогичного размера на нескольких тестах для задач автоматического распознавания речи (ASR), синтеза речи (TTS) и ответов на устные вопросы (SQA).
Определение причин сбоев в мультиагентных системах с использованием больших языковых моделей (LLM) — выявление агента и этапа, ответственных за неудачи в выполнении задач, — предоставляет важные подсказки для отладки систем, однако эта область остается недостаточно изученной и трудоемкой. В данной статье мы предлагаем и формулируем новую область исследований: автоматизированное определение причин сбоев в мультиагентных системах с LLM. Для поддержки этой инициативы мы представляем набор данных Who&When, содержащий обширные журналы сбоев из 127 мультиагентных систем с LLM, снабженные детализированными аннотациями, связывающими сбои с конкретными агентами и ключевыми ошибочными шагами. Используя Who&When, мы разрабатываем и оцениваем три метода автоматизированного определения причин сбоев, обобщая их преимущества и недостатки. Лучший метод достигает точности 53,5% в идентификации агентов, ответственных за сбои, но только 14,2% в определении ошибочных шагов, при этом некоторые методы показывают результаты ниже случайных. Даже передовые модели рассуждений, такие как OpenAI o1 и DeepSeek R1, не достигают практической применимости. Эти результаты подчеркивают сложность задачи и необходимость дальнейших исследований в этой области. Код и набор данных доступны по адресу https://github.com/mingyin1/Agents_Failure_Attribution.
Синтез интерактивных 3D-сцен из текста имеет ключевое значение для игр, виртуальной реальности и воплощённого ИИ. Однако существующие методы сталкиваются с рядом проблем. Обучение на основе данных ограничивается небольшими наборами данных для помещений, что снижает разнообразие сцен и сложность их компоновки. Хотя крупные языковые модели (LLM) могут использовать обширные знания из текстовой области, они испытывают трудности с пространственной реалистичностью, часто создавая неестественные размещения объектов, которые не соответствуют здравому смыслу. Наше ключевое наблюдение заключается в том, что визуальное восприятие может устранить этот разрыв, предоставляя реалистичные пространственные ориентиры, которых не хватает LLM. С этой целью мы представляем Scenethesis — автономный фреймворк, не требующий обучения, который объединяет планирование сцен на основе LLM с уточнением компоновки с помощью визуального модуля. Получив текстовый запрос, Scenethesis сначала использует LLM для создания черновой компоновки. Затем визуальный модуль уточняет её, генерируя изображение-ориентир и извлекая структуру сцены для улавливания взаимосвязей между объектами. Далее оптимизационный модуль итеративно обеспечивает точное выравнивание поз и физическую правдоподобность, предотвращая артефакты, такие как пересечение объектов и неустойчивость. Наконец, модуль проверки подтверждает пространственную согласованность. Комплексные эксперименты показывают, что Scenethesis создаёт разнообразные, реалистичные и физически правдоподобные интерактивные 3D-сцены, что делает его ценным инструментом для создания виртуального контента, симуляционных сред и исследований в области воплощённого ИИ.
Традиционные способы представления данных обычно разделяют докладчика и визуализацию на два отдельных пространства — трехмерный мир и двумерный экран, что способствует созданию историй, сосредоточенных на визуализации. Чтобы обеспечить более ориентированный на человека опыт восприятия, мы устанавливаем более равноправные отношения между визуализацией и докладчиком с помощью наших InfoVids. Эти информационные видео, вдохновленные инфографикой, созданы для переосмысления взаимодействия между докладчиком и визуализациями. В процессе разработки InfoVids мы исследуем, как использование компоновки, формы и интерактивности влияет на восприятие зрителей. Мы сравниваем InfoVids с их базовыми двумерными аналогами в формате «слайдов» по 9 метрикам с участием 30 человек и предоставляем практические, долгосрочные инсайты с автобиографической точки зрения. Наш смешанный метод анализа показывает, что этот подход уменьшает рассеивание внимания зрителей, смещает фокус с визуализации на докладчика и способствует более интерактивным, естественным и увлекательным полноценным выступлениям с данными. В конечном итоге, InfoVids помогли зрителям переосмыслить традиционную динамику между докладчиком и визуализациями.
Разработчики языковых моделей обычно фильтруют высокорисковый контент — например, токсичные или защищенные авторским правом тексты — из своих данных предварительного обучения, чтобы предотвратить генерацию моделями подобных выходных данных. Однако полное удаление таких данных ограничивает способность моделей распознавать и адекватно реагировать на вредоносный или чувствительный контент. В данной статье мы представляем подход Selective Loss to Understand but Not Generate (SLUNG), парадигму предварительного обучения, с помощью которой модели учатся понимать высокорисковые данные, не обучаясь их генерировать. Вместо равномерного применения функции потерь для предсказания следующего токена SLUNG избирательно избегает стимулирования генерации высокорисковых токенов, при этом обеспечивая их присутствие в контекстном окне модели. Поскольку модель учится предсказывать низкорисковые токены, следующие за высокорисковыми, она вынуждена понимать высокорисковый контент. Наши эксперименты показывают, что SLUNG последовательно улучшает понимание моделями высокорисковых данных (например, способность распознавать токсичный контент) без увеличения их генерации (например, токсичности ответов модели). В целом, наша парадигма SLUNG позволяет моделям извлекать пользу из высокорисковых текстов, которые в противном случае были бы отфильтрованы.
Коллаборативная парадигма больших и малых языковых моделей (LM) эффективно балансирует производительность и затраты, однако ключевая проблема заключается в точном определении момента вызова, когда в малых LM возникают галлюцинации. Предыдущие усилия по оптимизации в основном сосредотачивались на постобработке, которая была отделена от процесса рассуждения LM, что приводило к высоким вычислительным затратам и ограниченной эффективности. В данной статье мы предлагаем практическую метрику оценки вызова под названием AttenHScore, которая вычисляет накопление и распространение галлюцинаций в процессе генерации малых LM, непрерывно усиливая потенциальные ошибки рассуждения. Динамически регулируя порог обнаружения, мы достигаем более точного вызова больших LM в реальном времени. Кроме того, учитывая ограниченные способности малых LM к рассуждению, мы используем реорганизацию знаний с учетом неопределенности, чтобы помочь им лучше улавливать ключевую информацию из различных текстовых фрагментов. Многочисленные эксперименты показывают, что наш AttenHScore превосходит большинство базовых методов в улучшении возможностей обнаружения галлюцинаций в реальном времени на множестве QA-датасетов, особенно при работе со сложными запросами. Более того, наши стратегии устраняют необходимость в дополнительном обучении моделей и демонстрируют гибкость в адаптации к различным трансформерным LM.
В последние годы многоагентные системы, основанные на крупных языковых моделях (LLM), стрегительно развиваются. Несмотря на этот прогресс, до сих пор отсутствуют специализированные эталонные наборы данных, предназначенные для оценки их производительности. Чтобы устранить этот пробел, мы представляем Auto-SLURP — эталонный набор данных, разработанный для оценки многоагентных систем на основе LLM в контексте интеллектуальных персональных ассистентов. Auto-SLURP расширяет оригинальный набор данных SLURP, изначально созданный для задач понимания естественного языка, путем перемаркировки данных и интеграции симулированных серверов и внешних сервисов. Это улучшение позволяет реализовать комплексный сквозной процесс оценки, охватывающий понимание языка, выполнение задач и генерацию ответов. Наши эксперименты показывают, что Auto-SLURP представляет собой серьезный вызов для современных передовых систем, подчеркивая, что создание действительно надежных и интеллектуальных многоагентных персональных ассистентов остается задачей, требующей дальнейшей разработки. Набор данных и связанный код доступны по адресу https://github.com/lorashen/Auto-SLURP/.
В данном исследовании представлен новый эталонный тест для оценки больших языковых моделей (LLM), основанный на задачах, взятых из соревнований Financial Modeling World Cup (FMWC) по работе с Excel. Мы предлагаем методологию преобразования 113 существующих задач FMWC в программно оцениваемые форматы JSON и используем этот набор данных для сравнения производительности нескольких ведущих LLM. Результаты показывают значительные различия в производительности в различных категориях задач: модели демонстрируют сильные стороны в задачах распознавания паттернов, но испытывают трудности со сложными численными рассуждениями. Этот эталонный тест предоставляет стандартизированную основу для оценки возможностей LLM в реалистичных бизнес-ориентированных задачах, а не в абстрактных академических проблемах. Исследование вносит вклад в развивающуюся область тестирования ИИ, устанавливая уровень владения Microsoft Excel среди 1,5 миллиарда пользователей как значимый критерий оценки, который связывает академические тесты ИИ с практическими бизнес-приложениями.