HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

21 papers found

Babel: Открытые многоязычные большие языковые модели, обслуживающие более 90% носителей языка в мире
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Mar 2

ByYiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang

Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), однако открытые многоязычные LLM остаются редкими, а существующие модели часто ограничены в охвате языков. Такие модели обычно отдают приоритет хорошо поддерживаемым языкам, в то время как широко распространённые, но недостаточно обеспеченные ресурсами языки часто остаются без внимания. Чтобы устранить этот дисбаланс, мы представляем Babel — открытую многоязычную LLM, которая охватывает 25 самых распространённых языков по числу носителей, поддерживает более 90% мирового населения и включает множество языков, игнорируемых другими открытыми многоязычными LLM. В отличие от традиционных подходов с продолжением предварительного обучения, Babel расширяет количество параметров с помощью техники расширения слоёв, что повышает её производительность. Мы представляем две версии: Babel-9B, разработанную для эффективного вывода и тонкой настройки, и Babel-83B, которая устанавливает новый стандарт для открытых многоязычных LLM. Обширные оценки на многоязычных задачах демонстрируют её превосходство по сравнению с открытыми LLM сопоставимого размера. Кроме того, используя открытые наборы данных для контролируемой тонкой настройки, Babel достигает выдающихся результатов: Babel-9B-Chat лидирует среди LLM размером 10 млрд параметров, а Babel-83B-Chat устанавливает новый стандарт для многоязычных задач, достигая уровня коммерческих моделей.

HoT: Выделенная Цепь Рассуждений для Ссылок на Подтверждающие Факты из Входных Данных
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

Mar 3

ByTin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Ахиллесовой пятой крупных языковых моделей (LLM) является их склонность к генерации не соответствующих действительности утверждений. Ответ, содержащий как фактические, так и не фактические утверждения, создает сложности для людей в проверке и принятии решений на их основе. Для решения этой проблемы мы предлагаем метод Highlighted Chain-of-Thought Prompting (HoT), который побуждает LLM генерировать ответы с XML-тегами, привязывающими факты к тем, что указаны в запросе. А именно, при получении входного вопроса LLM сначала переформатирует его, добавляя XML-теги для выделения ключевых фактов, а затем генерирует ответ с выделением фактов, ссылающихся на входные данные. Интересно, что в условиях few-shot HoT превосходит стандартный метод цепочки рассуждений (CoT) на широком спектре из 17 задач, включая арифметику, понимание текста и логические рассуждения. Когда людей просят проверить ответы LLM, выделения помогают участникам с ограниченным временем более точно и эффективно распознавать, когда LLM правы. Однако, что удивительно, когда LLM ошибаются, HoT склонны заставлять пользователей поверить, что ответ правильный.

Процессно-ориентированные языковые модели с самовознаграждением
Process-based Self-Rewarding Language Models

Mar 5

ByShimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong

Крупные языковые модели продемонстрировали выдающуюся производительность в различных прикладных задачах и широко применяются в множестве сценариев. Для дальнейшего улучшения их работы используются данные о предпочтениях, аннотированные людьми, что ограничено верхним пределом человеческих возможностей. В связи с этим был предложен метод самонаграждения, при котором языковые модели генерируют обучающие данные, награждая свои собственные выходы. Однако существующая парадигма самонаграждения неэффективна в сценариях математического рассуждения и может даже приводить к снижению производительности. В данной работе мы предлагаем процессно-ориентированный конвейер самонаграждения для языковых моделей, который включает в себя длинные рассуждения, пошаговую оценку моделей как судей и пошаговую оптимизацию предпочтений в рамках парадигмы самонаграждения. Наша новая парадигма успешно повышает производительность языковых моделей на нескольких бенчмарках математического рассуждения за счет итеративного процессно-ориентированного самонаграждения, демонстрируя огромный потенциал самонаграждения для достижения уровня рассуждений, который может превосходить человеческие возможности.

KodCode: Разнообразный, сложный и проверяемый синтетический набор данных для программирования
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Mar 4

ByZhangchen Xu, Yang Liu, Yueqin Yin, Mingyuan Zhou, Radha Poovendran

Мы представляем KodCode, синтетический набор данных, который решает постоянную проблему получения высококачественных, проверяемых обучающих данных для обучения больших языковых моделей в области программирования, охватывая различные уровни сложности и домены. Существующие ресурсы, ориентированные на код, обычно не обеспечивают ни широты охвата (например, от простых задач до сложных алгоритмических проблем), ни проверяемой корректности (например, модульных тестов). В отличие от них, KodCode состоит из триплетов "вопрос-решение-тест", которые систематически проверяются с помощью процедуры самопроверки. Наш процесс начинается с синтеза широкого спектра задач по программированию, затем генерируются решения и тестовые случаи, с дополнительными попытками для сложных задач. Наконец, посттренировочный синтез данных выполняется путем переформулирования вопросов в различные форматы и генерации ответов с использованием процедуры отбора на основе тестов из модели рассуждений (DeepSeek R1). Этот процесс создает масштабный, надежный и разнообразный набор данных по программированию. KodCode подходит для тонкой настройки с учителем, а парные модульные тесты также предоставляют большой потенциал для настройки с подкреплением. Эксперименты по тонкой настройке на бенчмарках программирования (HumanEval(+), MBPP(+), BigCodeBench и LiveCodeBench) демонстрируют, что модели, настроенные на KodCode, достигают наилучших результатов, превосходя модели, такие как Qwen2.5-Coder-32B-Instruct и DeepSeek-R1-Distill-Llama-70B.

GEN3C: Генерация согласованных с миром 3D-видео с точным управлением камерой
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Mar 5

ByXuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-David, Thomas Müller, Alexander Keller, Sanja Fidler, Jun Gao

Мы представляем GEN3C — генеративную модель видео с точным управлением камерой и временной 3D-согласованностью. Существующие модели видео уже способны создавать реалистичные ролики, но они редко используют 3D-информацию, что приводит к несоответствиям, таким как внезапное появление и исчезновение объектов. Управление камерой, если оно вообще реализовано, является неточным, поскольку параметры камеры просто подаются на вход нейронной сети, которая затем должна самостоятельно выводить, как видео зависит от камеры. В отличие от этого, GEN3C управляется 3D-кэшем: облаками точек, полученными путем предсказания глубины пикселей исходных изображений или ранее сгенерированных кадров. При создании следующих кадров GEN3C учитывает 2D-визуализации 3D-кэша с новой траекторией камеры, заданной пользователем. Это означает, что GEN3C не нужно запоминать ранее сгенерированные данные или выводить структуру изображения из положения камеры. Вместо этого модель может сосредоточить всю свою генеративную мощность на ранее не наблюдавшихся областях, а также на переходе состояния сцены к следующему кадру. Наши результаты демонстрируют более точное управление камерой по сравнению с предыдущими работами, а также передовые результаты в синтезе новых видов из разреженных данных, даже в сложных условиях, таких как сцены вождения и монохромные динамические видео. Результаты лучше всего оценивать в видеороликах. Посетите нашу веб-страницу! https://research.nvidia.com/labs/toronto-ai/GEN3C/

ABC: Достижение лучшего контроля над мультимодальными эмбеддингами с использованием визуально-языковых моделей
ABC: Achieving Better Control of Multimodal Embeddings using VLMs

Mar 1

ByBenjamin Schneider, Florian Kerschbaum, Wenhu Chen

Модели визуального внедрения демонстрируют превосходные результаты в задачах с нулевым обучением, таких как визуальный поиск и классификация. Однако эти модели не могут быть использованы для задач, содержащих неоднозначность или требующих инструкций от пользователя. Для таких задач необходима мультимодальная модель внедрения, которая создает представления, объединяющие визуальные и текстовые данные. Существующие подходы на основе CLIP независимо внедряют изображения и текст, а затем объединяют результаты. Мы обнаружили, что это приводит к слабому взаимодействию между модальностями и ограниченному контролю пользователя над представлением. Мы представляем ABC — открытую мультимодальную модель внедрения, которая использует архитектуру модели для обработки изображений и текста, чтобы глубоко интегрировать визуальные признаки с инструкциями на естественном языке. ABC демонстрирует наилучшие результаты для своего размера на задаче поиска текста по изображению в MSCOCO и является лидером в задачах классификации и визуального ответа на вопросы (VQA) в Massive Multimodal Embedding Benchmark. Благодаря сильной унификации представления визуальных и текстовых данных, ABC может использовать естественный язык для решения сложных и потенциально неоднозначных задач визуального поиска. Для оценки этой возможности мы разработали CtrlBench — бенчмарк, который требует чередования текстовых инструкций с содержимым изображения для корректного поиска. ABC продвигает состояние мультимодальных моделей внедрения, предлагая высококачественные представления и гибкий контроль с помощью естественного языка. Наша модель и наборы данных доступны на странице проекта.

Улучшение локализации аномалий в моделях обработки визуальной информации и языка с использованием описаний знаний
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

Mar 5

ByJun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel

Модели визуального языка (VLMs) продемонстрировали впечатляющие способности в задачах визуального заземления. Однако их эффективность в медицинской области, особенно в обнаружении и локализации аномалий на медицинских изображениях, остается недостаточно изученной. Основная сложность заключается в сложной и абстрактной природе медицинской терминологии, что затрудняет прямое сопоставление терминов патологических аномалий с соответствующими визуальными признаками. В данной работе мы представляем новый подход для повышения производительности VLMs в обнаружении и локализации медицинских аномалий за счет использования декомпозированных медицинских знаний. Вместо того чтобы напрямую указывать моделям распознавать конкретные аномалии, мы сосредотачиваемся на разбиении медицинских концепций на фундаментальные атрибуты и общие визуальные паттерны. Эта стратегия способствует более сильному согласованию текстовых описаний и визуальных признаков, улучшая как распознавание, так и локализацию аномалий на медицинских изображениях. Мы оцениваем наш метод на базовой модели Florence-2 объемом 0.23B и показываем, что он достигает сопоставимой производительности в заземлении аномалий с значительно более крупными медицинскими VLMs на основе LLaVA объемом 7B, несмотря на обучение всего на 1.5% данных, используемых для таких моделей. Экспериментальные результаты также демонстрируют эффективность нашего подхода как для известных, так и для ранее не встречавшихся аномалий, что указывает на его сильные обобщающие способности.

CrowdSelect: Отбор синтетических обучающих данных с использованием коллективного интеллекта нескольких языковых моделей
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

Mar 3

ByYisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen

Передача способностей крупных языковых моделей (LLM) следовать инструкциям в более компактные модели с использованием выбранного подмножества данных стала основным подходом в обучении моделей. Хотя существующие стратегии отбора синтетических данных для инструкций в основном опираются на одномерные сигналы (например, оценки вознаграждения, перплексия модели), они не способны охватить сложность следования инструкциям в различных областях. Поэтому мы исследуем более разнообразные сигналы для учета характеристик пар "инструкция-ответ" и предлагаем три базовых метрики, которые используют коллективную мудрость нескольких LLM, основанную на (1) разнообразных ответах LLM и (2) оценке модели вознаграждения. На основе этих метрик мы предлагаем CrowdSelect — интегрированную метрику, которая включает кластеризацию для сохранения разнообразия ответов. Наши эксперименты показывают, что базовые метрики стабильно улучшают производительность четырех базовых моделей на тестах MT-bench и Arena-Hard. CrowdSelect, эффективно объединяя все метрики, достигает наилучших результатов как при полной тонкой настройке, так и при использовании LoRA, демонстрируя улучшения на 4,81% на Arena-Hard и 11,1% на MT-bench для модели Llama-3.2-3b-instruct. Мы надеемся, что наши результаты принесут ценные идеи для будущих исследований в этом направлении. Код доступен по адресу https://github.com/listentm/crowdselect.

Тонкая настройка небольших языковых моделей для предметно-ориентированного ИИ: перспектива Edge AI
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Mar 3

ByRakshit Aralimatti, Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Развертывание крупномасштабных языковых моделей на устройствах с ограниченными ресурсами сталкивается с рядом присущих проблем, таких как высокие вычислительные требования, энергопотребление и потенциальные риски для конфиденциальности данных. В данной статье представлены малые языковые модели Shakti (Shakti Small Language Models, SLMs) — Shakti-100M, Shakti-250M и Shakti-500M, которые напрямую решают эти ограничения. Благодаря сочетанию эффективных архитектур, методов квантования и принципов ответственного ИИ, серия Shakti обеспечивает интеллектуальные возможности на устройствах, включая смартфоны, умные бытовые приборы, системы Интернета вещей и другие. Мы предоставляем всесторонний анализ их философии проектирования, процессов обучения и производительности на тестах как общего назначения (например, MMLU, Hellaswag), так и специализированных областей (здравоохранение, финансы и право). Наши результаты демонстрируют, что компактные модели, при тщательной разработке и тонкой настройке, могут соответствовать и часто превосходить ожидания в реальных сценариях edge-AI.

Масштабирование моделей дискретного диффузионного процесса на этапе вывода с повторным маскированием
Remasking Discrete Diffusion Models with Inference-Time Scaling

Mar 1

ByGuanghan Wang, Yair Schiff, Subham Sekhar Sahoo, Volodymyr Kuleshov

Часть успеха диффузионных моделей связана с их способностью выполнять итеративное уточнение, то есть многократно корректировать выходные данные в процессе генерации. Однако современные маскированные дискретные диффузионные модели лишены этой возможности: когда токен сгенерирован, его нельзя обновить снова, даже если он содержит ошибку. В данной работе мы устраняем это ограничение, представляя метод сэмплера ReMDM (remasking diffusion model), который может быть применен к предобученным маскированным диффузионным моделям в принципиальном виде и который выводится из дискретной диффузионной модели с пользовательским процессом обратного маскирования. Наиболее интересно то, что ReMDM наделяет дискретные диффузионные модели возможностью масштабирования вычислений на этапе вывода. Увеличивая количество шагов сэмплирования, ReMDM генерирует выходные данные на естественном языке, приближающиеся по качеству к авторегрессивным моделям, тогда как при ограниченном бюджете вычислений ReMDM лучше сохраняет качество. ReMDM также улучшает качество сэмплов маскированных диффузионных моделей для дискретизированных изображений, а в научных областях, таких как дизайн молекул, ReMDM облегчает управление диффузией и расширяет Парето-границу управляемости по сравнению с классическим маскированием и диффузией с равномерным шумом. Мы предоставляем код вместе с блог-постом на странице проекта: https://remdm.github.io.

Смешанный подход структурного и текстового поиска в текстоориентированных графовых базах знаний
Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases

Feb 27

ByYongjia Lei, Haoyu Han, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka, Mahantesh M Halappanavar, Jiliang Tang, Yu Wang

Графовые базы знаний с богатым текстовым содержанием (TG-KBs) становятся все более важными для ответов на запросы, предоставляя как текстовую, так и структурную информацию. Однако современные методы поиска часто извлекают эти два типа знаний по отдельности, не учитывая их взаимного усиления, а некоторые гибридные методы даже полностью игнорируют структурный поиск после агрегации соседних элементов. Чтобы заполнить этот пробел, мы предлагаем метод Смешанного Структурно-Текстового Поиска (MoR), который извлекает эти два типа знаний с помощью фреймворка Планирование-Рассуждение-Организация. На этапе Планирования MoR генерирует текстовые графы планирования, описывающие логику ответа на запросы. Следуя графам планирования, на этапе Рассуждения MoR объединяет структурный обход и текстовое сопоставление для получения кандидатов из TG-KBs. На этапе Организации MoR дополнительно переранжирует извлеченных кандидатов на основе их структурной траектории. Многочисленные эксперименты демонстрируют превосходство MoR в гармонизации структурного и текстового поиска, включая неравномерную производительность поиска для различных логик запросов и преимущества интеграции структурных траекторий для переранжирования кандидатов. Наш код доступен по адресу https://github.com/Yoega/MoR.

QE4PE: Оценка качества на уровне слов для ручного постредактирования
QE4PE: Word-level Quality Estimation for Human Post-Editing

Mar 4

ByGabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza

Оценка качества на уровне слов (QE) выявляет ошибочные фрагменты в машинных переводах, что может направлять и облегчать процесс постредактирования человеком. Хотя точность систем QE на уровне слов была тщательно изучена, их практическая применимость и влияние на скорость, качество и выбор редакторских правок в процессе постредактирования остаются недостаточно исследованными. Наше исследование QE4PE изучает влияние QE на уровне слов на постредактирование машинного перевода (MT) в реалистичных условиях с участием 42 профессиональных редакторов для двух направлений перевода. Мы сравниваем четыре способа выделения ошибочных фрагментов, включая методы QE на основе контролируемого обучения и неопределенности, для выявления потенциальных ошибок в выводах современной нейронной модели MT. Усилия и производительность постредактирования оцениваются с помощью анализа поведенческих логов, а улучшения качества — с помощью аннотирования на уровне слов и сегментов. Мы обнаруживаем, что предметная область, язык и скорость работы редакторов являются ключевыми факторами, определяющими эффективность выделения ошибок, при этом скромные различия между выделениями, сделанными человеком и автоматизированными системами QE, подчеркивают разрыв между точностью и применимостью в профессиональных рабочих процессах.

Исследование подходов к переписыванию для различных задач в диалоговых системах
Exploring Rewriting Approaches for Different Conversational Tasks

Feb 26

ByMd Mehrab Tanjim, Ryan A. Rossi, Mike Rimer, Xiang Chen, Sungchul Kim, Vaishnavi Muppala, Tong Yu, Zhengmian Hu, Ritwik Sinha, Wei Zhang, Iftikhar Ahamath Burhanuddin, Franck Dernoncourt

Диалоговые помощники часто требуют алгоритма переформулирования вопросов, который использует подмножество прошлых взаимодействий для предоставления более содержательного (точного) ответа на вопрос или запрос пользователя. Однако конкретный подход к переформулированию часто может зависеть от варианта использования и задач, специфичных для приложения, поддерживаемого диалоговым помощником, а также от других ограничений. В данной работе мы систематически исследуем два различных подхода, обозначенных как переформулирование и слияние, на двух принципиально разных задачах генерации, включая задачу генерации текста на основе текста и мультимодальную задачу генерации, которая принимает на вход текст и создает визуализацию или таблицу данных, отвечающую на вопрос пользователя. Наши результаты показывают, что выбор конкретного подхода к переформулированию или слиянию сильно зависит от базового варианта использования и задачи генерации. В частности, мы обнаруживаем, что для диалогового помощника, отвечающего на вопросы, подход к переформулированию запроса работает лучше всего, тогда как для помощника по анализу данных, который генерирует визуализации и таблицы данных на основе диалога пользователя с помощником, лучше всего подходит подход слияния. Примечательно, что мы исследуем два набора данных для варианта использования помощника по анализу данных — для коротких и длинных диалогов — и обнаруживаем, что слияние запросов всегда работает лучше, тогда как для текстового диалогового помощника, отвечающего на вопросы, подход к переформулированию запроса оказывается наиболее эффективным.

FLAME: Бенчмарк для федеративного обучения в задачах роботизированного манипулирования
FLAME: A Federated Learning Benchmark for Robotic Manipulation

Mar 3

BySantiago Bou Betran, Alberta Longhini, Miguel Vasco, Yuchong Zhang, Danica Kragic

Последние достижения в области роботизированного манипулирования были обусловлены использованием крупномасштабных наборов данных, собранных в различных средах. Традиционно обучение политик роботизированного манипулирования на этих данных проводится централизованно, что вызывает опасения относительно масштабируемости, адаптивности и конфиденциальности данных. Хотя федеративное обучение позволяет проводить децентрализованное обучение с сохранением конфиденциальности, его применение в области роботизированного манипулирования остается малоизученным. Мы представляем FLAME (Federated Learning Across Manipulation Environments) — первый бенчмарк, разработанный для федеративного обучения в роботизированном манипулировании. FLAME включает: (i) набор крупномасштабных данных, содержащих более 160 000 экспертных демонстраций выполнения различных задач манипулирования, собранных в широком спектре симулированных сред; (ii) фреймворк для обучения и оценки политик роботов в условиях федеративного обучения. Мы оцениваем стандартные алгоритмы федеративного обучения в FLAME, демонстрируя их потенциал для распределенного обучения политик и выделяя ключевые проблемы. Наш бенчмарк закладывает основу для масштабируемого, адаптивного и учитывающего конфиденциальность обучения роботов.

CognitiveDrone: Модель VLA и оценочный эталон для решения когнитивных задач и рассуждений в реальном времени на БПЛА
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs

Mar 3

ByArtem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou

В данной статье представлен CognitiveDrone — новая модель Vision-Language-Action (VLA), разработанная для выполнения сложных задач беспилотных летательных аппаратов (БПЛА), требующих продвинутых когнитивных способностей. Модель обучена на наборе данных, включающем более 8000 смоделированных траекторий полёта по трём ключевым категориям: распознавание людей, понимание символов и логическое рассуждение. Она генерирует 4D-команды в реальном времени на основе визуальных данных от первого лица и текстовых инструкций. Для повышения производительности в сложных сценариях мы предлагаем CognitiveDrone-R1, который интегрирует дополнительный модуль рассуждений Vision-Language Model (VLM) для упрощения задач перед высокочастотным управлением. Экспериментальные оценки с использованием нашего открытого бенчмарка CognitiveDroneBench показывают, что, хотя модель, ориентированная на гонки (RaceVLA), достигает общего уровня успешности 31,3%, базовая модель CognitiveDrone демонстрирует результат 59,6%, а CognitiveDrone-R1 достигает уровня успешности 77,2%. Эти результаты свидетельствуют об улучшении до 30% в критически важных когнитивных задачах, подчеркивая эффективность внедрения продвинутых возможностей рассуждения в системы управления БПЛА. Наш вклад включает разработку передовой модели VLA для управления БПЛА и создание первого специализированного бенчмарка для оценки когнитивных задач в операциях с дронами. Полный репозиторий доступен по адресу cognitivedrone.github.io.

Тестирование крупных языковых моделей для обнаружения уязвимостей в программном обеспечении на нескольких языках
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo

Последние достижения в области генеративного искусственного интеллекта привели к широкому распространению больших языковых моделей (LLM) в разработке программного обеспечения, что позволило решить множество давних проблем. Однако всестороннее исследование, изучающее возможности LLM в обнаружении уязвимостей программного обеспечения (SVD), являющемся ключевым аспектом безопасности ПО, на данный момент отсутствует. Существующие исследования в основном сосредоточены на оценке LLM с использованием наборов данных на C/C++ и обычно исследуют лишь одну или две стратегии среди инженерии промптов, настройки инструкций и тонкой настройки классификации последовательностей для открытых LLM. В результате существует значительный пробел в знаниях относительно эффективности различных LLM в обнаружении уязвимостей в различных языках программирования. Чтобы устранить этот пробел, мы представляем всестороннее эмпирическое исследование, оценивающее производительность LLM в задаче SVD. Мы собрали обширный набор данных, включающий 8 260 уязвимых функций на Python, 7 505 на Java и 28 983 на JavaScript. Мы оцениваем пять открытых LLM с использованием нескольких подходов, включая инженерию промптов, настройку инструкций и тонкую настройку классификации последовательностей. Эти LLM сравниваются с пятью тонко настроенными небольшими языковыми моделями и двумя открытыми инструментами статического тестирования безопасности приложений. Кроме того, мы исследуем два пути для улучшения производительности LLM в SVD: а) С точки зрения данных: повторное обучение моделей с использованием сбалансированных наборов данных, подвергнутых даунсэмплингу. б) С точки зрения модели: изучение методов ансамблевого обучения, объединяющих предсказания нескольких LLM. Наши всесторонние эксперименты показывают, что SVD остается сложной задачей для LLM. Это исследование предоставляет глубокое понимание роли LLM в SVD и предлагает практические рекомендации для будущих достижений в использовании генеративного ИИ для улучшения практик обеспечения безопасности программного обеспечения.

Модели извлечения не владеют инструментами: тестирование извлечения инструментов для крупных языковых моделей
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

Mar 3

ByZhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren

Обучение работе с инструментами направлено на расширение возможностей больших языковых моделей (LLM) за счет использования разнообразных инструментов, позволяя им выступать в роли агентов для решения практических задач. Из-за ограниченной длины контекста LLM, использующих инструменты, применение моделей информационного поиска (IR) для выбора полезных инструментов из больших наборов является критически важным начальным шагом. Однако производительность моделей IR в задачах поиска инструментов остается недостаточно изученной и неясной. Большинство бенчмарков по использованию инструментов упрощают этот этап, вручную предварительно аннотируя небольшой набор релевантных инструментов для каждой задачи, что далеко от реальных сценариев. В данной статье мы предлагаем ToolRet — гетерогенный бенчмарк для поиска инструментов, включающий 7,6 тыс. разнообразных задач поиска и корпус из 43 тыс. инструментов, собранных из существующих наборов данных. Мы тестируем шесть типов моделей на ToolRet. Удивительно, но даже модели, демонстрирующие высокую производительность в традиционных бенчмарках IR, показывают низкие результаты на ToolRet. Такое низкое качество поиска снижает успешность выполнения задач LLM, использующих инструменты. В качестве дальнейшего шага мы представляем крупномасштабный обучающий набор данных с более чем 200 тыс. примеров, который существенно оптимизирует способность моделей IR к поиску инструментов.

SwiLTra-Bench: Швейцарский эталонный набор для юридического перевода
SwiLTra-Bench: The Swiss Legal Translation Benchmark

Mar 3

ByJoel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen

В Швейцарии юридический перевод имеет особое значение из-за четырех официальных языков страны и требований к многоязычной юридической документации. Однако этот процесс традиционно зависит от профессионалов, которые должны быть одновременно экспертами в области права и квалифицированными переводчиками, что создает узкие места и влияет на эффективный доступ к правосудию. Для решения этой проблемы мы представляем SwiLTra-Bench — всеобъемлющий многоязычный бенчмарк, содержащий более 180 тысяч пар выровненных швейцарских юридических переводов, включающих законы, заголовки и пресс-релизы на всех швейцарских языках, а также на английском, предназначенный для оценки систем перевода на основе языковых моделей (LLM). Наше систематическое исследование показывает, что передовые модели достигают превосходных результатов в переводе всех типов документов, тогда как специализированные системы перевода особенно хорошо справляются с законами, но уступают в переводе заголовков. Благодаря тщательному тестированию и проверке экспертами мы демонстрируем, что, хотя тонкая настройка открытых SLM значительно улучшает качество их перевода, они все же отстают от лучших моделей, таких как Claude-3.5-Sonnet, работающих в режиме zero-shot. Кроме того, мы представляем SwiLTra-Judge — специализированную систему оценки LLM, которая лучше всего соответствует оценкам экспертов-людей.

Разнообразная управляемая политика диффузии с использованием сигнальной темпоральной логики
Diverse Controllable Diffusion Policy with Signal Temporal Logic

Mar 4

ByYue Meng, Chuchu fan

Создание реалистичных симуляций имеет критически важное значение для приложений автономных систем, таких как беспилотное вождение и взаимодействие человека с роботами. Однако современные симуляторы вождения по-прежнему сталкиваются с трудностями в генерации управляемых, разнообразных и соответствующих правилам поведений участников дорожного движения: модели на основе правил не способны создавать разнообразные поведения и требуют тщательной настройки, тогда как методы, основанные на обучении, имитируют политику из данных, но не предназначены для явного следования правилам. Кроме того, реальные наборы данных по своей природе являются "однорезультатными", что затрудняет генерацию разнообразных поведений с помощью методов обучения. В данной работе мы используем сигнальную временную логику (STL) и диффузионные модели для обучения управляемой, разнообразной и учитывающей правила политики. Сначала мы калибруем STL на реальных данных, затем генерируем разнообразные синтетические данные с помощью оптимизации траекторий и, наконец, обучаем скорректированную диффузионную политику на расширенном наборе данных. Мы тестируем на наборе данных NuScenes, и наш подход позволяет достичь наиболее разнообразных траекторий, соответствующих правилам, по сравнению с другими базовыми методами, при этом время выполнения составляет 1/17 от времени второго лучшего подхода. В тестировании с замкнутым циклом наш подход демонстрирует наивысшее разнообразие, уровень соблюдения правил и наименьший уровень столкновений. Наш метод может генерировать различные характеристики в зависимости от различных параметров STL в тестировании. Исследование на примере сценариев взаимодействия человека и робота показывает, что наш подход способен генерировать разнообразные траектории, близкие к эталонным. Инструмент для аннотирования, расширенный набор данных и код доступны по адресу https://github.com/mengyuest/pSTL-diffusion-policy.

Надежная и эффективная координация многоагентных систем с использованием графовых нейронных сетей и вариационных автоэнкодеров
Reliable and Efficient Multi-Agent Coordination via Graph Neural Network Variational Autoencoders

Mar 4

ByYue Meng, Nathalie Majcherczyk, Wenliang Liu, Scott Kiesel, Chuchu Fan, Federico Pecora

Координация множества агентов имеет решающее значение для надежной навигации нескольких роботов в общих пространствах, таких как автоматизированные склады. В зонах с высокой плотностью движения роботов локальные методы координации могут не найти решения, свободного от тупиков. В таких сценариях целесообразно поручить центральному модулю создание глобального расписания, определяющего порядок прохождения роботов. Однако время выполнения таких централизованных методов координации значительно возрастает с увеличением масштаба задачи. В данной статье мы предлагаем использовать Графовые Нейронные Сети с Вариационными Автокодировщиками (GNN-VAE) для решения задачи координации множества агентов в масштабе быстрее, чем с помощью централизованной оптимизации. Мы формулируем задачу координации как графовую проблему и собираем эталонные данные с использованием решателя смешанного целочисленного линейного программирования (MILP). В процессе обучения наша обучающая структура кодирует качественные решения графовой проблемы в латентное пространство. На этапе вывода образцы решений декодируются из выбранных латентных переменных, и выбирается образец с наименьшей стоимостью для координации. Наконец, для развертывания выбирается выполнимое предложение с наивысшим индексом производительности. По своей конструкции наша структура GNN-VAE возвращает решения, которые всегда учитывают ограничения рассматриваемой задачи координации. Численные результаты показывают, что наш подход, обученный на задачах малого масштаба, может достигать высококачественных решений даже для задач крупного масштаба с 250 роботами, значительно превосходя по скорости другие базовые методы. Страница проекта: https://mengyuest.github.io/gnn-vae-coord

Взаимодействуй, обучай, совершенствуй: параллельная структура "Актор-Рассуждающий" на основе языковых моделей для улучшения взаимодействия автономных транспортных средств
Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

Mar 1

ByShiyu Fang, Jiaqi Liu, Chengkai Xu, Chen Lv, Peng Hang, Jian Sun

Автономные транспортные средства (AV) вышли на этап коммерциализации, однако их ограниченная способность взаимодействовать и выражать намерения по-прежнему создает трудности во взаимодействии с транспортными средствами, управляемыми человеком (HV). Последние достижения в области больших языковых моделей (LLM) позволяют осуществлять двустороннюю коммуникацию между человеком и машиной, но конфликт между медленной скоростью вывода и необходимостью принятия решений в реальном времени затрудняет практическое внедрение. Для решения этих проблем в данной статье представлена параллельная структура Actor-Reasoner, предназначенная для обеспечения явного двустороннего взаимодействия AV-HV в различных сценариях. Во-первых, путем облегчения взаимодействия между Reasoner, управляемым LLM, и разнородными симулированными HV в процессе обучения, создается база данных взаимодействий, называемая Actor. Затем, благодаря введению модуля разделения памяти и модуля двухуровневого извлечения памяти, значительно повышается способность Actor обрабатывать разнородные HV. Абляционные исследования и сравнения с другими методами принятия решений демонстрируют, что предложенная структура Actor-Reasoner существенно улучшает безопасность и эффективность. Наконец, с учетом комбинации информации внешнего интерфейса "человек-машина" (eHMI), полученной из рассуждений Reasoner, и возможных решений действий, извлеченных из Actor, подтверждается эффективность предложенной структуры Actor-Reasoner в полевых взаимодействиях в различных сценариях. Наш код доступен по адресу https://github.com/FanGShiYuu/Actor-Reasoner.