Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), однако открытые многоязычные LLM остаются редкими, а существующие модели часто ограничены в охвате языков. Такие модели обычно отдают приоритет хорошо поддерживаемым языкам, в то время как широко распространённые, но недостаточно обеспеченные ресурсами языки часто остаются без внимания. Чтобы устранить этот дисбаланс, мы представляем Babel — открытую многоязычную LLM, которая охватывает 25 самых распространённых языков по числу носителей, поддерживает более 90% мирового населения и включает множество языков, игнорируемых другими открытыми многоязычными LLM. В отличие от традиционных подходов с продолжением предварительного обучения, Babel расширяет количество параметров с помощью техники расширения слоёв, что повышает её производительность. Мы представляем две версии: Babel-9B, разработанную для эффективного вывода и тонкой настройки, и Babel-83B, которая устанавливает новый стандарт для открытых многоязычных LLM. Обширные оценки на многоязычных задачах демонстрируют её превосходство по сравнению с открытыми LLM сопоставимого размера. Кроме того, используя открытые наборы данных для контролируемой тонкой настройки, Babel достигает выдающихся результатов: Babel-9B-Chat лидирует среди LLM размером 10 млрд параметров, а Babel-83B-Chat устанавливает новый стандарт для многоязычных задач, достигая уровня коммерческих моделей.
Ахиллесовой пятой крупных языковых моделей (LLM) является их склонность к генерации не соответствующих действительности утверждений. Ответ, содержащий как фактические, так и не фактические утверждения, создает сложности для людей в проверке и принятии решений на их основе. Для решения этой проблемы мы предлагаем метод Highlighted Chain-of-Thought Prompting (HoT), который побуждает LLM генерировать ответы с XML-тегами, привязывающими факты к тем, что указаны в запросе. А именно, при получении входного вопроса LLM сначала переформатирует его, добавляя XML-теги для выделения ключевых фактов, а затем генерирует ответ с выделением фактов, ссылающихся на входные данные. Интересно, что в условиях few-shot HoT превосходит стандартный метод цепочки рассуждений (CoT) на широком спектре из 17 задач, включая арифметику, понимание текста и логические рассуждения. Когда людей просят проверить ответы LLM, выделения помогают участникам с ограниченным временем более точно и эффективно распознавать, когда LLM правы. Однако, что удивительно, когда LLM ошибаются, HoT склонны заставлять пользователей поверить, что ответ правильный.
Крупные языковые модели продемонстрировали выдающуюся производительность в различных прикладных задачах и широко применяются в множестве сценариев. Для дальнейшего улучшения их работы используются данные о предпочтениях, аннотированные людьми, что ограничено верхним пределом человеческих возможностей. В связи с этим был предложен метод самонаграждения, при котором языковые модели генерируют обучающие данные, награждая свои собственные выходы. Однако существующая парадигма самонаграждения неэффективна в сценариях математического рассуждения и может даже приводить к снижению производительности. В данной работе мы предлагаем процессно-ориентированный конвейер самонаграждения для языковых моделей, который включает в себя длинные рассуждения, пошаговую оценку моделей как судей и пошаговую оптимизацию предпочтений в рамках парадигмы самонаграждения. Наша новая парадигма успешно повышает производительность языковых моделей на нескольких бенчмарках математического рассуждения за счет итеративного процессно-ориентированного самонаграждения, демонстрируя огромный потенциал самонаграждения для достижения уровня рассуждений, который может превосходить человеческие возможности.
Мы представляем KodCode, синтетический набор данных, который решает постоянную проблему получения высококачественных, проверяемых обучающих данных для обучения больших языковых моделей в области программирования, охватывая различные уровни сложности и домены. Существующие ресурсы, ориентированные на код, обычно не обеспечивают ни широты охвата (например, от простых задач до сложных алгоритмических проблем), ни проверяемой корректности (например, модульных тестов). В отличие от них, KodCode состоит из триплетов "вопрос-решение-тест", которые систематически проверяются с помощью процедуры самопроверки. Наш процесс начинается с синтеза широкого спектра задач по программированию, затем генерируются решения и тестовые случаи, с дополнительными попытками для сложных задач. Наконец, посттренировочный синтез данных выполняется путем переформулирования вопросов в различные форматы и генерации ответов с использованием процедуры отбора на основе тестов из модели рассуждений (DeepSeek R1). Этот процесс создает масштабный, надежный и разнообразный набор данных по программированию. KodCode подходит для тонкой настройки с учителем, а парные модульные тесты также предоставляют большой потенциал для настройки с подкреплением. Эксперименты по тонкой настройке на бенчмарках программирования (HumanEval(+), MBPP(+), BigCodeBench и LiveCodeBench) демонстрируют, что модели, настроенные на KodCode, достигают наилучших результатов, превосходя модели, такие как Qwen2.5-Coder-32B-Instruct и DeepSeek-R1-Distill-Llama-70B.
Мы представляем GEN3C — генеративную модель видео с точным управлением камерой и временной 3D-согласованностью. Существующие модели видео уже способны создавать реалистичные ролики, но они редко используют 3D-информацию, что приводит к несоответствиям, таким как внезапное появление и исчезновение объектов. Управление камерой, если оно вообще реализовано, является неточным, поскольку параметры камеры просто подаются на вход нейронной сети, которая затем должна самостоятельно выводить, как видео зависит от камеры. В отличие от этого, GEN3C управляется 3D-кэшем: облаками точек, полученными путем предсказания глубины пикселей исходных изображений или ранее сгенерированных кадров. При создании следующих кадров GEN3C учитывает 2D-визуализации 3D-кэша с новой траекторией камеры, заданной пользователем. Это означает, что GEN3C не нужно запоминать ранее сгенерированные данные или выводить структуру изображения из положения камеры. Вместо этого модель может сосредоточить всю свою генеративную мощность на ранее не наблюдавшихся областях, а также на переходе состояния сцены к следующему кадру. Наши результаты демонстрируют более точное управление камерой по сравнению с предыдущими работами, а также передовые результаты в синтезе новых видов из разреженных данных, даже в сложных условиях, таких как сцены вождения и монохромные динамические видео. Результаты лучше всего оценивать в видеороликах. Посетите нашу веб-страницу! https://research.nvidia.com/labs/toronto-ai/GEN3C/
Модели визуального внедрения демонстрируют превосходные результаты в задачах с нулевым обучением, таких как визуальный поиск и классификация. Однако эти модели не могут быть использованы для задач, содержащих неоднозначность или требующих инструкций от пользователя. Для таких задач необходима мультимодальная модель внедрения, которая создает представления, объединяющие визуальные и текстовые данные. Существующие подходы на основе CLIP независимо внедряют изображения и текст, а затем объединяют результаты. Мы обнаружили, что это приводит к слабому взаимодействию между модальностями и ограниченному контролю пользователя над представлением. Мы представляем ABC — открытую мультимодальную модель внедрения, которая использует архитектуру модели для обработки изображений и текста, чтобы глубоко интегрировать визуальные признаки с инструкциями на естественном языке. ABC демонстрирует наилучшие результаты для своего размера на задаче поиска текста по изображению в MSCOCO и является лидером в задачах классификации и визуального ответа на вопросы (VQA) в Massive Multimodal Embedding Benchmark. Благодаря сильной унификации представления визуальных и текстовых данных, ABC может использовать естественный язык для решения сложных и потенциально неоднозначных задач визуального поиска. Для оценки этой возможности мы разработали CtrlBench — бенчмарк, который требует чередования текстовых инструкций с содержимым изображения для корректного поиска. ABC продвигает состояние мультимодальных моделей внедрения, предлагая высококачественные представления и гибкий контроль с помощью естественного языка. Наша модель и наборы данных доступны на странице проекта.
Передача способностей крупных языковых моделей (LLM) следовать инструкциям в более компактные модели с использованием выбранного подмножества данных стала основным подходом в обучении моделей. Хотя существующие стратегии отбора синтетических данных для инструкций в основном опираются на одномерные сигналы (например, оценки вознаграждения, перплексия модели), они не способны охватить сложность следования инструкциям в различных областях. Поэтому мы исследуем более разнообразные сигналы для учета характеристик пар "инструкция-ответ" и предлагаем три базовых метрики, которые используют коллективную мудрость нескольких LLM, основанную на (1) разнообразных ответах LLM и (2) оценке модели вознаграждения. На основе этих метрик мы предлагаем CrowdSelect — интегрированную метрику, которая включает кластеризацию для сохранения разнообразия ответов. Наши эксперименты показывают, что базовые метрики стабильно улучшают производительность четырех базовых моделей на тестах MT-bench и Arena-Hard. CrowdSelect, эффективно объединяя все метрики, достигает наилучших результатов как при полной тонкой настройке, так и при использовании LoRA, демонстрируя улучшения на 4,81% на Arena-Hard и 11,1% на MT-bench для модели Llama-3.2-3b-instruct. Мы надеемся, что наши результаты принесут ценные идеи для будущих исследований в этом направлении. Код доступен по адресу https://github.com/listentm/crowdselect.
Модели визуального языка (VLMs) продемонстрировали впечатляющие способности в задачах визуального заземления. Однако их эффективность в медицинской области, особенно в обнаружении и локализации аномалий на медицинских изображениях, остается недостаточно изученной. Основная сложность заключается в сложной и абстрактной природе медицинской терминологии, что затрудняет прямое сопоставление терминов патологических аномалий с соответствующими визуальными признаками. В данной работе мы представляем новый подход для повышения производительности VLMs в обнаружении и локализации медицинских аномалий за счет использования декомпозированных медицинских знаний. Вместо того чтобы напрямую указывать моделям распознавать конкретные аномалии, мы сосредотачиваемся на разбиении медицинских концепций на фундаментальные атрибуты и общие визуальные паттерны. Эта стратегия способствует более сильному согласованию текстовых описаний и визуальных признаков, улучшая как распознавание, так и локализацию аномалий на медицинских изображениях. Мы оцениваем наш метод на базовой модели Florence-2 объемом 0.23B и показываем, что он достигает сопоставимой производительности в заземлении аномалий с значительно более крупными медицинскими VLMs на основе LLaVA объемом 7B, несмотря на обучение всего на 1.5% данных, используемых для таких моделей. Экспериментальные результаты также демонстрируют эффективность нашего подхода как для известных, так и для ранее не встречавшихся аномалий, что указывает на его сильные обобщающие способности.
Развертывание крупномасштабных языковых моделей на устройствах с ограниченными ресурсами сталкивается с рядом присущих проблем, таких как высокие вычислительные требования, энергопотребление и потенциальные риски для конфиденциальности данных. В данной статье представлены малые языковые модели Shakti (Shakti Small Language Models, SLMs) — Shakti-100M, Shakti-250M и Shakti-500M, которые напрямую решают эти ограничения. Благодаря сочетанию эффективных архитектур, методов квантования и принципов ответственного ИИ, серия Shakti обеспечивает интеллектуальные возможности на устройствах, включая смартфоны, умные бытовые приборы, системы Интернета вещей и другие. Мы предоставляем всесторонний анализ их философии проектирования, процессов обучения и производительности на тестах как общего назначения (например, MMLU, Hellaswag), так и специализированных областей (здравоохранение, финансы и право). Наши результаты демонстрируют, что компактные модели, при тщательной разработке и тонкой настройке, могут соответствовать и часто превосходить ожидания в реальных сценариях edge-AI.
Часть успеха диффузионных моделей связана с их способностью выполнять итеративное уточнение, то есть многократно корректировать выходные данные в процессе генерации. Однако современные маскированные дискретные диффузионные модели лишены этой возможности: когда токен сгенерирован, его нельзя обновить снова, даже если он содержит ошибку. В данной работе мы устраняем это ограничение, представляя метод сэмплера ReMDM (remasking diffusion model), который может быть применен к предобученным маскированным диффузионным моделям в принципиальном виде и который выводится из дискретной диффузионной модели с пользовательским процессом обратного маскирования. Наиболее интересно то, что ReMDM наделяет дискретные диффузионные модели возможностью масштабирования вычислений на этапе вывода. Увеличивая количество шагов сэмплирования, ReMDM генерирует выходные данные на естественном языке, приближающиеся по качеству к авторегрессивным моделям, тогда как при ограниченном бюджете вычислений ReMDM лучше сохраняет качество. ReMDM также улучшает качество сэмплов маскированных диффузионных моделей для дискретизированных изображений, а в научных областях, таких как дизайн молекул, ReMDM облегчает управление диффузией и расширяет Парето-границу управляемости по сравнению с классическим маскированием и диффузией с равномерным шумом. Мы предоставляем код вместе с блог-постом на странице проекта: https://remdm.github.io.
Графовые базы знаний с богатым текстовым содержанием (TG-KBs) становятся все более важными для ответов на запросы, предоставляя как текстовую, так и структурную информацию. Однако современные методы поиска часто извлекают эти два типа знаний по отдельности, не учитывая их взаимного усиления, а некоторые гибридные методы даже полностью игнорируют структурный поиск после агрегации соседних элементов. Чтобы заполнить этот пробел, мы предлагаем метод Смешанного Структурно-Текстового Поиска (MoR), который извлекает эти два типа знаний с помощью фреймворка Планирование-Рассуждение-Организация. На этапе Планирования MoR генерирует текстовые графы планирования, описывающие логику ответа на запросы. Следуя графам планирования, на этапе Рассуждения MoR объединяет структурный обход и текстовое сопоставление для получения кандидатов из TG-KBs. На этапе Организации MoR дополнительно переранжирует извлеченных кандидатов на основе их структурной траектории. Многочисленные эксперименты демонстрируют превосходство MoR в гармонизации структурного и текстового поиска, включая неравномерную производительность поиска для различных логик запросов и преимущества интеграции структурных траекторий для переранжирования кандидатов. Наш код доступен по адресу https://github.com/Yoega/MoR.
Оценка качества на уровне слов (QE) выявляет ошибочные фрагменты в машинных переводах, что может направлять и облегчать процесс постредактирования человеком. Хотя точность систем QE на уровне слов была тщательно изучена, их практическая применимость и влияние на скорость, качество и выбор редакторских правок в процессе постредактирования остаются недостаточно исследованными. Наше исследование QE4PE изучает влияние QE на уровне слов на постредактирование машинного перевода (MT) в реалистичных условиях с участием 42 профессиональных редакторов для двух направлений перевода. Мы сравниваем четыре способа выделения ошибочных фрагментов, включая методы QE на основе контролируемого обучения и неопределенности, для выявления потенциальных ошибок в выводах современной нейронной модели MT. Усилия и производительность постредактирования оцениваются с помощью анализа поведенческих логов, а улучшения качества — с помощью аннотирования на уровне слов и сегментов. Мы обнаруживаем, что предметная область, язык и скорость работы редакторов являются ключевыми факторами, определяющими эффективность выделения ошибок, при этом скромные различия между выделениями, сделанными человеком и автоматизированными системами QE, подчеркивают разрыв между точностью и применимостью в профессиональных рабочих процессах.
Диалоговые помощники часто требуют алгоритма переформулирования вопросов, который использует подмножество прошлых взаимодействий для предоставления более содержательного (точного) ответа на вопрос или запрос пользователя. Однако конкретный подход к переформулированию часто может зависеть от варианта использования и задач, специфичных для приложения, поддерживаемого диалоговым помощником, а также от других ограничений. В данной работе мы систематически исследуем два различных подхода, обозначенных как переформулирование и слияние, на двух принципиально разных задачах генерации, включая задачу генерации текста на основе текста и мультимодальную задачу генерации, которая принимает на вход текст и создает визуализацию или таблицу данных, отвечающую на вопрос пользователя. Наши результаты показывают, что выбор конкретного подхода к переформулированию или слиянию сильно зависит от базового варианта использования и задачи генерации. В частности, мы обнаруживаем, что для диалогового помощника, отвечающего на вопросы, подход к переформулированию запроса работает лучше всего, тогда как для помощника по анализу данных, который генерирует визуализации и таблицы данных на основе диалога пользователя с помощником, лучше всего подходит подход слияния. Примечательно, что мы исследуем два набора данных для варианта использования помощника по анализу данных — для коротких и длинных диалогов — и обнаруживаем, что слияние запросов всегда работает лучше, тогда как для текстового диалогового помощника, отвечающего на вопросы, подход к переформулированию запроса оказывается наиболее эффективным.
Обучение работе с инструментами направлено на расширение возможностей больших языковых моделей (LLM) за счет использования разнообразных инструментов, позволяя им выступать в роли агентов для решения практических задач. Из-за ограниченной длины контекста LLM, использующих инструменты, применение моделей информационного поиска (IR) для выбора полезных инструментов из больших наборов является критически важным начальным шагом. Однако производительность моделей IR в задачах поиска инструментов остается недостаточно изученной и неясной. Большинство бенчмарков по использованию инструментов упрощают этот этап, вручную предварительно аннотируя небольшой набор релевантных инструментов для каждой задачи, что далеко от реальных сценариев. В данной статье мы предлагаем ToolRet — гетерогенный бенчмарк для поиска инструментов, включающий 7,6 тыс. разнообразных задач поиска и корпус из 43 тыс. инструментов, собранных из существующих наборов данных. Мы тестируем шесть типов моделей на ToolRet. Удивительно, но даже модели, демонстрирующие высокую производительность в традиционных бенчмарках IR, показывают низкие результаты на ToolRet. Такое низкое качество поиска снижает успешность выполнения задач LLM, использующих инструменты. В качестве дальнейшего шага мы представляем крупномасштабный обучающий набор данных с более чем 200 тыс. примеров, который существенно оптимизирует способность моделей IR к поиску инструментов.
Последние достижения в области роботизированного манипулирования были обусловлены использованием крупномасштабных наборов данных, собранных в различных средах. Традиционно обучение политик роботизированного манипулирования на этих данных проводится централизованно, что вызывает опасения относительно масштабируемости, адаптивности и конфиденциальности данных. Хотя федеративное обучение позволяет проводить децентрализованное обучение с сохранением конфиденциальности, его применение в области роботизированного манипулирования остается малоизученным. Мы представляем FLAME (Federated Learning Across Manipulation Environments) — первый бенчмарк, разработанный для федеративного обучения в роботизированном манипулировании. FLAME включает: (i) набор крупномасштабных данных, содержащих более 160 000 экспертных демонстраций выполнения различных задач манипулирования, собранных в широком спектре симулированных сред; (ii) фреймворк для обучения и оценки политик роботов в условиях федеративного обучения. Мы оцениваем стандартные алгоритмы федеративного обучения в FLAME, демонстрируя их потенциал для распределенного обучения политик и выделяя ключевые проблемы. Наш бенчмарк закладывает основу для масштабируемого, адаптивного и учитывающего конфиденциальность обучения роботов.
Последние достижения в области генеративного искусственного интеллекта привели к широкому распространению больших языковых моделей (LLM) в разработке программного обеспечения, что позволило решить множество давних проблем. Однако всестороннее исследование, изучающее возможности LLM в обнаружении уязвимостей программного обеспечения (SVD), являющемся ключевым аспектом безопасности ПО, на данный момент отсутствует. Существующие исследования в основном сосредоточены на оценке LLM с использованием наборов данных на C/C++ и обычно исследуют лишь одну или две стратегии среди инженерии промптов, настройки инструкций и тонкой настройки классификации последовательностей для открытых LLM. В результате существует значительный пробел в знаниях относительно эффективности различных LLM в обнаружении уязвимостей в различных языках программирования. Чтобы устранить этот пробел, мы представляем всестороннее эмпирическое исследование, оценивающее производительность LLM в задаче SVD. Мы собрали обширный набор данных, включающий 8 260 уязвимых функций на Python, 7 505 на Java и 28 983 на JavaScript. Мы оцениваем пять открытых LLM с использованием нескольких подходов, включая инженерию промптов, настройку инструкций и тонкую настройку классификации последовательностей. Эти LLM сравниваются с пятью тонко настроенными небольшими языковыми моделями и двумя открытыми инструментами статического тестирования безопасности приложений. Кроме того, мы исследуем два пути для улучшения производительности LLM в SVD: а) С точки зрения данных: повторное обучение моделей с использованием сбалансированных наборов данных, подвергнутых даунсэмплингу. б) С точки зрения модели: изучение методов ансамблевого обучения, объединяющих предсказания нескольких LLM. Наши всесторонние эксперименты показывают, что SVD остается сложной задачей для LLM. Это исследование предоставляет глубокое понимание роли LLM в SVD и предлагает практические рекомендации для будущих достижений в использовании генеративного ИИ для улучшения практик обеспечения безопасности программного обеспечения.
Координация множества агентов имеет решающее значение для надежной навигации нескольких роботов в общих пространствах, таких как автоматизированные склады. В зонах с высокой плотностью движения роботов локальные методы координации могут не найти решения, свободного от тупиков. В таких сценариях целесообразно поручить центральному модулю создание глобального расписания, определяющего порядок прохождения роботов. Однако время выполнения таких централизованных методов координации значительно возрастает с увеличением масштаба задачи. В данной статье мы предлагаем использовать Графовые Нейронные Сети с Вариационными Автокодировщиками (GNN-VAE) для решения задачи координации множества агентов в масштабе быстрее, чем с помощью централизованной оптимизации. Мы формулируем задачу координации как графовую проблему и собираем эталонные данные с использованием решателя смешанного целочисленного линейного программирования (MILP). В процессе обучения наша обучающая структура кодирует качественные решения графовой проблемы в латентное пространство. На этапе вывода образцы решений декодируются из выбранных латентных переменных, и выбирается образец с наименьшей стоимостью для координации. Наконец, для развертывания выбирается выполнимое предложение с наивысшим индексом производительности. По своей конструкции наша структура GNN-VAE возвращает решения, которые всегда учитывают ограничения рассматриваемой задачи координации. Численные результаты показывают, что наш подход, обученный на задачах малого масштаба, может достигать высококачественных решений даже для задач крупного масштаба с 250 роботами, значительно превосходя по скорости другие базовые методы. Страница проекта: https://mengyuest.github.io/gnn-vae-coord
Создание реалистичных симуляций имеет критически важное значение для приложений автономных систем, таких как беспилотное вождение и взаимодействие человека с роботами. Однако современные симуляторы вождения по-прежнему сталкиваются с трудностями в генерации управляемых, разнообразных и соответствующих правилам поведений участников дорожного движения: модели на основе правил не способны создавать разнообразные поведения и требуют тщательной настройки, тогда как методы, основанные на обучении, имитируют политику из данных, но не предназначены для явного следования правилам. Кроме того, реальные наборы данных по своей природе являются "однорезультатными", что затрудняет генерацию разнообразных поведений с помощью методов обучения. В данной работе мы используем сигнальную временную логику (STL) и диффузионные модели для обучения управляемой, разнообразной и учитывающей правила политики. Сначала мы калибруем STL на реальных данных, затем генерируем разнообразные синтетические данные с помощью оптимизации траекторий и, наконец, обучаем скорректированную диффузионную политику на расширенном наборе данных. Мы тестируем на наборе данных NuScenes, и наш подход позволяет достичь наиболее разнообразных траекторий, соответствующих правилам, по сравнению с другими базовыми методами, при этом время выполнения составляет 1/17 от времени второго лучшего подхода. В тестировании с замкнутым циклом наш подход демонстрирует наивысшее разнообразие, уровень соблюдения правил и наименьший уровень столкновений. Наш метод может генерировать различные характеристики в зависимости от различных параметров STL в тестировании. Исследование на примере сценариев взаимодействия человека и робота показывает, что наш подход способен генерировать разнообразные траектории, близкие к эталонным. Инструмент для аннотирования, расширенный набор данных и код доступны по адресу https://github.com/mengyuest/pSTL-diffusion-policy.
В данной статье представлен CognitiveDrone — новая модель Vision-Language-Action (VLA), разработанная для выполнения сложных задач беспилотных летательных аппаратов (БПЛА), требующих продвинутых когнитивных способностей. Модель обучена на наборе данных, включающем более 8000 смоделированных траекторий полёта по трём ключевым категориям: распознавание людей, понимание символов и логическое рассуждение. Она генерирует 4D-команды в реальном времени на основе визуальных данных от первого лица и текстовых инструкций. Для повышения производительности в сложных сценариях мы предлагаем CognitiveDrone-R1, который интегрирует дополнительный модуль рассуждений Vision-Language Model (VLM) для упрощения задач перед высокочастотным управлением. Экспериментальные оценки с использованием нашего открытого бенчмарка CognitiveDroneBench показывают, что, хотя модель, ориентированная на гонки (RaceVLA), достигает общего уровня успешности 31,3%, базовая модель CognitiveDrone демонстрирует результат 59,6%, а CognitiveDrone-R1 достигает уровня успешности 77,2%. Эти результаты свидетельствуют об улучшении до 30% в критически важных когнитивных задачах, подчеркивая эффективность внедрения продвинутых возможностей рассуждения в системы управления БПЛА. Наш вклад включает разработку передовой модели VLA для управления БПЛА и создание первого специализированного бенчмарка для оценки когнитивных задач в операциях с дронами. Полный репозиторий доступен по адресу cognitivedrone.github.io.
В Швейцарии юридический перевод имеет особое значение из-за четырех официальных языков страны и требований к многоязычной юридической документации. Однако этот процесс традиционно зависит от профессионалов, которые должны быть одновременно экспертами в области права и квалифицированными переводчиками, что создает узкие места и влияет на эффективный доступ к правосудию. Для решения этой проблемы мы представляем SwiLTra-Bench — всеобъемлющий многоязычный бенчмарк, содержащий более 180 тысяч пар выровненных швейцарских юридических переводов, включающих законы, заголовки и пресс-релизы на всех швейцарских языках, а также на английском, предназначенный для оценки систем перевода на основе языковых моделей (LLM). Наше систематическое исследование показывает, что передовые модели достигают превосходных результатов в переводе всех типов документов, тогда как специализированные системы перевода особенно хорошо справляются с законами, но уступают в переводе заголовков. Благодаря тщательному тестированию и проверке экспертами мы демонстрируем, что, хотя тонкая настройка открытых SLM значительно улучшает качество их перевода, они все же отстают от лучших моделей, таких как Claude-3.5-Sonnet, работающих в режиме zero-shot. Кроме того, мы представляем SwiLTra-Judge — специализированную систему оценки LLM, которая лучше всего соответствует оценкам экспертов-людей.
Автономные транспортные средства (AV) вышли на этап коммерциализации, однако их ограниченная способность взаимодействовать и выражать намерения по-прежнему создает трудности во взаимодействии с транспортными средствами, управляемыми человеком (HV). Последние достижения в области больших языковых моделей (LLM) позволяют осуществлять двустороннюю коммуникацию между человеком и машиной, но конфликт между медленной скоростью вывода и необходимостью принятия решений в реальном времени затрудняет практическое внедрение. Для решения этих проблем в данной статье представлена параллельная структура Actor-Reasoner, предназначенная для обеспечения явного двустороннего взаимодействия AV-HV в различных сценариях. Во-первых, путем облегчения взаимодействия между Reasoner, управляемым LLM, и разнородными симулированными HV в процессе обучения, создается база данных взаимодействий, называемая Actor. Затем, благодаря введению модуля разделения памяти и модуля двухуровневого извлечения памяти, значительно повышается способность Actor обрабатывать разнородные HV. Абляционные исследования и сравнения с другими методами принятия решений демонстрируют, что предложенная структура Actor-Reasoner существенно улучшает безопасность и эффективность. Наконец, с учетом комбинации информации внешнего интерфейса "человек-машина" (eHMI), полученной из рассуждений Reasoner, и возможных решений действий, извлеченных из Actor, подтверждается эффективность предложенной структуры Actor-Reasoner в полевых взаимодействиях в различных сценариях. Наш код доступен по адресу https://github.com/FanGShiYuu/Actor-Reasoner.