Взаимодействуй, обучай, совершенствуй: параллельная структура "Актор-Рассуждающий" на основе языковых моделей для улучшения взаимодействия автономных транспортных средств
Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions
March 1, 2025
Авторы: Shiyu Fang, Jiaqi Liu, Chengkai Xu, Chen Lv, Peng Hang, Jian Sun
cs.AI
Аннотация
Автономные транспортные средства (AV) вышли на этап коммерциализации, однако их ограниченная способность взаимодействовать и выражать намерения по-прежнему создает трудности во взаимодействии с транспортными средствами, управляемыми человеком (HV). Последние достижения в области больших языковых моделей (LLM) позволяют осуществлять двустороннюю коммуникацию между человеком и машиной, но конфликт между медленной скоростью вывода и необходимостью принятия решений в реальном времени затрудняет практическое внедрение. Для решения этих проблем в данной статье представлена параллельная структура Actor-Reasoner, предназначенная для обеспечения явного двустороннего взаимодействия AV-HV в различных сценариях. Во-первых, путем облегчения взаимодействия между Reasoner, управляемым LLM, и разнородными симулированными HV в процессе обучения, создается база данных взаимодействий, называемая Actor. Затем, благодаря введению модуля разделения памяти и модуля двухуровневого извлечения памяти, значительно повышается способность Actor обрабатывать разнородные HV. Абляционные исследования и сравнения с другими методами принятия решений демонстрируют, что предложенная структура Actor-Reasoner существенно улучшает безопасность и эффективность. Наконец, с учетом комбинации информации внешнего интерфейса "человек-машина" (eHMI), полученной из рассуждений Reasoner, и возможных решений действий, извлеченных из Actor, подтверждается эффективность предложенной структуры Actor-Reasoner в полевых взаимодействиях в различных сценариях. Наш код доступен по адресу https://github.com/FanGShiYuu/Actor-Reasoner.
English
Autonomous Vehicles (AVs) have entered the commercialization stage, but their
limited ability to interact and express intentions still poses challenges in
interactions with Human-driven Vehicles (HVs). Recent advances in large
language models (LLMs) enable bidirectional human-machine communication, but
the conflict between slow inference speed and the need for real-time
decision-making challenges practical deployment. To address these issues, this
paper introduces a parallel Actor-Reasoner framework designed to enable
explicit bidirectional AV-HV interactions across multiple scenarios. First, by
facilitating interactions between the LLM-driven Reasoner and heterogeneous
simulated HVs during training, an interaction memory database, referred to as
the Actor, is established. Then, by introducing the memory partition module and
the two-layer memory retrieval module, the Actor's ability to handle
heterogeneous HVs is significantly enhanced. Ablation studies and comparisons
with other decision-making methods demonstrate that the proposed Actor-Reasoner
framework significantly improves safety and efficiency. Finally, with the
combination of the external Human-Machine Interface (eHMI) information derived
from Reasoner's reasoning and the feasible action solutions retrieved from the
Actor, the effectiveness of the proposed Actor-Reasoner is confirmed in
multi-scenario field interactions. Our code is available at
https://github.com/FanGShiYuu/Actor-Reasoner.Summary
AI-Generated Summary