arXiv: 2511.03497v1

ROSBag MCPサーバー:エージェント型エンボディドAIアプリケーションのためのLLMを用いたロボットデータ解析

ROSBag MCP Server: Analyzing Robot Data with LLMs for Agentic Embodied AI Applications

November 5, 2025
著者: Lei Fu, Sahar Salimpour, Leonardo Militano, Harry Edelman, Jorge Peña Queralta, Giovanni Toffetti
cs.ROcs.ROcs.AIcs.SE

要旨

エージェント型AIシステムと物理的または具現化されたAIシステムは、人工知能とロボティクスの最前線における二つの主要な研究分野であり、モデルコンテキストプロトコル(MCP)がエージェント型アプリケーションの重要な構成要素および推進力としてますます注目を集めている。しかし、これらの分野の交差点、すなわちエージェント型具現化AIに関する文献は依然として少ない。本論文では、ROSおよびROS 2バッグを分析するためのMCPサーバーを紹介し、LLM(大規模言語モデル)とVLM(視覚言語モデル)を通じてロボットデータを自然言語で分析、可視化、処理することを可能にする。我々は、ロボティクス領域の知識を活用して構築された特定のツーリングについて説明し、最初のリリースではモバイルロボティクスに焦点を当て、軌跡、レーザースキャンデータ、変換、または時系列データの分析をネイティブでサポートする。これに加えて、標準的なROS 2 CLIツール(「ros2 bag list」や「ros2 bag info」など)へのインターフェースを提供し、特定のトピックのサブセットや時間でトリミングされたバッグをフィルタリングする機能も提供する。MCPサーバーと連携して、軽量なUIを提供し、プロプライエタリ(Anthropic、OpenAI)およびオープンソース(Groq経由)の異なるLLMを用いてツーリングのベンチマークを行うことを可能にする。我々の実験結果には、8つの異なる最先端のLLM/VLMモデル(プロプライエタリおよびオープンソース、大規模および小規模)のツール呼び出し能力の分析が含まれる。実験結果から、ツール呼び出し能力には大きな隔たりがあり、Kimi K2とClaude Sonnet 4が明らかに優れた性能を示すことがわかった。また、ツールの記述スキーマから引数の数、モデルが利用可能なツールの数まで、成功率に影響を与える複数の要因があることも結論づけた。コードは寛容なライセンスでhttps://github.com/binabik-ai/mcp-rosbagsに公開されている。
English
Agentic AI systems and Physical or Embodied AI systems have been two key research verticals at the forefront of Artificial Intelligence and Robotics, with Model Context Protocol (MCP) increasingly becoming a key component and enabler of agentic applications. However, the literature at the intersection of these verticals, i.e., Agentic Embodied AI, remains scarce. This paper introduces an MCP server for analyzing ROS and ROS 2 bags, allowing for analyzing, visualizing and processing robot data with natural language through LLMs and VLMs. We describe specific tooling built with robotics domain knowledge, with our initial release focused on mobile robotics and supporting natively the analysis of trajectories, laser scan data, transforms, or time series data. This is in addition to providing an interface to standard ROS 2 CLI tools ("ros2 bag list" or "ros2 bag info"), as well as the ability to filter bags with a subset of topics or trimmed in time. Coupled with the MCP server, we provide a lightweight UI that allows the benchmarking of the tooling with different LLMs, both proprietary (Anthropic, OpenAI) and open-source (through Groq). Our experimental results include the analysis of tool calling capabilities of eight different state-of-the-art LLM/VLM models, both proprietary and open-source, large and small. Our experiments indicate that there is a large divide in tool calling capabilities, with Kimi K2 and Claude Sonnet 4 demonstrating clearly superior performance. We also conclude that there are multiple factors affecting the success rates, from the tool description schema to the number of arguments, as well as the number of tools available to the models. The code is available with a permissive license at https://github.com/binabik-ai/mcp-rosbags.
PDFNovember 6, 2025