Graph2Eval: 지식 그래프를 통한 에이전트를 위한 자동 다중모달 작업 생성
Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs
October 1, 2025
저자: Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang
cs.AI
초록
멀티모달 LLM 기반 에이전트가 자율성과 일반화 능력에서 계속 발전함에 따라, 정적 데이터셋 기반 평가는 동적 환경과 다양한 작업에서의 진정한 역량을 적절히 평가하기에 더 이상 충분하지 않습니다. 기존의 LLM 기반 합성 데이터 방법은 주로 LLM 훈련과 평가를 위해 설계되었으며, 따라서 도구 사용과 상호작용 능력이 필요한 에이전트 작업에 직접 적용할 수 없습니다. 최근 연구에서 LLM을 이용한 자동 에이전트 작업 생성을 탐구했지만, 대부분의 노력은 텍스트나 이미지 분석에 국한되어 있으며, 웹 환경에서의 다단계 상호작용을 체계적으로 모델링하지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 Graph2Eval을 제안합니다. 이는 지식 그래프 기반 프레임워크로, 멀티모달 문서 이해 작업과 웹 상호작용 작업을 자동으로 생성하여 에이전트의 추론, 협업, 상호작용 능력을 포괄적으로 평가할 수 있게 합니다. 우리의 접근 방식에서는 다중 소스 외부 데이터로부터 구축된 지식 그래프가 작업 공간으로 사용되며, 서브그래프 샘플링, 작업 템플릿, 메타 경로를 통해 의미 관계를 구조화된 멀티모달 작업으로 변환합니다. 노드 도달 가능성, LLM 점수화, 유사성 분석을 기반으로 한 다단계 필터링 파이프라인을 적용하여 생성된 작업의 품질과 실행 가능성을 보장합니다. 또한, Graph2Eval은 단일 에이전트, 다중 에이전트, 웹 에이전트와 같은 다양한 에이전트 유형에 대한 종단 간 평가를 지원하며, 추론, 협업, 상호작용 능력을 측정합니다. 우리는 이 프레임워크를 Graph2Eval-Bench로 구체화했는데, 이는 문서 이해와 웹 상호작용 시나리오를 아우르는 1,319개의 작업으로 구성된 정제된 데이터셋입니다. 실험 결과, Graph2Eval은 에이전트와 모델의 성능을 구분하는 작업을 효율적으로 생성하며, 다양한 설정에서의 추론, 협업, 웹 상호작용 격차를 드러내고 에이전트 평가에 대한 새로운 관점을 제공합니다.
English
As multimodal LLM-driven agents continue to advance in autonomy and
generalization, evaluation based on static datasets can no longer adequately
assess their true capabilities in dynamic environments and diverse tasks.
Existing LLM-based synthetic data methods are largely designed for LLM training
and evaluation, and thus cannot be directly applied to agent tasks that require
tool use and interactive capabilities. While recent studies have explored
automatic agent task generation with LLMs, most efforts remain limited to text
or image analysis, without systematically modeling multi-step interactions in
web environments. To address these challenges, we propose Graph2Eval, a
knowledge graph-based framework that automatically generates both multimodal
document comprehension tasks and web interaction tasks, enabling comprehensive
evaluation of agents' reasoning, collaboration, and interactive capabilities.
In our approach, knowledge graphs constructed from multi-source external data
serve as the task space, where we translate semantic relations into structured
multimodal tasks using subgraph sampling, task templates, and meta-paths. A
multi-stage filtering pipeline based on node reachability, LLM scoring, and
similarity analysis is applied to guarantee the quality and executability of
the generated tasks. Furthermore, Graph2Eval supports end-to-end evaluation of
multiple agent types (Single-Agent, Multi-Agent, Web Agent) and measures
reasoning, collaboration, and interaction capabilities. We instantiate the
framework with Graph2Eval-Bench, a curated dataset of 1,319 tasks spanning
document comprehension and web interaction scenarios. Experiments show that
Graph2Eval efficiently generates tasks that differentiate agent and model
performance, revealing gaps in reasoning, collaboration, and web interaction
across different settings and offering a new perspective for agent evaluation.