번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 확장에 관한 연구는 주로 모델 파라미터와 훈련 데이터 크기에 초점을 맞추어 왔으며, 어휘 크기의 역할은 간과되어 왔습니다. 직관적으로 더 큰 어휘는 문장을 더 적은 토큰으로 표현함으로써 토큰화를 더 효율적으로 만들지만, 희귀 토큰에 대한 표현의 과소적합 위험도 증가시킵니다. 우리는 다양한 어휘 구성을 사용하여 33M에서 3B 파라미터 범위의 모델을 최대 500B 문자로 훈련시켜 어휘 크기가 LLM 확장 법칙에 미치는 영향을 조사했습니다. 계산 최적의 어휘 크기를 예측하기 위해 세 가지 상호 보완적인 접근 방식을 제안합니다: IsoFLOPs 분석, 미분 추정, 그리고 손실 함수의 파라미터 적합입니다. 우리의 접근 방식은 동일한 결과로 수렴하는데, 최적의 어휘 크기는 사용 가능한 계산 예산에 의존하며 더 큰 모델은 더 큰 어휘를 필요로 한다는 것입니다. 그러나 대부분의 LLM은 너무 작은 어휘 크기를 사용하고 있습니다. 예를 들어, 우리는 Llama2-70B의 최적 어휘 크기가 32K의 어휘 크기보다 7배 큰 216K 이상이어야 한다고 예측합니다. 우리는 3B 파라미터 모델을 다양한 FLOPs 예산으로 훈련시켜 이러한 예측을 실증적으로 검증합니다. 우리가 예측한 최적 어휘 크기를 채택하면 일반적으로 사용되는 어휘 크기보다 하류 작업 성능이 일관되게 향상됩니다. 기존의 32K에서 43K로 어휘 크기를 증가시킴으로써, 동일한 2.3e21 FLOPs로 ARC-Challenge에서의 성능을 29.1에서 32.0으로 향상시킵니다. 우리의 연구는 효율적인 확장을 위해 모델 파라미터와 어휘 크기를 함께 고려할 필요성을 강조합니다.
훈련 데이터의 양과 파라미터 수에 대한 스케일링 법칙은 다양한 구성에서 언어 모델(LM)을 사전 학습할 때의 비용-효익 트레이드오프를 예측할 수 있게 해줍니다. 본 논문에서는 스케일링의 또 다른 차원인 추론 시점에 사용 가능한 데이터의 양을 고려합니다. 구체적으로, 검색 기반 LM에서 사용하는 데이터 저장소의 크기를 늘리면 언어 모델링과 여러 다운스트림 작업에서 포화 현상 없이 단조롭게 성능이 향상되며, 이는 더 작은 모델이 대규모 데이터 저장소와 결합되었을 때 지식 집약적 작업에서 더 큰 LM 단독 모델을 능가할 수 있음을 보여줍니다. 데이터 저장소, 모델, 사전 학습 데이터 크기를 다양하게 조정하여 계산 최적의 스케일링 곡선을 그려봄으로써, 동일한 훈련 계산 예산 내에서 더 큰 데이터 저장소를 사용하면 모델 성능이 크게 향상될 수 있음을 입증합니다. 우리는 이 연구를 위해 MassiveDS라는 1.4조 토큰 규모의 데이터 저장소를 구축했으며, 이는 현재까지 공개된 검색 기반 LM용 데이터 저장소 중 가장 크고 다양성을 갖춘 것입니다. 또한, 계산적으로 접근 가능한 방식으로 데이터 저장소 스케일링을 연구하기 위한 효율적인 파이프라인을 설계했습니다. 마지막으로, 검색기(retriever) 개선, 데이터 저장소 품질 필터링 및 기타 설계 선택이 관찰된 스케일링 경향에 미치는 영향을 분석합니다. 전반적으로, 우리의 결과는 데이터 저장소 크기가 LM의 효율성과 성능 트레이드오프의 핵심 요소로 고려되어야 함을 보여줍니다. 향후 연구를 촉진하기 위해, 우리는 데이터 저장소와 코드를 https://github.com/RulinShao/retrieval-scaling에서 공개합니다.
단안 동적 재구성은 문제의 고도로 불안정한 특성으로 인해 오랜 기간 도전적인 과제로 여겨져 온 컴퓨터 비전 문제입니다. 기존 접근법들은 템플릿에 의존하거나 준정적 장면에서만 효과적이거나, 3D 모션을 명시적으로 모델링하지 못하는 등의 한계를 가지고 있습니다. 본 연구에서는 일반적인 동적 장면을 재구성할 수 있는 방법을 제안하며, 이 방법은 캐주얼하게 촬영된 단안 비디오에서 명시적이고 전체 시퀀스에 걸친 3D 모션을 특징으로 합니다. 우리는 이 문제의 과소구속적 특성을 두 가지 핵심 통찰을 통해 해결합니다: 첫째, 3D 모션의 저차원 구조를 활용하여 장면 모션을 SE3 모션 기저의 간결한 집합으로 표현합니다. 각 점의 모션은 이러한 기저의 선형 결합으로 표현되며, 이를 통해 장면을 여러 강체 운동 그룹으로 소프트하게 분해할 수 있습니다. 둘째, 단안 깊이 맵과 장거리 2D 트랙을 포함한 포괄적인 데이터 기반 사전 정보를 활용하고, 이러한 노이즈가 포함된 감독 신호를 효과적으로 통합하는 방법을 고안하여 동적 장면의 전역적으로 일관된 표현을 얻습니다. 실험 결과, 우리의 방법은 동적 장면에서의 장거리 3D/2D 모션 추정과 새로운 시점 합성 모두에서 최첨단 성능을 달성함을 보여줍니다. 프로젝트 페이지: https://shape-of-motion.github.io/
본 논문은 최대 128K 토큰의 효과적인 컨텍스트 윈도우를 지원하는 장문 컨텍스트 Granite 코드 모델을 소개합니다. Granite 3B/8B 코드 모델의 컨텍스트 길이를 2K/4K에서 128K로 확장하기 위한 우리의 솔루션은, 저장소 수준의 파일 패킹과 길이 업샘플링된 장문 컨텍스트 데이터를 사용하여 RoPE 베이스 주파수를 점진적으로 증가시키는 경량의 지속적 사전 학습으로 구성됩니다. 또한, 우리는 장문 컨텍스트를 지원하는 인스트럭션 튜닝 모델도 공개하며, 이는 장문 컨텍스트 기본 모델을 허가된 라이선스의 짧은 및 장문 컨텍스트 인스트럭션-응답 쌍으로 추가 미세 조정하여 파생되었습니다. 기존의 짧은 컨텍스트 Granite 코드 모델과 비교했을 때, 우리의 장문 컨텍스트 모델은 일반 코드 완성 벤치마크(예: HumanEval)에서의 성능 저하 없이 장문 컨텍스트 작업에서 상당한 개선을 달성했습니다. 우리는 모든 장문 컨텍스트 Granite 코드 모델을 연구 및 상업적 사용을 위해 Apache 2.0 라이선스 하에 공개합니다.
우리는 실시간으로 합성된 도시 규모의 장면을 통해 길거리 풍경(Streetscapes)의 긴 시퀀스 뷰를 생성하는 방법을 제시합니다. 우리의 생성은 언어 입력(예: 도시 이름, 날씨)과 원하는 경로를 담고 있는 기본 지도/레이아웃에 의해 조건화됩니다. 최근의 비디오 생성 또는 3D 뷰 합성 모델과 비교할 때, 우리의 방법은 시각적 품질과 일관성을 유지하면서 여러 도시 블록에 걸친 훨씬 더 긴 범위의 카메라 궤적로 확장할 수 있습니다. 이를 달성하기 위해, 우리는 긴 시퀀스로 쉽게 확장할 수 있는 자기회귀 프레임워크 내에서 사용되는 비디오 확산( video diffusion)에 대한 최근 연구를 기반으로 합니다. 특히, 우리는 자기회귀 접근 방식이 현실적인 도시 이미지 분포에서 벗어나는 것을 방지하는 새로운 시간적 보간(temporal imputation) 방법을 도입합니다. 우리는 Streetscapes 시스템을 Google Street View의 포즈된 이미지와 맥락적 지도 데이터라는 매력적인 데이터 소스로 학습시켜, 사용자가 원하는 도시 레이아웃과 제어 가능한 카메라 포즈에 따라 도시 뷰를 생성할 수 있도록 합니다. 더 많은 결과는 프로젝트 페이지(https://boyangdeng.com/streetscapes)에서 확인하실 수 있습니다.
직접 선호 최적화(Direct Preference Optimization, DPO)는 대규모 언어 모델(LLMs)의 지시 미세 조정을 위해 널리 사용되는 훈련 방법으로 자리 잡았습니다. 본 연구에서는 DPO의 잘 탐구되지 않은 측면, 즉 참조 모델 또는 정책에 대한 의존성을 탐구합니다. 일반적으로 추가로 미세 조정될 모델로 구현되는 이러한 참조 정책은 DPO의 효과성에 상한선을 부과할 수 있기 때문에 중요합니다. 따라서 본 연구에서는 세 가지 관련 연구 질문을 다룹니다. 먼저, 참조 정책에서의 편차를 벌칙화하는 KL-발산(KL-divergence) 제약의 최적 강도를 탐구하며, DPO가 이 강도에 민감함을 발견했습니다. 다음으로, 지시 미세 조정을 위한 참조 정책의 필요성을 이론적 및 실증적 비교를 통해 검토하고, DPO의 우수성을 입증했습니다. 또한, DPO가 더 강력한 참조 정책으로부터 이점을 얻는지 조사한 결과, 더 강력한 참조 정책이 성능 향상으로 이어질 수 있지만, 이는 미세 조정 중인 모델과 유사할 때만 가능함을 발견했습니다. 본 연구 결과는 DPO에서 참조 정책의 혼란스러운 역할을 강조하고, 모범 사례에 대한 통찰을 제공하며, 향후 연구를 위한 개방형 연구 질문을 식별합니다.
다양한 작업에서 뛰어난 성능을 보이는 다중모달 대형 언어 모델(MLLMs)에도 불구하고, 여전히 신뢰성과 관련된 상당한 과제들이 존재합니다. 그러나 현재까지 신뢰할 수 있는 MLLMs를 평가하는 문헌은 제한적이며, 향후 개선을 위한 포괄적인 통찰을 제공하는 종합적인 평가가 부족한 실정입니다. 본 연구에서는 다섯 가지 주요 측면(진실성, 안전성, 견고성, 공정성, 프라이버시)에 걸쳐 MLLMs의 신뢰성을 평가하는 최초의 포괄적이고 통합된 벤치마크인 MultiTrust를 구축했습니다. 우리의 벤치마크는 다중모달 리스크와 교차모달 영향을 모두 고려한 엄격한 평가 전략을 채택하며, 자체 구축한 데이터셋을 기반으로 32가지 다양한 작업을 포함합니다. 21개의 현대적 MLLMs를 대상으로 한 광범위한 실험을 통해 이전에 탐구되지 않았던 신뢰성 문제와 리스크를 발견했으며, 다중모달성으로 인해 발생하는 복잡성을 강조하고 신뢰성을 향상시키기 위한 고급 방법론의 필요성을 확인했습니다. 예를 들어, 일반적인 상용 모델들은 시각적으로 혼란스러운 이미지를 인식하는 데 어려움을 겪으며, 다중모탈 탈옥 및 적대적 공격에 취약합니다. 또한, MLLMs는 텍스트에서 프라이버시를 노출시키는 경향이 더 크고, 추론 과정에서 관련 없는 이미지와 결합된 경우에도 이데올로기적 및 문화적 편향을 드러내는데, 이는 다중모달성이 기본 LLMs의 내재적 리스크를 증폭시킨다는 것을 시사합니다. 추가적으로, 우리는 표준화된 신뢰성 연구를 촉진하기 위해 확장 가능한 툴박스를 공개하여, 이 중요한 분야의 미래 발전을 지원하고자 합니다. 코드와 리소스는 https://multi-trust.github.io/에서 공개되어 있습니다.
디지털 창작의 영역에서, 우리가 상상 속의 복잡한 3D 세계를 구축하려는 잠재력은 종종 기존 디지털 도구의 한계로 인해 제약을 받습니다. 이러한 도구들은 광범위한 전문 지식과 노력을 요구하기 때문입니다. 이러한 격차를 줄이기 위해, 우리는 인간의 상상력을 복잡한 3D 디지털 구조물로 손쉽게 변환하도록 설계된 3D 기하학 및 재질 생성기인 CLAY를 소개합니다. CLAY는 전통적인 텍스트나 이미지 입력뿐만 아니라 다양한 기본 요소(다중 뷰 이미지, 복셀, 바운딩 박스, 포인트 클라우드, 암시적 표현 등)로부터의 3D 인식 컨트롤을 지원합니다. 그 핵심에는 다양한 3D 기하학에서 직접 풍부한 3D 사전 정보를 추출하기 위해 다중 해상도 변이형 오토인코더(VAE)와 최소한의 잠재 디퓨전 트랜스포머(DiT)로 구성된 대규모 생성 모델이 있습니다. 구체적으로, CLAY는 연속적이고 완전한 표면을 표현하기 위해 신경 필드를 채택하고, 잠재 공간에서 순수 트랜스포머 블록으로 구성된 기하학 생성 모듈을 사용합니다. 우리는 신중하게 설계된 처리 파이프라인을 통해 얻은 초대형 3D 모델 데이터셋에서 CLAY를 훈련시키기 위한 점진적인 훈련 방식을 제시하며, 이는 15억 개의 매개변수를 가진 3D 네이티브 기하학 생성기를 만들어냅니다. 외관 생성의 경우, CLAY는 물리 기반 렌더링(PBR) 텍스처를 생성하기 위해 다중 뷰 재질 디퓨전 모델을 사용하며, 이 모델은 확산, 거칠기, 금속성 모달리티를 포함한 2K 해상도의 텍스처를 생성할 수 있습니다. 우리는 스케치 같은 개념적 디자인부터 정교한 디테일을 가진 프로덕션 준비 자산에 이르기까지 다양한 제어 가능한 3D 자산 생성에 CLAY를 사용하는 것을 보여줍니다. 처음 사용하는 사용자조차도 CLAY를 쉽게 사용하여 생생한 3D 상상력을 현실로 만들어내며 무한한 창의력을 발휘할 수 있습니다.
대형 언어 모델(LLM)은 프롬프트에 나열된 항목에서 누락된 요소를 제안할 수 있으며, 이는 목록 완성 또는 사용자 기록 기반 추천에 활용될 수 있습니다. 그러나 너무 많은 항목이 제시되면 성능이 저하되며, 입력 목록에 이미 포함된 항목을 다시 제안하기 시작합니다. 이 현상은 2024년 중반 기준 플래그십 LLM의 경우 약 100개 항목에서 발생합니다. 우리는 이 현상을 합성 문제(예: 섞인 정수 범위에서 누락된 숫자 찾기)와 현실적인 영화 추천 시나리오에서 평가합니다. 이를 '주의력 오버플로(attention overflow)'라고 부르는데, 반복을 방지하려면 모든 항목에 동시에 주의를 기울여야 하기 때문입니다. 반복 루프를 통해 이 문제를 완화할 수 있지만, 그 비용은 반복률에 따라 증가하며, 이는 언어 모델이 긴 입력에서 새로움을 도출하는 능력에 영향을 미칩니다.
기존의 검색 벤치마크는 주로 정보 탐색 쿼리(예: 검색 엔진에서 수집된 질문들)로 구성되어 있으며, 이 경우 키워드 또는 의미 기반 검색이 일반적으로 충분합니다. 그러나 복잡한 현실 세계의 쿼리 중 많은 부분은 표면적인 형태 매칭을 넘어서는 심층적인 추론이 필요한 경우가 많습니다. 예를 들어, 코딩 질문에 대한 문서를 찾기 위해서는 관련 함수의 논리와 구문을 이해해야 합니다. 이러한 도전적인 쿼리에 대한 검색 성능을 더 잘 평가하기 위해, 우리는 관련 문서를 검색하는 데 집중적인 추론이 필요한 최초의 텍스트 검색 벤치마크인 BRIGHT를 소개합니다. BRIGHT는 경제학, 심리학, 로보틱스, 소프트웨어 공학, 지구과학 등 다양한 분야에서 수집된 1,398개의 실제 쿼리로 구성되었으며, 이는 자연스럽게 발생하거나 신중하게 선별된 인간 데이터에서 가져온 것입니다. 광범위한 평가 결과, 최첨단 검색 모델들조차 BRIGHT에서 낮은 성능을 보이는 것으로 나타났습니다. MTEB 리더보드에서 선두를 달리고 있는 모델[38]은 59.0의 nDCG@10 점수를 기록했지만, BRIGHT에서는 nDCG@10 점수가 18.0에 그쳤습니다. 우리는 또한 대형 언어 모델(LLM)이 생성한 Chain-of-Thought 추론을 쿼리에 추가함으로써 성능을 최대 12.2점까지 향상시킬 수 있음을 보여줍니다. 더욱이, BRIGHT는 벤치마크 모델의 사전 학습 중 데이터 누출에 대해 강건한데, 이는 벤치마크의 문서가 훈련 데이터에 포함된 경우에도 유사한 성능을 보이는 것으로 검증되었습니다. 우리는 BRIGHT가 더 현실적이고 도전적인 환경에서의 검색 시스템 연구를 위한 길을 열어줄 것이라고 믿습니다. 우리의 코드와 데이터는 https://brightbenchmark.github.io에서 확인할 수 있습니다.
현대 프로세서 설계의 복잡성 증가와 높은 비용으로 인해 프로세서 설계 자동화에 대한 수요가 급증하고 있습니다. 명령어 튜닝된 대형 언어 모델(LLMs)은 Python과 같은 범용 프로그래밍 언어에 대한 코드 자동 생성에서 뛰어난 성능을 보여왔습니다. 그러나 Verilog와 같은 하드웨어 기술 언어(HDLs)에서는 고품질 명령어 튜닝 데이터의 부족으로 인해 GPT-3.5와 같은 고급 LLMs도 Verilog 생성에 제한된 성능을 보입니다. 이 문제에 대해 우리는 (1) 실제 세계에서 수집된 Verilog 코드가 LLMs가 생성한 코드보다 더 높은 품질을 가진다는 점과 (2) GPT-3.5와 같은 LLMs가 Verilog 코드를 생성하는 것보다 요약하는 데 더 뛰어나다는 점을 관찰했습니다. 이러한 관찰을 바탕으로, 본 논문은 오픈소스 명령어 튜닝 Verilog 생성 LLMs인 CodeV 시리즈를 소개합니다. 고급 LLMs로 먼저 설명을 생성한 후 해당 코드를 얻는 대신, Verilog 코드를 LLM에 입력하고 다단계 요약을 통해 해당 자연어 설명을 생성하도록 합니다. 실험 결과, CodeV는 이전 오픈소스 SOTA인 BetterV(VerilogEval 기준)와 RTLCoder(RTLLM 기준)를 각각 14.4%와 11.3% 상대적으로 능가하며, VerilogEval에서 이전 상용 SOTA인 GPT-4를 22.1% 상대적으로 능가하는 성능을 보였습니다.
언어 모델링 분야에서 검색 컴포넌트가 추가된 모델들은 자연어 처리(NLP) 분야에서 직면한 여러 과제, 즉 지식 기반 구축, 해석 가능성, 확장성 등을 해결하기 위한 유망한 솔루션으로 부상했습니다. NLP에 주로 초점이 맞춰져 있음에도 불구하고, 우리는 검색 강화 패러다임이 컴퓨터 비전, 시계열 예측, 계산 생물학 등과 같은 더 넓은 범위의 기계 학습(ML) 분야로 확장될 수 있다고 주장합니다. 따라서 본 연구는 다양한 ML 도메인의 문헌을 일관된 표기법으로 종합하여 현재 문헌에서 누락된 검색 강화 기계 학습(Retrieval-Enhanced Machine Learning, REML) 패러다임의 공식적인 프레임워크를 소개합니다. 또한, 많은 연구들이 모델을 강화하기 위해 검색 컴포넌트를 사용하고 있지만, 기초 정보 검색(Information Retrieval, IR) 연구와의 통합이 부족하다는 점을 발견했습니다. 우리는 REML 프레임워크를 구성하는 각 컴포넌트를 조사함으로써 선구적인 IR 연구와 현대적인 REML 연구 간의 격차를 메웁니다. 궁극적으로, 본 연구의 목표는 다양한 학문 분야의 연구자들에게 검색 강화 모델에 대한 포괄적이고 공식적으로 구조화된 프레임워크를 제공함으로써 학제 간 미래 연구를 촉진하는 것입니다.
최근 언어 모델(Language Models, LMs)의 발전은 이러한 모델의 일반적인 능력을 평가하기 위해 여러 벤치마크의 개발을 촉진시켰습니다. 그러나 중요한 과제는 벤치마크 자체의 타당성을 평가하는 것입니다. 이는 주로 벤치마크 일치성 테스트(Benchmark Agreement Testing, BAT)를 통해 이루어지며, 새로운 벤치마크가 기존 벤치마크와의 일치성을 어떤 일치성 지표(예: 순위 상관관계)를 사용하여 검증하는 과정입니다. BAT가 벤치마크 개발자와 사용자에게 중요한 역할을 함에도 불구하고, 이러한 일치성 테스트를 위한 표준화된 절차가 부재합니다. 이러한 결함은 잘못된 결론을 초래할 수 있으며, 벤치마크에 대한 불신을 조장하고 적절한 벤치마크를 선택하는 능력을 저해할 수 있습니다. 우리는 40개 이상의 주요 벤치마크를 분석하여, 간과된 방법론적 선택이 BAT 결과에 상당한 영향을 미치고 결론의 타당성을 훼손할 수 있음을 보여줍니다. 이러한 불일치를 해결하기 위해, 우리는 BAT를 위한 일련의 모범 사례를 제안하고 이러한 방법론을 활용함으로써 BAT의 견고성과 타당성이 크게 개선됨을 입증합니다. 이를 더욱 확산시키고 향후 연구를 용이하게 하기 위해, 우리는 BAT를 위한 파이썬 패키지인 BenchBench와 벤치마크를 동료 평가를 통해 평가하기 위한 메타 벤치마크인 BenchBench-leaderboard를 공개합니다. 우리의 연구 결과는 언어 모델 연구의 진화하는 환경에서 벤치마크 평가의 견고성과 타당성을 보장하기 위해 표준화된 BAT의 필요성을 강조합니다. BenchBench 패키지: https://github.com/IBM/BenchBench 리더보드: https://huggingface.co/spaces/per/BenchBench
본 연구는 자연어 처리(NLP) 및 머신러닝(ML) 기술을 활용하여 의료 서신 코딩을 자동화하고, 시각적 설명 가능성과 경량화된 로컬 컴퓨터 환경을 구현하는 것을 목표로 합니다. 현재 임상 현장에서는 환자 서류에 포함된 각 질환, 시술, 약물에 코드를 할당하는 코딩 작업이 수동으로 이루어지고 있습니다(예: SNOMED CT 코드 56265001 심장 질환). 이 분야에서는 최신 ML 모델을 사용한 자동 코딩에 대한 예비 연구가 진행되고 있지만, 모델의 복잡성과 크기로 인해 실제 현장에 배포되지는 못하고 있습니다. 자동 코딩 실무의 가능성을 더욱 촉진하기 위해, 우리는 로컬 컴퓨터 환경에서의 몇 가지 해결책을 탐구하고, AI 모델의 투명성을 위한 설명 가능성 기능도 연구합니다. 본 연구에서는 공개된 MIMIC-III 데이터베이스와 HAN/HLAN 네트워크 모델을 ICD 코드 예측 목적으로 사용했습니다. 또한 ICD와 SNOMED CT 지식 베이스 간의 매핑 실험도 진행했습니다. 실험 결과, 모델은 97.98%의 코드에 대해 유용한 정보를 제공했습니다. 이 연구 결과는 병원 환경과 같은 임상 현장에서 임상의가 사용하는 로컬 컴퓨터에서 자동 임상 코딩을 구현하는 데 유용한 통찰을 제공할 수 있습니다. 프로젝트 페이지: https://github.com/Glenj01/Medical-Coding.
대규모 언어 모델(LLM)은 일부 프로세스 마이닝(PM) 분석을 반자동화할 수 있는 잠재력을 가지고 있습니다. 상용 모델들은 이미 많은 분석 작업에 적합하지만, 오픈소스 LLM들이 PM 작업에서 경쟁력 있는 수준인지는 알려져 있지 않습니다. 본 논문에서는 도메인 지식(프로세스 마이닝 특화 및 프로세스 특화)과 다양한 구현 전략에 초점을 맞춘 최초의 포괄적인 PM 벤치마크인 PM-LLM-Benchmark를 제안합니다. 또한, 이러한 벤치마크를 구축하는 과정에서 발생하는 데이터의 공개 가용성과 LLM의 평가 편향과 관련된 문제들에 대해서도 다룹니다. 전반적으로, 고려된 대부분의 LLM이 만족스러운 수준의 프로세스 마이닝 작업을 수행할 수 있지만, 엣지 디바이스에서 실행될 수 있는 소형 모델들은 여전히 부적합한 것으로 나타났습니다. 또한, 제안된 벤치마크가 프로세스 마이닝 작업에 적합한 LLM을 식별하는 데 유용하지만, 평가 편향을 극복하고 경쟁력 있는 LLM들을 보다 철저하게 순위 매기기 위해서는 추가 연구가 필요하다는 결론을 내렸습니다.