번역이 포함된 일일 선별된 AI 연구 논문
우리는 비디오 품질을 유지하면서 엔드투엔드 확산 생성 과정을 100-200배 가속화할 수 있는 비디오 생성 가속 프레임워크인 TurboDiffusion을 소개한다. TurboDiffusion은 주로 다음과 같은 구성 요소를 통해 가속화를 달성한다: (1) 어텐션 가속: TurboDiffusion은 저비트 SageAttention과 학습 가능한 Sparse-Linear Attention(SLA)을 사용하여 어텐션 계산 속도를 높인다. (2) 스텝 증류: TurboDiffusion은 효율적인 스텝 증류를 위해 rCM을 채택한다. (3) W8A8 양자화: TurboDiffusion은 선형 레이어 가속화 및 모델 압축을 위해 모델 매개변수와 활성화 값을 8비트로 양자화한다. 또한 TurboDiffusion은 여러 다른 엔지니어링 최적화 기법을 포함한다. Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, Wan2.1-T2V-14B-480P 모델을 대상으로 실험을 진행했다. 실험 결과, TurboDiffusion은 단일 RTX 5090 GPU에서도 동등한 비디오 품질을 유지하면서 비디오 생성 속도를 100-200배 향상시킴을 확인했다. 모델 체크포인트와 사용하기 쉬운 코드를 포함한 GitHub 저장소는 https://github.com/thu-ml/TurboDiffusion에서 이용할 수 있다.
비전-언어 모델(VLM)은 일반적인 이해 능력에서는 뛰어나지만, 3D 공간에서 시간에 따른 객체 기하학 및 관계의 변화를 추론하는 동적 공간 추론(DSR)에서는 여전히 취약합니다. 이는 주로 확장 가능한 4D 인지 훈련 자원의 부족 때문입니다. 데이터셋, 벤치마크, 모델 측면의 이러한 격차를 해소하기 위해 우리는 DSR Suite를 소개합니다. 먼저, 실제 환경의 비디오로부터 DSR용 객관식 질문-답변 쌍을 자동 생성하는 파이프라인을 제안합니다. 현대적인 비전 기초 모델을 활용하여 이 파이프라인은 카메라 포즈, 로컬 포인트 클라우드, 객체 마스크, 방향, 3D 궤적을 포함한 풍부한 기하학적 및 운동 정보를 추출합니다. 이러한 기하학적 단서를 바탕으로 학습용 DSR-Train과 인간이 추가로 정제한 평가용 DSR-Bench를 구축합니다. 기존 연구와 비교했을 때, 우리의 데이터는 (i) 실제 환경의 비디오 출처, (ii) 객체 및 장면 수준의 3D 요구사항, (iii) 시점 변환, (iv) 다중 객체 상호작용, (v) 세분화된 절차적 답변을 강조합니다. 데이터를 넘어, 우리는 기하학적 사전 지식을 VLM에 원활하게 통합하기 위한 경량 기하학 선택 모듈(GSM)을 제안합니다. GSM은 질문 의미를 응축하고 사전 훈련된 4D 재구성 사전 지식에서 질문과 관련된 지식을 추출하여 간결한 기하학 토큰 집합으로 만듭니다. 이렇게 대상에 맞게 추출함으로써 관련 없는 지식으로 모델에 부담을 주는 것을 피합니다. 실험 결과, Qwen2.5-VL-7B에 DSR-Train과 GSM을 통합하면 일반 비디오 이해 벤치마크의 정확도를 유지하면서도 동적 공간 추론 능력이 크게 향상되는 것으로 나타났습니다.
텍스트-오디오-비디오(T2AV) 생성은 자연어로부터 시간적으로 일관된 비디오와 의미론적으로 동기화된 오디오를 합성하는 것을 목표로 하지만, 그 평가는 여전히 단일 모달리티 지표에 의존하거나 복잡한 프롬프트 하에서의 교차 모달리티 정렬, 지시문 준수, 지각적 현실감을 제대로 포착하지 못하는 협소한 벤치마크에 의존하는 등 파편화되어 있습니다. 이러한 한계를 해결하기 위해 본 논문은 T2AV 시스템의 포괄적 평가를 위한 통합 벤치마크인 T2AV-Compass를 제안합니다. T2AV-Compass는 의미적 풍부성과 물리적 타당성을 보장하기 위해 분류 체계 기반 파이프라인을 통해 구성된 500개의 다양하고 복잡한 프롬프트로 구성됩니다. 또한 T2AV-Compass는 비디오 품질, 오디오 품질, 교차 모달리티 정렬을 위한 객관적 신호 수준 지표와 지시문 준수 및 현실감 평가를 위한 주관적 MLLM-as-a-Judge 프로토콜을 통합한 이중 수준 평가 프레임워크를 도입합니다. 11개의 대표적인 T2AV 시스템에 대한 광범위한 평가 결과, 가장 강력한 모델들조차 인간 수준의 현실감과 교차 모달리티 일관성에 크게 미치지 못하며, 오디오 현실감, 세밀한 동기화, 지시문 준수 등에서 지속적인 실패를 보였습니다. 이러한 결과는 향후 모델들이 개선해야 할 상당한 여지가 있음을 시사하며, T2AV-Compass가 텍스트-오디오-비디오 생성 기술 발전을 위한 도전적이고 진단적인 테스트베드로서 가치가 있음을 강조합니다.
'원샷' 기법은 영화 제작에서 독특하고 정교한 미학을 구현하는 방식입니다. 그러나 실제 적용에는 과도한 비용과 복잡한 현실적 제약으로 인해 어려움이 따릅니다. 최근 등장한 비디오 생성 모델은 가상의 대안을 제공하지만, 기존 접근법은 단순한 클립 연접에 의존하여 시각적 매끄러움과 시간적 일관성을 유지하지 못하는 경우가 많습니다. 본 논문에서는 다양한 사용자 입력을 통해 원활하고 표현력 있으며 장시간 지속되는 원샷 비디오를 합성할 수 있는 임의 프레임 기반 생성 프레임워크인 DreaMontage를 소개합니다. 이를 위해 세 가지 주요 차원에서 과제를 해결합니다. (i) DiT 아키텍처에 경량 중간 조건 설정 메커니즘을 통합합니다. 기본 학습 데이터를 효과적으로 활용하는 Adaptive Tuning 전략을 통해 강력한 임의 프레임 제어 기능을 구현합니다. (ii) 시각적 충실도와 영화적 표현력을 향상시키기 위해 고품질 데이터셋을 구축하고 Visual Expression SFT 단계를 도입합니다. 주체 운동의 합리성과 전환의 매끄러움 같은 핵심 문제를 해결하기 위해 특화된 DPO 기법을 적용하여 생성 콘텐츠의 성공률과 사용성을 크게 개선합니다. (iii) 장면 연장 생성을 용이하게 하기 위해 메모리 효율적인 방식으로 작동하는 Segment-wise Auto-Regressive 추론 전략을 설계합니다. 폭넓은 실험을 통해 본 접근법이 계산 효율성을 유지하면서도 시각적으로 인상적이고 완벽하게 일관된 원샷 효과를 달성함을 입증하며, 사용자가 단편적인 시각 자료를 생생하고 통합된 원샷 영화 경험으로 변환할 수 있도록 지원합니다.
최신 시각-언어 모델(VLM)에서 중요한 인기 편향을 발견했습니다. 이 모델들은 일반 건물에 비해 유명 건물에서 최대 34% 높은 정확도를 보여, 일반화된 이해보다는 암기에 의존함을 시사합니다. 이를 체계적으로 연구하기 위해 해당 작업을 위한 가장 큰 오픈 벤치마크인 YearGuessr 데이터셋을 소개합니다. 이는 157개국에서 수집한 55,546개의 건물 이미지로, 건축 연도(1001-2024)에 대한 연속 서수 레이블, GPS 데이터, 인기도를 대변하는 페이지 뷰 수 등 다중 모드 속성을 포함합니다. 이 데이터셋을 활용해 건축 연도 예측 작업을 서수 회귀 문제로 설정하고, 이 편향을 정량화하기 위해 인기 인식 간격 정확도 지표를 도입했습니다. 우리의 YearCLIP 모델을 포함한 30개 이상의 모델에 대한 벤치마크 결과, VLM이 인기 있고 암기된 항목에서는 뛰어난 성능을 보이지만 인지되지 않은 주제에서는 현저히 어려움을 겪어 그들의 추론 능력에 치명적인 결함이 있음이 확인되었습니다. 프로젝트 페이지: https://sytwu.github.io/BeyondMemo/
우리는 혼합 전문가(Mixture-of-Experts) 방식의 하이브리드 맘바-트랜스포머(Mamba-Transformer) 언어 모델인 Nemotron 3 Nano 30B-A3B를 소개합니다. Nemotron 3 Nano는 Nemotron 2 대비 3조 개 이상의 새로운 고유 토큰을 포함해 총 25조 개의 텍스트 토큰으로 사전 학습되었으며, 이어서 지도 미세 조정과 다양한 환경에서의 대규모 강화 학습을 수행했습니다. Nemotron 3 Nano는 순전파(forward pass) 시 매번 활성화되는 매개변수가 절반 미만이면서도 이전 세대인 Nemotron 2 Nano보다 더 높은 정확도를 달성합니다. GPT-OSS-20B 및 Qwen3-30B-A3B-Thinking-2507과 같은 유사 규모의 오픈 모델보다 최대 3.3배 높은 추론 처리량을 달성하는 동시에 인기 벤치마크에서도 더 높은 정확도를 보여줍니다. Nemotron 3 Nano는 향상된 에이전트 능력, 추론 능력, 채팅 능력을 입증했으며 최대 100만 토큰의 컨텍스트 길이를 지원합니다. 우리는 사전 학습된 Nemotron 3 Nano 30B-A3B 기본 모델과 사후 학습된 Nemotron 3 Nano 30B-A3B 체크포인트를 Hugging Face에 공개합니다.
고해상도 비디오 생성은 디지털 미디어와 영화 분야에서 중요하지만, 확산 모델의 2차 복잡도로 인해 계산적 병목 현상이 발생하여 실용적인 추론이 불가능한 실정입니다. 이를 해결하기 위해 우리는 세 가지 축에서 중복성을 체계적으로 줄이는 효율적인 자기회귀 프레임워크인 HiStream을 소개합니다: i) 공간 압축: 캐시된 특징을 활용하여 고해상도로 정제하기 전에 저해상도에서 노이즈 제거를 수행하고, ii) 시간적 압축: 고정 크기 앵커 캐시를 사용한 청크 단위 전략으로 안정적인 추론 속도를 보장하며, iii) 타임스텝 압축: 캐시 조건화된 후속 청크에 더 적은 수의 노이즈 제거 단계를 적용합니다. 1080p 벤치마크에서 우리의 주력 HiStream 모델(i+ii)은 Wan2.1 기준 대비 최대 76.2배 빠른 노이즈 제거 속도를 보이며 최신 수준의 시각적 품질을 달성하고 품질 저하는 미미했습니다. 더 빠른 변형인 HiStream+는 세 가지 최적화(i+ii+iii)를 모두 적용하여 기준 대비 107.5배의 가속을 이루며 속도와 품질 간 매력적인 균형을 제공함으로써 고해상도 비디오 생성을 실용적이고 확장 가능하게 만듭니다.
네모트론 3 모델 패밀리(나노, 슈퍼, 울트라)를 소개합니다. 이 모델들은 뛰어난 에이전트 능력, 추론 능력, 대화 능력을 제공합니다. 네모트론 3 패밀리는 혼합 전문가(Mixture-of-Experts) 방식의 맘바-트랜스포머 하이브리드 아키텍처를 채택하여 최고 수준의 처리량과 최대 100만 토큰의 컨텍스트 길이를 지원합니다. 슈퍼와 울트라 모델은 NVFP4로 훈련되었으며, 모델 품질을 향상시키는 새로운 접근법인 LatentMoE를 통합했습니다. 두 대형 모델은 더 빠른 텍스트 생성을 위한 MTP 레이어도 포함하고 있습니다. 모든 네모트론 3 모델은 다중 환경 강화 학습을 통해 사후 훈련되어 추론, 다단계 도구 사용이 가능하며 세분화된 추론 예산 제어를 지원합니다. 가장 작은 모델인 나노는 유사 모델 대비 정확도에서 우수한 성능을 보이면서도 추론 시 매우 비용 효율적입니다. 슈퍼는 협업 에이전트 및 IT 티켓 자동화와 같은 대용량 워크로드에 최적화되었습니다. 가장 큰 모델인 울트라는 최첨단 정확도와 추론 성능을 제공합니다. 나노 모델은 기술 보고서 및 본 백서와 함께 공개되며, 슈퍼와 울트라 모델은 향후 몇 달 내에 공개될 예정입니다. 모델 가중치, 사전/사후 훈련 소프트웨어, 레시피, 재배포 권한을 보유한 모든 데이터를 공개할 것입니다.
토크나이저는 언어 모델(LM)이 텍스트를 표현하고 처리하는 근본적인 기반을 제공합니다. 토크나이저의 중요성에도 불구하고, 토크나이제이션의 영향을 단독으로 측정하는 데 따른 어려움으로 인해 LM 성능 및 동작에 미치는 그 역할은 제대로 이해되지 않고 있습니다. 이러한 필요를 해결하기 위해 우리는 토크나이제이션이 LM에 미치는 영향에 대한 연구를 지원하는 모델 컬렉션 및 벤치마크인 TokSuite를 소개합니다. 구체적으로, 우리는 서로 다른 토크나이저를 사용하지만 그 외에는 동일한 아키텍처, 데이터셋, 학습 예산, 초기화 조건을 적용하여 14개의 모델을 학습했습니다. 추가적으로, 토크나이제이션에 영향을 미칠 가능성이 있는 실제적 변동에 따른 모델 성능을 특별히 측정하는 새로운 벤치마크를 정제하여 공개합니다. TokSuite는 이를 통해 모델의 토크나이저 영향력을 강력하게 분리하여, 다양한 인기 토크나이저들의 각각의 장점과 단점을 밝히는 일련의 새로운 발견을 지원합니다.
에이전트 강화 학습은 경험 기반 확장에 점점 더 의존하고 있지만, 실제 환경은 비적응적이며 커버리지가 제한적이고 확장하기 어렵습니다. 세계 모델은 시뮬레이션된 경험을 통해 학습 효율성을 향상시킬 수 있는 잠재적 방법을 제공하지만, 대규모 언어 모델이 이 역할을 안정적으로 수행할 수 있는지, 그리고 어떤 조건에서 에이전트에 의미 있는 이점을 제공하는지는 여전히 불분명합니다. 우리는 상호작용 하의 다음 상태 예측으로 언어 모델링을 재해석할 수 있는 통제된 환경을 제공하는 텍스트 기반 환경에서 이러한 문제를 연구합니다. 우리는 LLM 기반 세계 모델을 평가하기 위한 3단계 프레임워크를 소개합니다: (i) 정확도와 일관성, (ii) 확장성과 견고성, (iii) 에이전트 효용성. 5가지 대표 환경에서 충분히 훈련된 세계 모델이 일관된 잠재 상태를 유지하며, 데이터 및 모델 크기에 따라 예측 가능하게 확장되고, 행동 검증, 합성 궤적 생성 및 강화 학습 웜 스타트를 통해 에이전트 성능을 향상시킨다는 것을 발견했습니다. 한편, 이러한 이득은 행동 커버리지와 환경 복잡성에 크게 의존하여 세계 모델링이 에이전트 학습을 효과적으로 지원하는 시점에 대한 명확한 경계를 delineate합니다.
최근 일반 목적 파운데이션 모델의 사전 학습 기술 발전으로 다양한 다운스트림 작업에서의 성능이 크게 향상되었습니다. GPT와 같은 자기회귀적 생성 모델이 NLP 분야를 혁신했음에도 불구하고, 대부분의 시각 생성 사전 학습 방법은 여전히 BERT 스타일의 마스크 모델링에 의존하며, 이는 비디오 분석에 필수적인 시간적 정보를 종종 무시합니다. 기존의 소수 자기회귀적 시각 사전 학습 방법들은 부정확한 의미론적 위치 지정과 낮은 생성 품질 등의 문제로 인해 열악한 의미 표현을 보입니다. 본 연구에서는 마스킹된 다음 프레임 예측을 활용하여 이미지와 비디오를 통합적으로 모델링하는 새로운 자기회귀적 시각 생성 사전 학습 프레임워크인 NExT-Vid를 제안합니다. NExT-Vid는 의미 표현과 대상 디코딩을 분리하기 위한 컨텍스트 격리 자기회귀 예측기와 생성 품질 및 다양성을 향상시키기 위한 조건부 흐름 매칭 디코더를 도입합니다. 컨텍스트 격리 흐름 매칭 사전 학습을 통해 우리의 접근법은 강력한 표현력을 달성합니다. 대규모 사전 학습 모델에 대한 폭넓은 실험을 통해, 제안된 방법이 다운스트림 분류 작업에서의 주의 집단적 탐지를 통한 시각 표현 학습에 있어 기존 생성 사전 학습 방법들을 지속적으로 능가함을 입증합니다.
우리는 범용 상호작용 어시스턴트 역할을 수행하는 실시간 스트리밍 비디오 LLM인 Streamo를 소개한다. 질의응답이나 캡션 생성에만 집중하는 기존 온라인 비디오 모델과 달리, Streamo는 실시간 내레이션, 행동 이해, 이벤트 캡션 생성, 시간적 이벤트 정착, 시간 민감형 질의응답을 포함한 광범위한 스트리밍 비디오 작업을 수행한다. 이러한 다기능성을 구현하기 위해 우리는 스트리밍 비디오 이해에 특화된 대규모 지시 따르기 데이터셋인 Streamo-Instruct-465K를 구축했다. 이 데이터셋은 다양한 시간적 맥락과 다중 작업 감독을 포괄하여 이질적인 스트리밍 작업 간 통합 학습을 가능하게 한다. 간소화된 파이프라인을 통해 지시 따르기 데이터셋에 대한 종단간 학습 이후, Streamo는 다양한 스트리밍 벤치마크에서 강력한 시간적 추론 능력, 반응형 상호작용, 그리고 광범위한 일반화 성능을 보여준다. 폭넓은 실험 결과, Streamo는 오프라인 비디오 인식 모델과 실시간 멀티모달 어시스턴트 간의 격차를 해소하며, 연속 비디오 스트림에서 통합적이고 지능적인 비디오 이해를 향한 한 걸음을 내디딘다.
검색 증강 생성(RAG)은 도메인 특화 정보나 최신 정보가 필요한 지식 집약적 질의를 처리하기 위한 대규모 언어 모델(LLM)의 강력한 패러다임으로 부상했습니다. 단일 단계 검색으로는 처리하기 어려운 복잡한 다중 논리적 질문을 다루기 위해 강화 학습을 접목한 반복적 RAG 접근법이 제안되었습니다. 그러나 기존 반복적 RAG 시스템은 일반적으로 사용 가능한 검색 코퍼스에 대한 정보를 활용하지 않은 채 질문 분해를 계획하여 비효율적인 검색과 최적이 아닌 성능으로 이어지는 추론 체인을 초래합니다. 본 논문에서는 반복적 RAG 시스템에서 맥락적으로 관련된 검색 지식을 바탕으로 계획 수립 전에 LLM을 검색 집합과 조기에 정렬하는 간단하지만 효과적인 모듈인 조기 지식 정렬(EKA)을 소개합니다. 6개의 표준 RAG 데이터셋에서 진행한 폭넓은 실험을 통해 EKA가 더 견고한 추론 기반을 구축함으로써 검색 정밀도를 크게 향상시키고, 오류 전파를 줄이며, 성능과 효율을 모두 개선함을 입증했습니다. 엔트로피 관점에서의 분석 결과, 조기 지식 통합이 추론 과정에서 불필요한 탐색을 줄여 모델이 관련 정보 하위 집합에 더 효과적으로 집중할 수 있게 해준다는 것을 확인했습니다. 더욱이 EKA는 대규모 모델에 원활하게 확장 적용 가능한 다목적의 훈련 불필요 추론 전략으로서 효과적임을 입증했습니다. 다양한 데이터셋과 검색 코퍼스에서의 일반화 테스트를 통해 본 접근법의 강건성이 확인되었습니다. 전반적으로 EKA는 반복적 RAG 시스템의 최첨단 기술을 발전시키는 동시에, 강화 학습 증강 프레임워크 내에서 구조화된 추론과 효율적 탐색 간의 중요한 상호작용을 조명합니다. 코드는 https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}에서 공개되었습니다.
기존 AI 코딩 에이전트 벤치마크는 버그 수정이나 작은 기능 구현과 같은 단일 문제에 집중한 과제들로 구성되어 있습니다. 그러나 실제 소프트웨어 엔지니어링은 근본적으로 장기적인 과정입니다: 개발자는 높은 수준의 요구 사항을 해석하고, 여러 파일에 걸쳐 조율된 변경 사항을 계획하며, 기존 기능을 보존한 채 여러 차례에 걸쳐 코드베이스를 발전시켜야 합니다. 본 논문에서는 이러한 장기적인 소프트웨어 진화 과제에 대해 에이전트를 평가하는 벤치마크인 SWE-EVO를 소개합니다. 7개의 성숙한 오픈소스 Python 프로젝트의 릴리스 노트와 버전 기록을 바탕으로 구성된 SWE-EVO는 평균 21개의 파일에 걸친 다단계 수정 사항 구현을 요구하는 48개의 진화 과제로 이루어져 있으며, 인스턴스당 평균 874개의 테스트로 구성된 포괄적인 테스트 스위트를 통해 검증됩니다. 최첨단 모델을 이용한 실험 결과는 현저한 능력 격차를 보여줍니다: OpenHands를 결합한 GPT-5 조차도 SWE-EVO에서 해결률이 21%에 불과한 반면, 단일 문제 중심 벤치마크인 SWE-Bench Verified에서는 65%의 해결률을 기록했습니다. 이는 현재의 에이전트들이 지속적이고 다중 파일에 걸친 추론에 어려움을 겪고 있음을 보여줍니다. 또한 본 논문에서는 이러한 복잡한 장기 과제 해결을 위한 부분적 진전을 포착하는 세분화된 지표인 Fix Rate를 제안합니다.
본 연구에서는 AI 생성 결정의 동적 안정성에 대한 최초의 대규모 벤치마크인 PhononBench를 소개한다. 최근 개발된 MatterSim 원자간 포텐셜(1만 개 이상의 물질에 대해 DFT 수준의 음향자 예측 정확도 달성)을 활용한 PhononBench는 6개의 주요 결정 생성 모델에서 생성된 108,843개 결정 구조에 대해 효율적인 대규모 음향자 계산 및 동적 안정성 분석을 가능하게 한다. PhononBench는 현재 생성 모델들이 동적 안정성을 보장하는 데 보편적인 한계가 있음을 보여준다: 모든 생성 구조의 평균 동적 안정성 비율은 25.83%에 불과하며, 최고 성능 모델인 MatterGen도 41.0%에 그친다. 추가 사례 연구에 따르면, 여기서 MatterGen을 이용한 밴드갭 조건 설정으로 예시된 특성-지향 생성에서도, 최적의 밴드갭 조건(0.5 eV)에서 동적 안정성 비율은 23.5%로 여전히 낮은 수준을 보인다. 공간군-제어 생성에서는 높은 대칭성을 가진 결정(예: 입방정계 시스템은 최대 49.2% 달성)이 더 나은 안정성을 보이지만, 모든 제어 생성에 대한 평균 안정성은 여전히 34.4%에 불과하다. 본 연구의 또 다른 중요한 성과는 전체 브릴루앙 영역에서 음향자 안정적인 28,119개의 결정 구조를 확인하여 향후 신물질 탐색을 위한 상당한 양의 신뢰할 수 있는 후보 풀을 제공한다는 점이다. 최초의 대규모 동적 안정성 벤치마크를 구축함으로써, 본 연구는 결정 생성 모델의 현재 한계를 체계적으로 부각시키고, 물리적으로 실현 가능한 물질 설계 및 발견을 위한 향후 발전에 필수적인 평가 기준과 지침을 제공한다. PhononBench에서 개발된 모든 모델 생성 결정 구조, 음향자 계산 결과, 및 고속처리 평가 워크플로우는 https://github.com/xqh19970407/PhononBench에서 공개될 예정이다.
대규모 언어 모델(LLM)의 급속한 확산과 다양한 전문 벤치마크의 등장으로 인해 단편적인 과제별 평가 지표에서 벗어나, 다중 능력 차원의 성과를 효과적으로 종합하는 포괄적 경쟁 순위 체계로의 전환이 필요합니다. 현재 널리 사용되는 정적 점수 기반 평가 방식은 근본적인 한계를 지닙니다. 다양한 벤치마크 간 적절한 가중치를 결정하는 데 어려움을 겪으며, 특히 순차적이고 위험성이 높은 과제에 직면했을 때 모델의 동적 경쟁 적합성이나 취약성을 포착하지 못한다는 중대한 결함이 있습니다. 이를 해결하기 위해 본 연구는 새로운 경쟁형 스위스 시스템 동역학(CSD) 프레임워크를 제안합니다. CSD는 다중 라운드 순차 경쟁을 시뮬레이션하며, 모델은 누적 승패 기록을 바탕으로 선별된 벤치마크 시퀀스에서 동적으로 매칭됩니다. 또한 몬테카를로 시뮬레이션(N=100,000회 반복)을 통해 통계적으로 강건한 기대 승점(E[S_m])을 근사화하여 무작위 매칭 및 초기 라운드 운에 따른 노이즈를 제거합니다. 더 나아가, 라운드별 탈락량(T_k)을 매개변수화하여 실패 민감도 분석을 구현함으로써, 모델을 위험 성향에 따라 구분(강건한 일반주의 모델과 공격적 전문가 모델)하는 프로파일링이 가능합니다. CSD가 기존의 종합 점수 및 정적 pairwise 모델보다 더 세밀하고 상황 인식적인 순위를 제공함을 입증하며, 이는 위험 정보를 고려한 차세대 LLM 평가로 나아가는 중요한 진전을 나타냅니다.