번역이 포함된 일일 선별된 AI 연구 논문
우리는 고품질 음성을 생성하는 자회귀적 Transformer 기반의 텍스트-음성 변환(TTS) 모델인 MiniMax-Speech를 소개합니다. 주요 혁신은 학습 가능한 스피커 인코더로, 이는 참조 오디오에서 음색 특징을 추출할 때 전사본을 필요로 하지 않습니다. 이를 통해 MiniMax-Speech는 참조와 일관된 음색으로 매우 표현력 있는 음성을 제로샷 방식으로 생성할 수 있으며, 동시에 참조 음성과 매우 높은 유사성을 가진 원샷 보이스 클로닝도 지원합니다. 또한, 제안된 Flow-VAE를 통해 합성된 오디오의 전반적인 품질이 향상되었습니다. 우리의 모델은 32개 언어를 지원하며, 여러 객관적 및 주관적 평가 지표에서 우수한 성능을 보여줍니다. 특히, 객관적 보이스 클로닝 지표(단어 오류율 및 스피커 유사성)에서 최첨단(SOTA) 결과를 달성했으며, 공개 TTS Arena 리더보드에서도 1위를 차지했습니다. MiniMax-Speech의 또 다른 주요 강점은 스피커 인코더로부터 얻은 견고하고 분리된 표현 덕분에 기본 모델을 수정하지 않고도 확장성이 뛰어나다는 점입니다. 이를 통해 LoRA를 통한 임의의 음성 감정 제어, 텍스트 설명에서 직접 음색 특징을 합성하는 텍스트-음성(T2V), 추가 데이터를 사용하여 음색 특징을 미세 조정하는 전문가용 보이스 클로닝(PVC)과 같은 다양한 응용이 가능합니다. 더 많은 예시를 보려면 https://minimax-ai.github.io/tts_tech_report를 방문해 주시기 바랍니다.
텍스트-투-오디오 시스템은 점점 더 성능이 향상되고 있지만, 추론 시간이 느려 많은 창의적인 응용 프로그램에서 실용적이지 못한 지연 시간을 보입니다. 우리는 Adversarial Relativistic-Contrastive (ARC) 사후 훈련을 제안합니다. 이는 증류(distillation)에 기반하지 않은 디퓨전/플로우 모델을 위한 첫 번째 적대적 가속 알고리즘입니다. 기존의 적대적 사후 훈련 방법들은 비용이 많이 드는 증류 기반 방법들과 비교할 때 어려움을 겪었지만, ARC 사후 훈련은 (1) 최근의 상대론적 적대적 공식을 디퓨전/플로우 사후 훈련에 확장하고, (2) 더 나은 프롬프트 준수를 장려하기 위해 새로운 대조적 판별자 목표를 결합하는 간단한 절차입니다. 우리는 ARC 사후 훈련을 Stable Audio Open에 대한 여러 최적화와 결합하여 H100에서 약 75ms, 모바일 엣지 디바이스에서 약 7초 만에 44.1kHz 스테레오 오디오를 약 12초 동안 생성할 수 있는 모델을 구축했습니다. 이는 우리가 아는 한 가장 빠른 텍스트-투-오디오 모델입니다.
우리는 추론의 최전선을 발전시키며 오픈소스 혁신의 협력 정신을 구현한 32B 밀집 언어 모델인 AM-Thinking-v1을 소개한다. AM-Thinking-v1은 DeepSeek-R1을 능가하고 Qwen3-235B-A22B 및 Seed1.5-Thinking과 같은 선도적인 Mixture-of-Experts(MoE) 모델과 경쟁하며, AIME 2024에서 85.3점, AIME 2025에서 74.4점, LiveCodeBench에서 70.3점의 인상적인 성적을 달성하여 유사 규모의 오픈소스 모델 중에서도 최첨단 수학 및 코딩 능력을 보여준다. AM-Thinking-v1은 전적으로 오픈소스인 Qwen2.5-32B 기본 모델과 공개적으로 이용 가능한 쿼리를 기반으로 구축되었으며, 지도 미세 조정과 강화 학습을 결합한 세심하게 설계된 사후 학습 파이프라인을 활용하여 탁월한 추론 능력을 제공한다. 이 작업은 오픈소스 커뮤니티가 배포 및 미세 조정에 있어 실용적인 스위트 스팟인 32B 규모에서도 높은 성능을 달성할 수 있음을 입증한다. 최상위 성능과 실제 사용 가능성 사이의 균형을 맞춤으로써, 우리는 AM-Thinking-v1이 중간 규모 모델을 활용하여 추론의 한계를 넓히면서도 접근성을 혁신의 핵심으로 유지하는 추가적인 협력 노력을 고무하기를 바란다. 우리는 이 모델을 https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}에 오픈소스로 공개하였다.
다중모달 언어 모델을 구축하는 것은 근본적으로 어려운 과제입니다: 시각과 언어 모달리티를 정렬하고, 고품질의 명령 데이터를 선별하며, 시각 모달리티가 도입된 후 기존의 텍스트 전용 기능이 저하되지 않도록 해야 합니다. 이러한 어려움은 다국어 환경에서 더욱 심화되는데, 다양한 언어로 된 다중모달 데이터의 필요성으로 인해 기존의 데이터 부족 문제가 악화되고, 기계 번역이 종종 의미를 왜곡하며, 치명적인 망각 현상이 더 두드러지기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 데이터와 모델링 모두에 걸친 새로운 기법을 소개합니다. 먼저, 고품질이고 다양한 다국어 다중모달 명령 데이터를 선별하는 합성 주석 프레임워크를 개발하여 Aya Vision 모델이 다양한 언어로 된 다중모달 입력에 대해 자연스럽고 인간이 선호하는 응답을 생성할 수 있도록 합니다. 이를 보완하기 위해, 우리는 치명적인 망각 현상을 완화하고 텍스트 전용 기능을 효과적으로 보존하면서 동시에 다중모달 생성 성능을 향상시키는 교차 모달 모델 병합 기법을 제안합니다. Aya-Vision-8B는 Qwen-2.5-VL-7B, Pixtral-12B, 심지어 훨씬 더 큰 Llama-3.2-90B-Vision과 같은 강력한 다중모달 모델들과 비교했을 때 최고 수준의 성능을 달성합니다. 우리는 이 접근법을 Aya-Vision-32B로 확장하여, Molmo-72B와 LLaMA-3.2-90B-Vision과 같이 크기가 두 배 이상 큰 모델들을 능가하는 성능을 보여줍니다. 우리의 연구는 다중모달 분야에서 다국어 진전을 이루고, 극도로 높은 성능을 제공하면서도 컴퓨팅 자원의 필요성을 효과적으로 줄이는 기법에 대한 통찰을 제공합니다.
명령어 수행 평가는 대규모 언어 모델(LLM)이 사용자 정의 제약 조건을 준수하는 출력을 생성하는 능력을 평가합니다. 그러나 기존 벤치마크는 주로 템플릿화된 제약 조건 프롬프트에 의존하는 경우가 많아, 실제 사용 환경의 다양성이 부족하고 세밀한 성능 평가가 제한됩니다. 이러한 격차를 메우기 위해, 우리는 세 가지 제약 패턴, 네 가지 제약 범주, 그리고 네 가지 난이도 수준을 포함하는 다차원 제약 프레임워크를 제안합니다. 이 프레임워크를 기반으로, 제약 조건 확장, 충돌 감지, 명령어 재작성을 수행하는 자동화된 명령어 생성 파이프라인을 개발하여 1,200개의 코드 검증 가능한 명령어 수행 테스트 샘플을 생성했습니다. 우리는 7개 모델 패밀리에 속한 19개의 LLM을 평가하고, 제약 조건 형태에 따른 성능 차이를 확인했습니다. 예를 들어, 평균 성능은 Level I에서 77.67%에서 Level IV에서 32.96%로 크게 하락했습니다. 또한, 우리는 이 접근법을 강화 학습 데이터 생성에 활용하여 일반 성능 저하 없이 명령어 수행 능력을 크게 향상시켰음을 입증했습니다. 심층 분석 결과, 이러한 성능 향상은 주로 모델의 어텐션 모듈 매개변수 수정에서 비롯되며, 이는 제약 조건 인식과 준수를 강화하는 것으로 나타났습니다. 코드와 데이터는 https://github.com/Junjie-Ye/MulDimIF에서 확인할 수 있습니다.
우리는 언어 모델의 일반적인 추론 능력을 평가하기 위해 설계된 게임 환경 컬렉션인 gg-bench를 소개합니다. 대부분의 정적 벤치마크와 달리, gg-bench는 새로운 평가 인스턴스를 원하는 대로 생성할 수 있는 데이터 생성 프로세스입니다. 특히, gg-bench는 (1) 대형 언어 모델(LLM)을 사용하여 새로운 게임의 자연어 설명을 생성하고, (2) LLM을 사용하여 각 게임을 Gym 환경으로 코드로 구현하며, (3) 생성된 게임에서 자기 대결을 통해 강화 학습(RL) 에이전트를 훈련함으로써 합성적으로 생성됩니다. 우리는 언어 모델을 평가하기 위해 게임 설명, 현재 보드 상태, 유효한 이동 목록을 모델에 제공한 후 모델이 선택한 이동을 출력하도록 합니다. gg-bench는 도전적입니다: GPT-4o 및 Claude 3.7 Sonnet과 같은 최첨단 LLM은 컨텍스트 내 학습을 사용하여 gg-bench에서 7-9%의 승률을 달성하는 반면, o1, o3-mini 및 DeepSeek-R1과 같은 추론 모델은 평균 31-36%의 승률을 달성합니다. 우리는 향후 모델링 작업과 벤치마크 확장을 지원하기 위해 생성된 게임, 데이터 생성 프로세스 및 평가 코드를 공개합니다.
비전-언어 모델(VLMs)은 시각적 인식 능력을 대형 언어 모델(LLMs)의 추론과 같은 일반적인 능력과 결합합니다. 그러나 이 두 능력이 어떻게 결합되고 기여할 수 있는지에 대한 메커니즘은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 서로 다른 모델의 파라미터를 연결하는 모델 병합을 통해 인식과 추론을 구성하는 방법을 탐구합니다. 동일한 종류의 모델을 병합하는 데 초점을 맞춘 기존 연구와 달리, 우리는 모달리티 간의 모델 병합을 제안하여 LLMs의 추론 능력을 VLMs에 통합할 수 있도록 합니다. 광범위한 실험을 통해, 우리는 모델 병합이 학습 없이도 LLMs의 추론 능력을 VLMs로 전달하는 성공적인 경로를 제공한다는 것을 입증합니다. 또한, 병합된 모델을 활용하여 인식과 추론의 내부 메커니즘과 병합이 이를 어떻게 영향을 미치는지 이해합니다. 우리는 인식 능력이 주로 모델의 초기 층에 인코딩되는 반면, 추론은 중간에서 후반 층에서 크게 촉진된다는 것을 발견했습니다. 병합 후, 모든 층이 추론에 기여하기 시작하는 반면, 층 간의 인식 능력 분포는 크게 변하지 않았습니다. 이러한 관찰은 다중 모달리티 통합 및 해석을 위한 도구로서 모델 병합의 잠재력을 밝혀줍니다.
본 연구는 아랍어 자연어 처리 분야에서 중요한 공백을 해소하기 위해, 사용자가 단어의 설명이나 의미를 기반으로 단어를 찾을 수 있는 효과적인 아랍어 역사전(Reverse Dictionary, RD) 시스템을 개발한다. 우리는 기하급수적으로 감소하는 층을 특징으로 하는 반-인코더 신경망 아키텍처를 기반으로 한 새로운 트랜스포머 기반 접근법을 제시하며, 이를 통해 아랍어 RD 작업에서 최첨단 결과를 달성한다. 우리의 방법론은 포괄적인 데이터셋 구축 과정을 포함하며, 아랍어 사전학적 정의를 위한 공식적인 품질 기준을 수립한다. 다양한 사전 학습 모델을 사용한 실험 결과, 아랍어 특화 모델이 일반적인 다국어 임베딩을 크게 능가하며, ARBERTv2가 최고의 순위 점수(0.0644)를 달성함을 보여준다. 또한, 우리는 역사전 작업에 대한 공식적인 추상화를 제공하여 이론적 이해를 증진시키고, 구성 가능한 학습 파이프라인을 갖춘 모듈식 및 확장 가능한 파이썬 라이브러리(RDTL)를 개발한다. 데이터셋 품질에 대한 분석을 통해 아랍어 정의 구성을 개선하기 위한 중요한 통찰을 제공하며, 이를 바탕으로 고품질 역사전 자원을 구축하기 위한 8가지 구체적인 기준을 제시한다. 이 연구는 아랍어 계산 언어학에 크게 기여하며, 아랍어 학습, 학술 글쓰기, 전문 커뮤니케이션을 위한 가치 있는 도구를 제공한다.
동적 개방형 환경에서의 탐색 학습은 로봇에게 중요하면서도 어려운 기술입니다. 대부분의 기존 방법은 정확한 위치 추정 및 매핑에 의존하거나 비용이 많이 드는 실제 세계 시연 데이터로부터 학습합니다. 본 논문에서는 시뮬레이션에서만 훈련된 후 다양한 실제 환경에서 다른 형태의 로봇으로 제로샷 전이가 가능한 종단 간 프레임워크인 Navigation Diffusion Policy(NavDP)를 제안합니다. NavDP 네트워크의 핵심 요소는 확산 기반 궤적 생성과 궤적 선택을 위한 비평가 함수의 결합으로, 이는 공유 정책 트랜스포머에서 인코딩된 지역 관측 토큰에만 조건화됩니다. 시뮬레이션에서 전역 환경의 특권 정보를 활용하여 고품질 시연 데이터를 대규모로 확장하여 확산 정책을 훈련하고, 대조적 부정 샘플을 사용하여 비평가 값 함수 목표를 공식화합니다. 우리의 시연 데이터 생성 접근법은 하루에 GPU당 약 2,500개의 궤적을 생성하며, 이는 실제 세계 데이터 수집보다 20배 더 효율적이고, 1244개의 장면에서 363.2km에 달하는 대규모 탐색 데이터셋을 생성합니다. 이 시뮬레이션 데이터셋으로 훈련된 NavDP는 다양한 실내외 환경에서 사족 보행, 휠드, 휴머노이드 로봇에 대해 최첨단 성능과 탁월한 일반화 능력을 일관되게 달성합니다. 또한, 시뮬레이션과 실제 간 격차를 더욱 줄이기 위해 Gaussian Splatting을 사용한 도메인 내 실제-시뮬레이션 미세 조정을 시도한 예비 실험을 제시합니다. 실험 결과, 이러한 실제-시뮬레이션 데이터를 추가하면 일반화 능력을 저해하지 않으면서 성공률을 30% 향상시킬 수 있음을 보여줍니다.
다양한 도메인에서 에이전트 기반 워크플로우의 활용이 증가함에 따라, 이러한 시스템이 생성하는 복잡한 트레이스를 확장 가능하고 체계적으로 평가할 필요성이 대두되고 있습니다. 현재의 평가 방법은 수동적이고 도메인 특화된 인간 분석에 의존하여 긴 워크플로우 트레이스를 분석하는 방식으로, 이는 에이전트 출력의 복잡성과 양이 증가함에 따라 확장성이 부족합니다. 이러한 환경에서의 오류 분석은 외부 도구 출력과 언어 모델 추론 간의 상호작용으로 인해 더욱 복잡해져, 전통적인 소프트웨어 디버깅보다 더 어려운 과제가 됩니다. 본 연구에서는 (1) 에이전트 워크플로우 트레이스를 위한 강력하고 동적인 평가 방법의 필요성을 명확히 하고, (2) 에이전트 시스템에서 발생하는 오류 유형에 대한 공식적인 분류 체계를 소개하며, (3) 이 분류 체계를 기반으로 구축된 148개의 대규모 인간 주석 트레이스(TRAIL)를 제시합니다. 생태학적 타당성을 보장하기 위해, 단일 및 다중 에이전트 시스템에서의 트레이스를 선별하고, 소프트웨어 엔지니어링 및 개방형 세계 정보 검색과 같은 실제 응용 사례에 초점을 맞췄습니다. 평가 결과, 현대의 장문맥 LLM은 트레이스 디버깅에서 낮은 성능을 보였으며, 가장 우수한 Gemini-2.5-pro 모델도 TRAIL에서 단 11%의 점수를 기록했습니다. 본 데이터셋과 코드는 공개되어, 에이전트 워크플로우의 확장 가능한 평가를 위한 향후 연구를 지원하고 가속화할 수 있도록 합니다.
우리는 이론적으로 일반화가 데이터 스케일링뿐만 아니라 내부 표현의 압축을 통해서도 개선됨을 증명한다. 이러한 통찰을 실질적으로 적용하기 위해, 우리는 정보 병목 언어 모델링(Information Bottleneck Language Modeling, IBLM) 목적 함수를 제안한다. 이는 언어 모델링을 최적 예측 성능을 유지하면서 표현 엔트로피를 최소화하는 제약 최적화 문제로 재구성한다. 실증적으로, 우리는 대규모 언어 모델(LLM) 사전 학습 과정에서 기억-압축 주기가 나타남을 관찰하였다. 이는 교차 엔트로피와 표현 엔트로피의 측정치인 행렬 기반 엔트로피(Matrix-Based Entropy, MBE) 간의 양/음의 그래디언트 정렬이 진동하는 것으로 확인된다. 이 패턴은 IBLM이 규정한 예측-압축 상충 관계와 밀접하게 일치하며, 생물학적 각성 학습과 수면 통합 간의 교대와도 유사하다. 이러한 관찰에 동기를 받아, 우리는 기억 단계와 압축 단계를 적응적으로 전환하는 학습 알고리즘인 Gated Phase Transition(GAPT)을 제안한다. GPT-2 모델을 FineWeb 데이터셋으로 사전 학습할 때 GAPT를 적용하면 MBE가 50% 감소하고 교차 엔트로피가 4.8% 개선된다. 또한, 산술 곱셈 사전 학습 과제에서 GAPT는 OOD(Out-Of-Distribution) 일반화를 35% 향상시킨다. 치명적 망각(catastrophic forgetting)을 시뮬레이션하도록 설계된 환경에서 GAPT는 표현을 압축하고 분리하여 간섭을 줄이며, 분리 정도가 97% 개선되는 결과를 보인다. 이는 수면 통합의 기능적 역할과 유사한 성과를 보여준다.
복잡한 활동에서 인간의 기술 수준을 평가하는 것은 스포츠, 재활, 훈련 등 다양한 분야에 응용 가능한 도전적인 문제입니다. 본 연구에서는 자기 중심적(egocentric) 및 타자 중심적(exocentric) 비디오로부터 통합된 다중 시점 숙련도 추정을 위한 파라미터 효율적 아키텍처인 SkillFormer를 제안합니다. SkillFormer는 TimeSformer 백본을 기반으로 하며, 다중 헤드 교차 주의(multi-head cross-attention), 학습 가능한 게이팅(learnable gating), 그리고 적응형 자체 보정(adaptive self-calibration)을 통해 시점별 특성을 융합하는 CrossViewFusion 모듈을 도입했습니다. 또한, Low-Rank Adaptation을 활용하여 소수의 파라미터만 미세 조정함으로써 학습 비용을 크게 절감했습니다. 실제로 EgoExo4D 데이터셋에서 평가한 결과, SkillFormer는 다중 시점 설정에서 최첨단 정확도를 달성하면서도 놀라운 계산 효율성을 보였으며, 기존 베이스라인 대비 4.5배 적은 파라미터를 사용하고 3.75배 적은 학습 에폭을 요구했습니다. 이 아키텍처는 여러 구조화된 작업에서 우수한 성능을 보이며, 세밀한 기술 평가를 위한 다중 시점 통합의 가치를 확인했습니다.
대규모 언어 모델은 높은 작업 성능을 달성하지만 종종 환각을 일으키거나 오래된 지식에 의존하는 경우가 많다. 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 이러한 격차를 해소하기 위해 생성 과정에 외부 검색을 결합한다. 본 연구에서는 RAG 시스템에서 하이퍼파라미터가 속도와 품질에 미치는 영향을 분석하며, Chroma와 Faiss 벡터 저장소, 청킹 정책, 크로스-인코더 재순위화, 그리고 온도를 다룬다. 또한, 신뢰성, 답변 정확성, 답변 관련성, 컨텍스트 정밀도, 컨텍스트 재현율, 답변 유사성 등 여섯 가지 메트릭을 평가한다. Chroma는 쿼리를 13% 더 빠르게 처리하는 반면, Faiss는 더 높은 검색 정밀도를 제공하여 명확한 속도-정확도 트레이드오프를 보여준다. 작은 윈도우와 최소 중첩을 사용한 단순 고정 길이 청킹은 의미론적 분할을 능가하면서도 가장 빠른 옵션으로 남아 있다. 재순위화는 검색 품질을 약간 향상시키지만 런타임을 약 5배 증가시키므로, 그 유용성은 지연 시간 제약에 따라 달라진다. 이러한 결과는 RAG 시스템을 튜닝하여 투명하고 최신의 응답을 얻기 위해 계산 비용과 정확성 사이의 균형을 맞추는 데 도움을 준다. 마지막으로, 수정적 RAG 워크플로우를 통해 최상의 구성을 재평가하고, 모델이 반복적으로 추가 증거를 요청할 수 있을 때 그 장점이 지속됨을 보여준다. 거의 완벽한 컨텍스트 정밀도(99%)를 달성하여, RAG 시스템이 적절한 하이퍼파라미터 조합을 통해 극도로 높은 검색 정확성을 달성할 수 있음을 입증한다. 이는 검색 품질이 하위 작업 성능에 직접적인 영향을 미치는 응용 분야, 예를 들어 의료 분야의 임상 의사 결정 지원 등에 중요한 시사점을 제공한다.
다중모달 리뷰 유용성 예측(Multimodal Review Helpfulness Prediction, MRHP)은 특히 전자상거래 플랫폼에서 추천 시스템의 핵심 과제입니다. 사용자 생성 리뷰의 유용성을 판단하는 것은 사용자 경험을 향상시키고 소비자의 의사결정을 개선하는 데 기여합니다. 그러나 기존 데이터셋은 주로 영어와 인도네시아어에 집중되어 있어, 베트남어와 같은 저자원 언어의 경우 언어적 다양성이 부족한 실정입니다. 본 논문에서는 베트남어 MRHP 작업을 위한 대규모 벤치마크 데이터셋인 ViMRHP(Vietnamese Multimodal Review Helpfulness Prediction)를 소개합니다. 이 데이터셋은 4개 도메인을 포괄하며, 2천 개의 제품과 4만 6천 개의 리뷰를 포함합니다. 한편, 대규모 데이터셋 구축에는 상당한 시간과 비용이 소요됩니다. 이를 위해, 우리는 주석 작업 과정을 최적화하기 위해 AI를 활용하여 ViMRHP 데이터셋 구축을 지원합니다. AI 지원을 통해 주석 작업 시간이 단축되었으며(작업당 90~120초에서 20~40초로 감소), 데이터 품질을 유지하면서 전체 비용을 약 65% 절감할 수 있었습니다. 그러나 복잡한 주석 작업에서 AI 생성 주석은 여전히 한계를 보이며, 이에 대한 상세한 성능 분석을 통해 추가적으로 검토합니다. ViMRHP 실험에서는 인간 검증 주석과 AI 생성 주석에 대한 베이스라인 모델을 평가하여 품질 차이를 분석합니다. ViMRHP 데이터셋은 https://github.com/trng28/ViMRHP에서 공개되어 있습니다.
우리는 테스트 주도 개발(TDD) 작업에서 대형 언어 모델(LLM)을 평가하기 위한 새로운 벤치마크인 WebApp1K를 소개합니다. 이 벤치마크에서는 테스트 케이스가 코드 생성을 위한 프롬프트와 검증 도구로 동시에 사용됩니다. 자연어 프롬프트에 의존하는 기존 접근 방식과 달리, 우리의 벤치마크는 LLM이 테스트 케이스로부터 기능을 직접 해석하고 구현하는 능력을 강조하며, 이는 실제 소프트웨어 개발 관행을 반영합니다. 20개의 애플리케이션 도메인에 걸쳐 1000개의 다양한 과제로 구성된 이 벤치마크는 LLM이 컨텍스트 길이와 다중 기능 복잡성의 제약 하에서 간결하고 기능적인 코드를 생성하는 능력을 평가합니다. 우리의 연구 결과는 TDD 성공에 있어 지시 사항 준수와 컨텍스트 내 학습이 일반적인 코딩 숙련도나 사전 학습 지식보다 더 중요한 능력임을 강조합니다. 19개의 최신 모델에 대한 포괄적인 평가를 통해, 긴 프롬프트에서의 지시 사항 손실과 같은 성능 병목 현상을 밝히고, 여러 근본 원인에 걸친 상세한 오류 분석을 제공합니다. 이 작업은 TDD 전용 벤치마크의 실용적 가치를 강조하며, 엄격한 애플리케이션 중심 코딩 시나리오에서 LLM 역량을 발전시키기 위한 기반을 마련합니다.