번역이 포함된 일일 선별된 AI 연구 논문
과학 문헌 이해는 특정 정보를 추출하고 통찰력을 얻어 과학 발견을 크게 발전시키는 데 중요합니다. 대형 언어 모델(LLM)의 놀라운 성공에도 불구하고, 그들은 주로 (1) 과학적 지식의 부족과 (2) 전문적인 과학 작업에 대한 익숙하지 않음으로 인해 과학 문헌 이해에 어려움을 겪습니다. 과학 문헌 이해에 특화된 LLM을 개발하기 위해, 과학 도메인 지식을 동시에 주입하고 도메인별 작업을 위한 지시 따르기 능력을 향상시키기 위해 계속적 사전 훈련(CPT)과 지도된 세밀한 미세 조정(SFT)을 통합하는 하이브리드 전략을 제안합니다. 이 과정에서 두 가지 주요 도전 과제를 식별합니다: (1) 고품질 CPT 말뭉치 구축 및 (2) 다양한 SFT 지시 생성. 우리는 PDF 텍스트 추출, 구문 내용 오류 수정, 품질 필터링 및 합성 지시 생성을 포함한 세심한 파이프라인을 통해 이러한 도전 과제에 대처합니다. 이 전략을 적용하여, 우리는 과학 문헌 이해에 특화된 SciLitLLM이라는 일련의 LLM을 제시합니다. 이 모델들은 과학 문헌 이해 벤치마크에서 융통성 있는 성능을 보여줍니다. 우리의 기여는 세 가지로 나뉩니다: (1) LLM을 과학 문헌 이해에 적응시키기 위해 CPT와 SFT를 통합하는 효과적인 프레임워크를 제시하며, 이는 다른 도메인에 쉽게 적용할 수 있습니다. (2) 다양하고 고품질의 과학 지시 생성을 위한 LLM 기반 합성 방법을 제안하여, 새로운 지시 세트인 SciLitIns를 생성하여 적은 표현된 과학 도메인에서의 지도된 세밀한 미세 조정을 위한 것입니다. (3) SciLitLLM은 과학 문헌 이해 벤치마크에서 융통성 있는 성능 향상을 달성합니다.
최근 텍스트-이미지 개인화 기술의 발전으로 사용자가 제공한 개념에 대한 고품질 및 제어 가능한 이미지 합성이 가능해졌습니다. 그러나 기존 방법은 여전히 신원 보존과 텍스트 정렬 사이의 균형을 유지하는 데 어려움을 겪고 있습니다. 저희의 접근 방식은 프롬프트에 맞게 정렬된 이미지를 생성하기 위해서는 프롬프트의 정확한 의미론적 이해가 필요하며, 이는 CLIP 텍스트 인코더 내에서 새로운 개념과 주변 문맥 토큰 간의 상호 작용을 정확하게 처리하는 것을 포함합니다. 이를 해결하기 위해, 우리는 새로운 개념을 텍스트 인코더의 입력 임베딩 공간에 적절하게 포함시킴으로써 기존 토큰들과의 원활한 통합을 가능케 하는 방법을 제안합니다. 우리는 새로운 개념의 텍스트 임베딩 학습을 강화하기 위해 Context Regularization (CoRe)을 도입합니다. 이는 프롬프트 내의 문맥 토큰을 정규화함으로써 새로운 개념의 텍스트 임베딩 학습을 강화합니다. 이는 새로운 개념의 텍스트 임베딩이 올바르게 학습되었을 때에만 프롬프트 내의 문맥 토큰에 대한 텍스트 인코더의 적절한 출력 벡터를 달성할 수 있다는 통찰에 기반합니다. CoRe는 해당 이미지를 생성하지 않고도 임의의 프롬프트에 적용할 수 있어 학습된 텍스트 임베딩의 일반화를 향상시킵니다. 또한 CoRe는 특정 프롬프트에 대한 생성을 더욱 향상시키기 위한 테스트 시 최적화 기술로 활용될 수 있습니다. 포괄적인 실험 결과는 우리의 방법이 신원 보존과 텍스트 정렬 모두에서 여러 기준선 방법을 능가함을 입증합니다. 코드는 공개적으로 제공될 예정입니다.
Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/.
위성에서 거리뷰 합성은 해당 위성 뷰 이미지로부터 현실적인 거리뷰 이미지를 생성하는 것을 목표로 합니다. 안정적인 확산 모델은 다양한 이미지 생성 응용 프로그램에서 높은 성능을 보여왔지만, 생성된 구조 또는 질감을 제어하기 위해 유사한 뷰 입력에 의존하는 점은 어려운 교차-뷰 합성 작업에 제한을 가합니다. 본 연구에서는 위성에서 거리뷰 합성을 위한 교차-뷰 확산 모델인 CrossViewDiff를 제안합니다. 뷰 간의 큰 차이로 인한 도전에 대응하기 위해 위성 장면 구조 추정 및 교차-뷰 질감 매핑 모듈을 설계하여 거리뷰 이미지 합성을 위한 구조적 및 질감적 제어를 구축합니다. 더 나아가, 위의 제어를 향상시킨 교차-뷰 주의 모듈을 통해 이러한 제어를 통합하는 교차-뷰 제어 안내 제거 과정을 설계합니다. 합성 결과를 보다 포괄적으로 평가하기 위해 표준 평가 메트릭에 보완으로 GPT 기반 점수화 방법을 설계합니다. 또한 이 작업에서 다양한 데이터 원본(예: 텍스트, 지도, 건물 높이 및 다중 시기 위성 이미지)의 영향을 탐구합니다. 세 개의 공개 교차-뷰 데이터셋 결과는 CrossViewDiff가 표준 및 GPT 기반 평가 메트릭 모두에서 현재 최첨단 기술을 능가하며, 시골, 교외 및 도시 장면에서 보다 현실적인 구조와 질감을 갖는 고품질 거리뷰 파노라마를 생성한다는 것을 보여줍니다. 이 작업의 코드 및 모델은 https://opendatalab.github.io/CrossViewDiff/에서 공개될 예정입니다.
고자원 언어 모델은 아프리카 맥락에서 종종 한계에 직면합니다. 거기에는 효율적이고 접근 가능하며 지역적으로 관련성이 있는 모델이 중요하며, 상당한 컴퓨팅 및 데이터 제약 사항 속에서도 필요합니다. 본 논문은 0.4 억 개의 매개변수를 갖는 소규모 언어 모델인 InkubaLM을 소개합니다. 이 모델은 기계 번역, 질의응답, AfriMMLU 및 AfriXnli 작업과 같은 작업에서 상당히 큰 매개변수 수와 더 많은 훈련 데이터를 갖는 모델과 성능이 비슷합니다. 특히, InkubaLM은 감성 분석에서 많은 큰 모델을 능가하며 여러 언어에 걸쳐 현저한 일관성을 보여줍니다. 이 작업은 효과적인 언어 모델이 상당한 자원에 의존해야 한다는 관행적 패러다임에 도전하는 중요한 진전을 나타냅니다. 저희 모델과 데이터셋은 \url{https://huggingface.co/lelapa}에서 공개되어 있어, 저자원 언어에 대한 연구 및 개발을 촉진하기 위해 제공됩니다.
확산 트랜스포머 모델(DiTs)은 전통적인 UNet에서 트랜스포머로 네트워크 아키텍처를 전환하여 이미지 생성에서 우수한 능력을 보여주었습니다. DiTs는 고해상도 비디오 생성 작업에 널리 적용되었지만, 그들의 큰 매개변수 크기는 엣지 장치에서 추론을 방해합니다. 벡터 양자화(VQ)는 모델 가중치를 코드북과 할당으로 분해하여 극도의 가중치 양자화를 허용하고 메모리 사용량을 크게 줄일 수 있습니다. 본 논문에서는 DiTs를 위한 빠른 사후 훈련 벡터 양자화 방법인 VQ4DiT을 제안합니다. 우리는 기존의 VQ 방법이 코드북만 보정하고 할당을 보정하지 않는 것을 발견했습니다. 이는 가중치 하위 벡터가 잘못된 할당에 배정되어 코드북에 일관되지 않은 그래디언트를 제공하고 최적의 결과를 얻지 못하게 합니다. 이러한 도전에 대처하기 위해 VQ4DiT은 유클리드 거리를 기반으로 각 가중치 하위 벡터에 대한 후보 할당 세트를 계산하고 가중 평균을 기반으로 하위 벡터를 재구성합니다. 그런 다음, 제로 데이터 및 블록별 보정 방법을 사용하여 세트에서 최적의 할당을 효율적으로 선택하면서 코드북을 보정합니다. VQ4DiT은 다양한 양자화 설정에 따라 단일 NVIDIA A100 GPU에서 20분에서 5시간이 소요되는 시간 내에 DiT XL/2 모델을 양자화합니다. 실험 결과, VQ4DiT은 모델 크기와 성능 균형에서 새로운 최고 수준을 수립하며, 이미지 생성 품질을 수용할만한 수준으로 유지하면서 가중치를 2비트 정밀도로 양자화합니다.
VoxCeleb Speaker Recognition Challenges (VoxSRC)는 2019년부터 2023년까지 매년 진행된 일련의 도전과 워크샵이었습니다. 이 도전들은 주로 다양한 설정에서 화자 인식과 다이어라이제이션 작업을 평가했는데, 이는 폐쇄 및 공개 훈련 데이터뿐만 아니라 지도, 자기 지도 및 반지도 학습을 통한 도메인 적응에 대한 것도 포함했습니다. 이 도전들은 또한 각 작업 및 설정에 대해 공개적으로 이용 가능한 훈련 및 평가 데이터셋을 제공하며, 매년 새로운 테스트 세트를 공개했습니다. 본 논문에서는 이러한 도전들을 검토하며, 탐구한 내용, 도전 참가자들이 개발한 방법 및 이러한 방법이 어떻게 발전했는지, 그리고 화자 확인 및 다이어라이제이션 분야의 현재 상태에 대해 다룹니다. 우리는 도전의 다섯 차수에 걸쳐 공통 평가 데이터셋에서의 성능 향상을 추적하고, 매 해의 특별한 초점이 참가자들의 성능에 어떻게 영향을 미쳤는지에 대해 상세한 분석을 제공합니다. 본 논문은 화자 인식 및 다이어라이제이션 분야의 개요를 원하는 연구자들과 VoxSRC 도전의 성공을 활용하고 실수를 피하려는 도전 주최자들을 대상으로 합니다. 우리는 분야의 현재 강점과 열린 도전에 대한 토론으로 마무리합니다. 프로젝트 페이지: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
ColBERT와 같은 다중 벡터 밀집 모델은 정보 검색에서 매우 효과적임이 입증되었습니다. ColBERT의 늦은 상호작용 점수는 바이-인코더 아키텍처와 최근 색인 및 검색 최적화 덕분에 교차 인코더에서 볼 수 있는 공동 쿼리-문서 주의를 근접하게 근사하면서 전통적인 밀집 검색 모델에 가까운 추론 효율성을 유지합니다. 본 논문에서는 ColBERT 모델 아키텍처 및 교육 파이프라인에 여러 개선 사항을 소개하며, 특히 이질적 다국어 데이터에 적합한 기존의 단일 벡터 임베딩 모델 패러다임에서 성공적인 기법을 활용합니다. 새로운 모델인 Jina-ColBERT-v2는 이전 모델과 비교하여 최대 50%의 저장 요구 사항을 줄이면서 영어 및 다국어 검색 작업 범위에서 강력한 성능을 보여줍니다.
문서 요약은 텍스트를 간결하고 정보를 풍부하게 요약하는 작업입니다. 본 논문은 여러 과학 논문을 설문 조사 부분으로 요약하는 새로운 데이터셋을 소개합니다. 우리의 기여는 다음과 같습니다: (1) 도메인 특화 요약 도구의 공백을 해결하는 새로운 데이터셋인 SurveySum; (2) 과학 논문을 설문 조사 부분으로 요약하는 두 가지 구체적인 파이프라인; 그리고 (3) 이러한 파이프라인을 평가하기 위해 여러 지표를 사용하여 성능을 비교합니다. 우리의 결과는 고품질 검색 단계의 중요성과 생성된 요약의 품질에 대한 다양한 구성의 영향을 강조합니다.
이미지는 점점 더 생물 다양성을 문서화하는 데 사용되는 통화가 되고 있으며, 대규모 시각-언어 모델(VLMs)의 등장으로 생물학 분야에서 과학적 발견을 가속화하는 새로운 기회를 제공하고 있습니다. 우리는 사전 훈련된 VLMs가 추가적인 세밀 조정 없이 다양한 생물학적 관련 질문에 대답하는 데 과학자들을 지원할 수 있는지 여쭤봅니다. 본 논문에서는 새로운 데이터셋인 VLM4Bio를 사용하여 생물학 분야에서 12개의 최신 기술(SOTA) VLMs의 효과를 평가합니다. 이 데이터셋은 3만 마리의 이미지를 포함한 46.9만 개의 질문-답변 쌍으로 구성되어 있으며, 물고기, 새, 나비 세 그룹의 생물에 관한 다섯 가지 생물학적 관련 작업을 다룹니다. 또한 프롬프팅 기술의 적용 효과와 추론 환각에 대한 테스트에 대해 탐구하여, 이미지를 사용하여 현재 SOTA VLMs의 성능을 통해 생물학적 관련 질문에 대답하는 능력에 대한 새로운 통찰을 제공합니다. 본 논문에서 보고된 모든 분석을 실행하기 위한 코드 및 데이터셋은 https://github.com/sammarfy/VLM4Bio에서 찾을 수 있습니다.
기후 변화로 인한 온도 상승을 감지하고 소속하는 것은 지구 온난화를 이해하고 적응 전략을 안내하는 데 중요합니다. 인간이 유발한 기후 신호를 자연 변동에서 구별하는 복잡성은 기존의 감지 및 소속 (D&A) 방법에 도전을 주었으며, 이 방법은 기후 응답 변수에서 특정 "지문"을 식별하려고 합니다. 딥 러닝은 광범위한 공간 데이터셋에서 이러한 복잡한 패턴을 구별하는 데 잠재력을 제공합니다. 그러나 표준 프로토콜의 부재로 인해 연구 간 일관된 비교가 방해되었습니다. 저희는 모델 정확도를 향상시키기 위해 설계된 816k개 이상의 매일 기후 스냅샷을 포함하는 표준화된 데이터셋인 ClimDetect를 소개합니다. ClimDetect는 지난 연구에서 사용된 다양한 입력 및 대상 변수를 통합하여 비교 가능성과 일관성을 보장합니다. 또한 이 문맥에서 혁신적이고 현대적인 접근 방식인 비전 트랜스포머 (ViT)의 기후 데이터 적용을 탐구합니다. 저희의 공개 데이터와 코드는 향상된 모델 평가를 통해 기후 과학 발전을 위한 기준으로 제공됩니다. ClimDetect는 Huggingface 데이터셋 저장소를 통해 공개적으로 접근할 수 있습니다: https://huggingface.co/datasets/ClimDetect/ClimDetect.
본 논문에서는 대규모 언어 모델(Large Language Models, LLMs)의 세밀 조정에 CUR 행렬 분해를 활용하는 Low-Rank Adaptation (LoRA) 맥락에서 새로운 방법인 CURLoRA를 소개합니다. 저희 방법은 LLM 세밀 조정 중 발생하는 잊혀짐 증상을 완화하고 조정 가능한 매개변수의 수를 줄이는 두 가지 중요한 과제에 대응합니다. 우리는 CUR 분해 과정에 독특한 수정을 제안하는데, 역확률을 사용하여 열과 행 선택에 암묵적 규제를 적용하고, U 행렬을 영 행렬로 초기화한 뒤 세밀 조정만을 수행합니다. 우리는 다양한 데이터셋에서의 실험을 통해 CURLoRA가 잊혀짐 증상을 완화하는 데 있어 표준 LoRA보다 우수한 성과를 보임을 입증합니다. 이는 모델의 안정성과 성능을 유지하면서 조정 가능한 매개변수의 수를 크게 줄이는 특징을 가지고 있습니다. 우리의 결과는 CURLoRA가 기존 모델의 놀라움 점수를 일정하게 유지하면서 지속적인 세밀 조정 시 LoRA에 비해 특히 데이터가 제한된 상황에서 매우 좋고 안정적인 작업 정확도를 달성한다는 것을 보여줍니다.
인공지능 분야가 발전함에 따라 보조 기술은 모든 산업에서 점점 더 널리 사용되고 있습니다. 의료 산업도 예외는 아니며, 수많은 연구가 의료 전문가들을 위한 보조 도구를 개발하기 위해 수행되고 있습니다. 자동 진단 시스템은 환자 정보 수집, 검사 결과 분석, 환자 진단 등 다양한 작업을 지원할 수 있는 유용한 도구 중 하나입니다. 그러나 대부분의 연구에서는 차별 진단을 제공할 수 있는 시스템을 개발하는 아이디어가 크게 간과되었습니다. 본 연구에서는 환자의 연령, 성별, 의료 기록 및 증상을 기반으로 차별 진단을 제공하기 위한 트랜스포머 기반 접근 방식을 제안합니다. 우리는 49가지 질병 유형을 기반으로 환자에 대한 차별 진단 정보를 제공하는 DDXPlus 데이터셋을 사용합니다. 먼저, 데이터셋에서의 표 형식의 환자 데이터를 처리하고 연구에 적합하도록 환자 보고서로 변환하는 방법을 제안합니다. 또한, 훈련 데이터를 다양화하고 모델의 견고성을 향상시키기 위해 두 가지 데이터 수정 모듈을 소개합니다. 우리는 이 작업을 다중 레이블 분류 문제로 접근하고 네 가지 트랜스포머 모델을 사용하여 포괄적인 실험을 수행합니다. 모든 모델은 보유한 테스트 세트에서 97% 이상의 F1 점수를 달성함으로써 유망한 결과를 보여주었습니다. 더불어, 모델을 보다 폭넓게 이해하기 위해 추가적인 행동 테스트를 설계했습니다. 특히, 특정 테스트 케이스 중 하나에서 의사의 지원을 받아 100개의 샘플로 구성된 사용자 정의 테스트 세트를 준비했습니다. 사용자 정의 세트에서의 결과는 우리가 제안한 데이터 수정 모듈이 모델의 일반화 능력을 향상시켰음을 보여주었습니다. 우리의 연구 결과가 미래 연구자들에게 유용한 통찰력을 제공하고 신뢰할 수 있는 자동 차별 진단 시스템을 개발하는데 영감을 줄 것으로 기대합니다.
Transformer 아키텍처는 생물정보학을 혁신하고 생체분자의 특성을 이해하고 예측하는 진전을 이끌어냈습니다. 대부분의 대규모 생물서열 transformer에 대한 연구는 한 번에 한 도메인(단일-오믹)에 집중되어 왔으며, 일반적으로 염기 또는 펩타이드입니다. 이러한 모델들은 각 도메인의 하류 작업에서 놀라운 성공을 거두었으며, 특히 펩타이드 서열 및 구조 모델링에서 주목할만한 진전을 이루었습니다. 그러나 이러한 단일-오믹 모델들은 자연스럽게 다중-오믹 작업을 모델링하는 데 적합하지 않으며, 그 중에서도 가장 생물학적으로 중요한 핵산-펩타이드 상호작용이 그 중 하나입니다. 저희는 첫 번째 다중-오믹 핵산-펩타이드 기반 모델을 훈련하는 작업을 제시합니다. 이 다중-오믹 모델(MOMs)은 레이블이 없는 생물서열에만 훈련되었음에도 분자생물학의 중심 독설과 일관성을 갖는 다양한 단일-오믹 분포 간의 공동 표현을 학습할 수 있다는 것을 보여줍니다. 더 나아가 MOMs가 펩타이드-핵산 상호작용 작업에서 최첨단 결과를 달성하기 위해 세밀하게 조정될 수 있음을 입증합니다. 즉, 주어진 올리고뉴클레오티드와 펩타이드 간 결합 상호작용의 Gibbs 자유 에너지 변화({\Delta}G) 및 올리고뉴클레오티드 서열의 돌연변이로 인한 이 결합 상호작용에 대한 영향({\Delta}{\Delta}G)을 예측하는 것입니다. 놀랍게도, 우리는 다중-오믹 생물서열 transformer가 어떠한 사전 구조적 훈련도 없이 유용한 구조 정보를 도출하며, 펩타이드-핵산 결합 상호작용에서 어떤 펩타이드 잔기가 가장 관련되어 있는지 예측할 수 있음을 보여줍니다. 마지막으로, 다중-오믹 생물서열 모델이 단일-오믹 분포에 훈련된 기반 모델에 뒤지지 않음을 입증하며, 이는 이러한 모델을 구축하는 보다 일반화된 또는 기본적인 접근법을 시사합니다.
파라미터 효율적인 미세 조정(PEFT) 방법은 대형 언어 모델(LLM)의 사용을 대중화시키고 인기를 얻었습니다. 최근 연구에서는 일부 가중치의 소규모 하위 집합이 성능에 큰 영향을 미친다는 것을 보여주었습니다. 이 관찰을 기반으로, 우리는 새로운 PEFT 방법인 중요 가중치에 가우시안 노이즈를 주입하는 Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW) 방법을 소개합니다. 우리의 방법은 중요한 열만 업데이트하고 중요하지 않은 열에 가우시안 노이즈를 주입합니다. 이러한 열을 식별하기 위해, 이전 연구에서의 측정 항목을 확장하고 통합하는 일반화된 민감도 측정 항목을 개발했습니다. LLaMA 모델을 사용한 실험 결과, GIFT-SW가 동일한 계산 예산 하에서 완전한 미세 조정 및 최신 PEFT 방법을 능가함을 보여줍니다. 게다가, GIFT-SW는 중요한 가중치를 완전한 정밀도로 유지하면서 혼합 정밀도 양자화를 받은 모델의 성능을 회복하는 실용적인 장점을 제공합니다.
다양한 서술을 압축함으로써, LLM은 암기를 넘어서 일반화 가능한 인과 관계를 포착함으로써 지능을 달성합니다. 그러나 충분한 훈련 데이터 다양성 부족으로 인해 지역적 '표현 공백'에 시달리며, 특히 규칙에 엄격하게 정렬이 필요한 작업에서는 실제 세계에서의 유용성이 제한됩니다. 무거운 인간 주석에 의존하는 전통적 정렬 방법은 비효율적이고 확장이 어렵습니다. 최근의 자기 정렬 기술도 자주 자기 선택 기반 프롬프팅 및 암기 기반 학습에 의존하기 때문에 부족합니다. 이러한 문제를 해결하기 위해, 우리는 주석 없는 규칙 기반 정렬 알고리즘인 반복 그래프 정렬 (IGA)을 소개합니다. 교사 모델 (VLM)은 반복적 그래프 프롬프팅 (IGP)을 사용하여 논리적 그래프와 참조 답변을 생성합니다. 학생 모델 (LLM)은 이러한 참조와 자신의 응답을 정렬하려고 시도함으로써 지역적 지식 공백을 식별하고, 도우미 모델과 협력하여 다양한 답변을 생성합니다. 이러한 정렬된 응답은 반복적 지도 학습 미세 조정 (SFT)에 사용됩니다. 다섯 가지 규칙 기반 시나리오에서의 평가는 IGP의 효과를 입증하며, Claude Sonnet 3.5에서 73.12\%의 정렬 향상을 보여주고, Llama3-8B-Instruct는 86.20\%의 향상을 달성하여 규칙 기반 정렬에서 Claude Sonnet 3.5를 능가합니다.