번역이 포함된 일일 선별된 AI 연구 논문
웹 탐색은 반복적인 실생활 작업을 자동화할 수 있는 독특한 분야이며, 일반적인 멀티모달 대형 언어 모델(MLLM) 작업을 넘어서는 장기적 순차적 의사결정을 요구하기 때문에 도전적인 과제입니다. 그러나 지금까지 훈련 및 테스트 시간 모두에 활용할 수 있는 웹 탐색 전용 보상 모델은 존재하지 않았습니다. 속도와 비용 효율성의 중요성에도 불구하고, 기존 연구에서는 MLLM을 보상 모델로 사용하여 실제 배포에 상당한 제약을 가했습니다. 이를 해결하기 위해, 본 연구에서는 웹 탐색 궤적을 단계별로 평가할 수 있는 최초의 프로세스 보상 모델(PRM)인 Web-Shepherd를 제안합니다. 이를 위해, 먼저 다양한 도메인과 난이도를 아우르는 40,000개의 단계별 선호 쌍과 주석이 달린 체크리스트로 구성된 대규모 데이터셋인 WebPRM Collection을 구축했습니다. 다음으로, PRM을 평가하기 위한 최초의 메타 평가 벤치마크인 WebRewardBench를 소개합니다. 실험에서 우리의 Web-Shepherd는 WebRewardBench에서 GPT-4o를 사용했을 때보다 약 30점 더 높은 정확도를 달성했습니다. 또한, GPT-4o-mini를 정책으로 사용하고 Web-Shepherd를 검증자로 사용하여 WebArena-lite에서 테스트했을 때, GPT-4o-mini를 검증자로 사용했을 때보다 10.9점 더 나은 성능을 달성했으며, 비용도 10배 더 적게 들었습니다. 우리의 모델, 데이터셋, 코드는 LINK에서 공개적으로 이용 가능합니다.
우리는 텍스트 추론, 멀티모달 이해, 텍스트-이미지 생성 등 다양한 영역에서 우수한 성능을 달성하기 위해 설계된 새로운 클래스의 멀티모달 디퓨전 기반 모델인 MMaDA를 소개합니다. 이 접근 방식은 세 가지 주요 혁신으로 구별됩니다: (i) MMaDA는 공유된 확률적 공식과 모달리티-불가지론적 설계를 갖춘 통합 디퓨전 아키텍처를 채택하여 모달리티별 구성 요소의 필요성을 제거합니다. 이 아키텍처는 다양한 데이터 유형 간의 원활한 통합과 처리를 보장합니다. (ii) 우리는 모달리티 간 통합 CoT(Chain-of-Thought) 형식을 정제하는 혼합 장기 CoT 미세 조정 전략을 구현합니다. 텍스트와 시각적 영역 간의 추론 프로세스를 정렬함으로써, 이 전략은 최종 강화 학습(RL) 단계를 위한 콜드 스타트 학습을 용이하게 하여 모델이 처음부터 복잡한 작업을 처리할 수 있는 능력을 향상시킵니다. (iii) 우리는 디퓨전 기반 모델에 특화된 통합 정책 기반 RL 알고리즘인 UniGRPO를 제안합니다. 다양한 보상 모델링을 활용하여 UniGRPO는 추론과 생성 작업 모두에 걸쳐 사후 학습을 통합하여 일관된 성능 향상을 보장합니다. 실험 결과는 MMaDA-8B가 통합 멀티모달 기반 모델로서 강력한 일반화 능력을 보여줌을 입증합니다. 이 모델은 텍스트 추론에서 LLaMA-3-7B와 Qwen2-7B와 같은 강력한 모델을 능가하고, 멀티모달 이해에서 Show-o와 SEED-X를 능가하며, 텍스트-이미지 생성에서 SDXL과 Janus를 능가합니다. 이러한 성과는 MMaDA가 통합 디퓨전 아키텍처 내에서 사전 학습과 사후 학습 간의 격차를 해소하는 데 효과적임을 강조하며, 향후 연구와 개발을 위한 포괄적인 프레임워크를 제공합니다. 우리는 코드와 학습된 모델을 https://github.com/Gen-Verse/MMaDA에서 오픈소스로 공개합니다.
대형 언어 모델(LLM)은 상당한 계산 및 메모리 자원을 요구하여 배포에 어려움을 야기합니다. 양자화 인지 학습(QAT)은 이러한 문제를 해결하기 위해 모델 정밀도를 줄이면서도 성능을 유지합니다. 그러나 특히 4비트 정밀도(W4A4)에서의 QAT 스케일링 동작은 잘 이해되지 않고 있습니다. 기존의 QAT 스케일링 법칙은 종종 학습 토큰 수와 양자화 세분성과 같은 핵심 요소를 무시하여 그 적용 가능성이 제한됩니다. 본 논문은 모델 크기, 학습 데이터 양, 양자화 그룹 크기의 함수로 양자화 오류를 모델링하는 통합된 QAT 스케일링 법칙을 제안합니다. 268개의 QAT 실험을 통해, 양자화 오류는 모델 크기가 증가함에 따라 감소하지만, 더 많은 학습 토큰과 더 거친 양자화 세분성에서는 증가함을 보여줍니다. W4A4 양자화 오류의 원인을 파악하기 위해, 이를 가중치와 활성화 구성 요소로 분해합니다. 두 구성 요소 모두 W4A4 양자화 오류의 전반적인 추세를 따르지만, 서로 다른 민감도를 보입니다. 특히, 가중치 양자화 오류는 더 많은 학습 토큰과 함께 더 빠르게 증가합니다. 추가 분석은 이상치로 인한 FC2 계층의 활성화 양자화 오류가 W4A4 QAT 양자화 오류의 주요 병목 현상임을 보여줍니다. 이 병목 현상을 해결하기 위해 혼합 정밀도 양자화를 적용함으로써, 가중치와 활성화 양자화 오류가 유사한 수준으로 수렴할 수 있음을 입증합니다. 또한, 더 많은 학습 데이터를 사용할 경우, 가중치 양자화 오류는 결국 활성화 양자화 오류를 초과하여, 이러한 시나리오에서 가중치 양자화 오류를 줄이는 것도 중요함을 시사합니다. 이러한 발견들은 QAT 연구 및 개발을 개선하는 데 중요한 통찰을 제공합니다.
대규모 언어 모델(LLM) 기반 임베딩 모델은 대규모 사전 학습과 사후 학습을 통해 문서 검색과 같은 일반적인 텍스트 임베딩 작업에서 BERT 및 T5 기반 모델을 능가하기 시작했습니다. 그러나 LLM 임베딩의 근본적인 한계는 자동회귀적 사전 학습 과정에서 사용되는 단방향 어텐션에 있으며, 이는 텍스트 임베딩 작업의 양방향 특성과 맞지 않습니다. 이를 해결하기 위해, 우리는 특히 추론 작업에서 LLM을 능가하거나 동등한 성능을 보인 최근의 성공 사례와 양방향 아키텍처를 고려하여 확산 언어 모델을 텍스트 임베딩에 적용할 것을 제안합니다. 우리는 확산 언어 임베딩 모델에 대한 첫 번째 체계적인 연구를 제시하며, 이 모델은 장문 문서 검색에서 20%, 추론 집약적 검색에서 8%, 지시 따르기 검색에서 2% 더 나은 성능을 보였고, 전통적인 텍스트 임베딩 벤치마크에서도 경쟁력 있는 성능을 달성했습니다. 우리의 분석은 긴 복잡한 텍스트에서 전역 컨텍스트를 인코딩하는 데 양방향 어텐션이 중요함을 검증합니다.
기존의 시각적 그라운딩(visual grounding) 방법은 주로 단일 이미지 시나리오와 간단한 텍스트 참조에 초점을 맞추고 있습니다. 그러나 이러한 방법을 암묵적이고 복잡한 지시를 포함하며 다중 이미지와 결합된 실제 시나리오로 확장하는 것은 상당한 도전 과제로 남아 있습니다. 이는 주로 다양한 다중 모달(multi-modal) 컨텍스트에서의 고급 추론 능력 부족 때문입니다. 본 연구에서는 보다 실용적인 범용 그라운딩(universal grounding) 작업을 해결하고자 하며, 강화 학습(reinforcement learning, RL)과 콜드 스타트(cold-start) 데이터를 결합하여 추론 능력을 강화한 범용 시각적 그라운딩을 위한 다중 모달 대형 언어 모델(MLLM)인 UniVG-R1을 제안합니다. 구체적으로, 먼저 상세한 추론 체인(Chain-of-Thought, CoT)으로 주석이 달린 고품질 그라운딩 데이터셋을 구축하여 지도 미세 조정(supervised fine-tuning)을 통해 모델이 올바른 추론 경로를 따르도록 유도합니다. 이후, 규칙 기반 강화 학습을 수행하여 모델이 올바른 추론 체인을 식별하도록 장려함으로써 추론 능력을 강화합니다. 또한, RL 훈련이 진행됨에 따라 쉬운 샘플의 우세로 인해 발생하는 난이도 편향(difficulty bias)을 식별하고, 이를 해결하기 위해 난이도 인식 가중치 조정 전략을 제안하여 성능을 더욱 강화합니다. 실험 결과는 UniVG-R1의 효과를 입증하며, MIG-Bench에서 이전 방법 대비 9.1%의 성능 향상을 달성했습니다. 또한, 우리의 모델은 강력한 일반화 능력을 보여주며, 네 가지 이미지 및 비디오 추론 그라운딩 벤치마크에서 평균 23.4%의 제로샷(zero-shot) 성능 향상을 달성했습니다. 프로젝트 페이지는 https://amap-ml.github.io/UniVG-R1-page/에서 확인할 수 있습니다.
고품질 궤적 데이터의 확장은 인간과 유사한 컴퓨터 사용 에이전트 개발에 있어 오랫동안 중요한 병목 현상으로 여겨져 왔습니다. 우리는 대규모 인간 시연 데이터에 대한 의존도를 크게 줄이는 효율적인 에이전트 훈련 프레임워크인 PC Agent-E를 소개합니다. 단 312개의 인간 주석이 달린 컴퓨터 사용 궤적으로 시작하여, Claude 3.7 Sonnet을 활용해 다양한 행동 결정을 합성함으로써 데이터 품질을 더욱 향상시켰습니다. 이러한 풍부한 궤적 데이터로 훈련된 PC Agent-E 모델은 개선된 벤치마크인 WindowsAgentArena-V2에서 확장된 사고를 가진 강력한 Claude 3.7 Sonnet을 능가하며, 141%의 상대적 성능 향상을 달성했습니다. 또한, PC Agent-E는 OSWorld에서 다양한 운영 체제에 대한 강력한 일반화 능력을 보여주었습니다. 우리의 연구 결과는 소량의 고품질 궤적 데이터로도 강력한 컴퓨터 사용 능력을 자극할 수 있음을 시사합니다.
151백만 개의 파라미터를 가진 시계열 예측 기반 모델인 Toto를 소개합니다. Toto는 최신 디코더 전용 아키텍처를 사용하며, 다변량 관측 가능성 시계열 데이터에서 발견되는 특정 문제를 해결하기 위한 아키텍처 혁신을 도입했습니다. Toto의 사전 학습 코퍼스는 관측 가능성 데이터, 공개 데이터셋, 그리고 합성 데이터의 혼합으로 구성되어 있으며, 주요 시계열 기반 모델들의 코퍼스보다 4~10배 더 큽니다. 또한, 2,807개의 실제 시계열 데이터에 걸쳐 3억 5천만 개의 관측치를 포함하는 대규모 벤치마크인 BOOM을 소개합니다. Toto와 BOOM 모두에서 사용된 관측 가능성 데이터는 Datadog의 자체 원격 측정 및 내부 관측 가능성 메트릭에서 독점적으로 수집되었습니다. 광범위한 평가 결과, Toto는 BOOM뿐만 아니라 기존의 일반 목적 시계열 예측 벤치마크에서도 최첨단 성능을 달성함을 보여줍니다. Toto의 모델 가중치, 추론 코드, 평가 스크립트, 그리고 BOOM의 데이터와 평가 코드는 모두 Apache 2.0 라이선스 하에 오픈 소스로 제공되며, https://huggingface.co/Datadog/Toto-Open-Base-1.0와 https://github.com/DataDog/toto에서 확인할 수 있습니다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 강화 학습(Reinforcement Learning, RL)을 통해 복잡한 문제를 해결하는 데 있어 특히 긴 추론 흔적을 생성함으로써 놀라운 능력을 보여주었습니다. 그러나 이러한 확장된 출력은 종종 상당한 중복성을 보여 LRM의 효율성을 제한합니다. 본 논문에서는 추론 효율성을 촉진하기 위한 RL 기반 접근 방식을 조사합니다. 구체적으로, 먼저 길이 기반 보상 형성(lenght-based reward shaping)의 관점에서 다양한 효율적 추론 방법을 공식화하는 통합 프레임워크를 제시합니다. 이 관점을 바탕으로, 목표 길이에 의해 제어되는 단계 함수를 보상으로 사용하는 새로운 Length-bAsed StEp Reward shaping 방법(LASER)을 제안합니다. LASER는 이전 방법들을 능가하며 성능과 효율성 사이에서 우수한 파레토 최적 균형을 달성합니다. 다음으로, 두 가지 주요 직관을 기반으로 LASER를 더욱 확장합니다: (1) 모델의 추론 행동은 훈련 중에 진화하므로, 적응적이고 동적인 보상 명세가 필요합니다; (2) 짧거나 긴 사고 사슬(Chain of Thought, CoT)을 균일하게 장려하는 대신, 길이 기반 보상 형성은 난이도 인식적이어야 합니다. 즉, 쉬운 질문에 대해 긴 CoT를 더욱 강하게 처벌해야 합니다. 이 접근 방식은 빠른 사고와 느린 사고의 조합을 촉진하여 전반적으로 더 나은 균형을 이끌 것으로 기대됩니다. 이 결과로 나온 방법을 LASER-D(Dynamic and Difficulty-aware)라고 명명합니다. DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Qwen-32B에 대한 실험은 우리의 접근 방식이 추론 성능과 응답 길이 효율성을 모두 크게 향상시킨다는 것을 보여줍니다. 예를 들어, LASER-D와 그 변형은 AIME2024에서 +6.1의 개선을 달성하면서 토큰 사용량을 63% 줄입니다. 추가 분석은 우리의 RL 기반 압축이 더 간결한 추론 패턴과 더 적은 중복 "자기 반성"을 생성한다는 것을 보여줍니다. 리소스는 https://github.com/hkust-nlp/Laser에서 확인할 수 있습니다.
역사적 관찰과 행동 시퀀스를 기반으로 전이를 예측하는 월드 모델은 순차적 의사결정에서 데이터 효율성을 개선하는 데 큰 잠재력을 보여주고 있다. 그러나 기존의 월드 모델은 종종 광범위한 도메인 특화 학습을 필요로 하며, 여전히 낮은 충실도와 거친 예측을 생성함으로써 복잡한 환경에서의 적용 가능성을 제한하고 있다. 이와 대조적으로, 대규모 인터넷 규모 데이터셋으로 학습된 비디오 확산 모델은 다양한 실제 세계의 역동성을 포착하는 고품질 비디오를 생성하는 데 있어 인상적인 능력을 입증하였다. 본 연구에서는 사전 학습된 비디오 확산 모델을 활용하고 이를 인터랙티브 월드 모델로 전이시키는 일반적인 접근법인 Vid2World를 제안한다. Vid2World는 사전 학습된 비디오 확산 모델의 인과화를 수행하여, 그 아키텍처와 학습 목표를 조정함으로써 자기회귀적 생성을 가능하게 한다. 또한, 결과적으로 생성된 인터랙티브 월드 모델에서 행동 제어성을 강화하기 위해 인과적 행동 안내 메커니즘을 도입한다. 로봇 조작 및 게임 시뮬레이션 도메인에서의 광범위한 실험을 통해, 본 방법이 고성능 비디오 확산 모델을 인터랙티브 월드 모델로 재활용하는 데 있어 확장 가능하고 효과적인 접근법을 제공함을 입증하였다.
상세한 3D 장면을 획득하려면 일반적으로 고가의 장비, 다중 뷰 데이터, 또는 노동 집약적인 모델링이 필요합니다. 따라서 단일 탑다운 이미지에서 복잡한 3D 장면을 생성하는 경량화된 대안은 실제 응용에서 중요한 역할을 합니다. 최근 3D 생성 모델들은 객체 수준에서 뛰어난 결과를 달성했지만, 이를 전체 장면 생성으로 확장할 경우 일관되지 않은 기하학, 레이아웃 환각, 그리고 저품질 메쉬가 발생하는 문제가 있습니다. 본 연구에서는 단일 탑다운 뷰에서 현실적이고 일관된 3D 장면을 합성하기 위해 훈련이 필요 없는 프레임워크인 3DTown을 소개합니다. 우리의 방법은 두 가지 원칙에 기반합니다: 이미지-3D 정렬과 해상도를 개선하기 위한 영역 기반 생성, 그리고 전역 장면 일관성과 고품질 기하학 생성을 보장하기 위한 공간 인식 3D 인페인팅. 구체적으로, 입력 이미지를 겹치는 영역으로 분해하고 각 영역을 사전 훈련된 3D 객체 생성기를 사용하여 생성한 후, 구조적 연속성을 유지하면서 누락된 기하학을 채우는 마스크된 정류 흐름 인페인팅 프로세스를 적용합니다. 이 모듈식 설계는 해상도 병목 현상을 극복하고 공간 구조를 보존할 수 있게 해주며, 3D 지도나 미세 조정 없이도 가능합니다. 다양한 장면에 걸친 광범위한 실험을 통해 3DTown은 기하학 품질, 공간 일관성, 텍스처 충실도 측면에서 Trellis, Hunyuan3D-2, TripoSG와 같은 최첨단 베이스라인을 능가하는 것으로 나타났습니다. 우리의 결과는 단일 이미지에서도 원칙적이고 훈련이 필요 없는 접근법을 통해 고품질 3D 타운 생성이 가능함을 보여줍니다.
대형 추론 모델(LRMs)은 긴 추론 체인을 통해 뛰어난 성능을 달성하지만, 특히 간단한 작업에서 불필요한 추론으로 인해 과도한 계산 오버헤드가 발생하는 경우가 많습니다. 본 연구에서는 LRMs의 상한선을 Long-Thinking 및 No-Thinking 모드에서 체계적으로 정량화하고, 답변 생성 과정에서 모델이 암묵적으로 추론을 보완하는 "내부 자가 회복 메커니즘" 현상을 발견했습니다. 이러한 통찰을 바탕으로, 불필요한 추론을 억제하고 암묵적 회복을 가능하게 하는 적응형 자가 회복 추론(ASRR) 프레임워크를 제안합니다. 정확도 인식 길이 보상 규제를 도입함으로써, ASRR은 문제의 난이도에 따라 추론 노력을 적응적으로 할당하여 최소한의 성능 손실로 높은 효율성을 달성합니다. 다양한 벤치마크와 모델에서의 실험 결과, ASRR은 GRPO 대비 추론 예산을 최대 32.5%(1.5B) 및 25.7%(7B)까지 줄이면서도 최소한의 정확도 손실(1.2% 및 0.6% pass@1)을 보였으며, 안전성 벤치마크에서 무해율을 크게 향상시켰습니다(최대 +21.7%). 이러한 결과는 ASRR이 LRMs에서 효율적이고 적응적이며 더 안전한 추론을 가능하게 할 잠재력을 강조합니다.
비디오 게임을 플레이하려면 인지, 기억, 계획 능력이 필요하며, 이는 현대의 대형 언어 모델(LLM) 에이전트가 숙달해야 할 핵심 역량입니다. 우리는 현대 LLM을 평가하기 위해 인기 있는 비디오 게임을 사용할 때 발생하는 주요 문제를 연구했으며, LLM을 게임에 직접 적용하는 것이 효과적인 평가 방법이 될 수 없는 세 가지 이유를 발견했습니다: 취약한 시각 인지, 프롬프트 민감도, 그리고 잠재적인 데이터 오염 문제입니다. 이를 해결하기 위해 우리는 게임을 신뢰할 수 있는 평가 도구로 전환하는 lmgame-Bench를 소개합니다. lmgame-Bench는 플랫포머, 퍼즐, 내러티브 게임을 통합된 Gym 스타일 API로 제공하며, 경량화된 인지 및 기억 스캐폴드를 함께 제공합니다. 이 도구는 프롬프트 변동성을 안정화하고 데이터 오염을 제거하도록 설계되었습니다. 13개의 주요 모델을 대상으로 한 평가에서 lmgame-Bench는 도전적이면서도 모델들을 잘 구분할 수 있음을 보여줍니다. 상관관계 분석은 각 게임이 종종 별도로 테스트되는 다양한 역량의 독특한 조합을 탐구한다는 것을 보여줍니다. 더 흥미롭게도, lmgame-Bench의 단일 게임에서 강화 학습을 수행하면 보지 못한 게임과 외부 계획 작업으로의 전이가 가능합니다. 우리의 평가 코드는 https://github.com/lmgame-org/GamingAgent/lmgame-bench에서 확인할 수 있습니다.
인간은 학습과 논리적 문제 해결을 위해 자연스럽게 여러 추론 양식을 활용한다. 즉, 자연어, 코드, 기호 논리와 같은 다양한 표현 형식을 사용한다. 반면, 대부분의 기존 LLM(대형 언어 모델) 기반 접근법은 훈련 과정에서 단일 추론 양식, 일반적으로 자연어만을 사용한다. 일부 방법은 추론 시점에서 양식 선택 또는 확장을 탐구했지만, 훈련 과정은 여전히 양식에 무관하여 양식 간의 시너지를 제한한다. 이러한 격차를 메우기 위해, 우리는 Mixture-of-Thought(MoT) 프레임워크를 제안한다. 이 프레임워크는 LLM이 세 가지 상호 보완적인 양식, 즉 자연어, 코드, 그리고 새로 도입된 기호 양식인 진리표를 통해 추론할 수 있도록 한다. 진리표는 논리적 사례를 체계적으로 열거하고 자연어 추론에서의 주요 실패 모드를 부분적으로 완화한다. MoT는 두 단계 설계를 채택한다: (1) 자기 진화 MoT 훈련, 이는 양식 간 필터링된 자기 생성 근거로부터 공동 학습한다; (2) MoT 추론, 이는 세 가지 양식의 시너지를 최대한 활용하여 더 나은 예측을 생성한다. FOLIO와 ProofWriter를 포함한 논리적 추론 벤치마크에서의 실험은 우리의 MoT 프레임워크가 단일 양식 사고 사슬 접근법을 사용한 강력한 LLM 기준선을 일관되게 그리고 상당히 능가하며, 최대 +11.7pp 평균 정확도 향상을 달성함을 보여준다. 추가 분석은 우리의 MoT 프레임워크가 훈련과 추론 단계 모두에 이점을 제공하며, 특히 더 어려운 논리적 추론 문제에서 효과적이고, 서로 다른 양식이 상호 보완적인 강점을 제공하며, 진리표 추론이 자연어 추론에서의 주요 병목 현상을 극복하는 데 도움을 준다는 것을 보여준다.
OpenAI o1 및 DeepSeek-R1과 같은 대규모 추론 모델은 추론 영역에서 뛰어난 성능을 달성했습니다. 이들의 훈련에서 핵심 요소는 강화 학습(RL) 내에서 검증 가능한 보상의 통합입니다. 그러나 기존의 보상 벤치마크는 참조 기반 보상 시스템을 평가하지 않아, RL에서 사용되는 검증기의 정확성에 대한 연구자들의 이해가 제한적입니다. 본 논문에서는 참조 기반 보상 시스템의 성능을 평가하기 위해 VerifyBench과 VerifyBench-Hard라는 두 가지 벤치마크를 소개합니다. 이러한 벤치마크는 세심한 데이터 수집 및 정제 과정을 거쳐 구성되었으며, 높은 품질을 보장하기 위해 신중한 인간 주석이 수행되었습니다. 현재 모델들은 VerifyBench과 VerifyBench-Hard 모두에서 특히 소규모 모델들을 중심으로 상당한 개선의 여지가 있음을 보여줍니다. 더불어, 평가 결과에 대한 철저하고 포괄적인 분석을 수행하여, 참조 기반 보상 시스템을 이해하고 개발하는 데 유용한 통찰을 제공합니다. 우리가 제안한 벤치마크는 검증기의 정확성과 RL을 통해 훈련된 모델의 추론 능력을 향상시키는 데 효과적인 도구로 활용될 수 있습니다.
인간의 인지 과정은 일반적으로 엄격하게 이산적인 언어 토큰을 사용하기보다는 추상적이고 유연한 개념을 통해 사고하는 방식으로 이루어집니다. 그러나 현재의 추론 모델들은 인간 언어의 경계 내에서만 추론하도록 제한되어 있으며, 의미 공간에서 고정된 점을 나타내는 이산적인 토큰 임베딩을 처리합니다. 이러한 이산적 제약은 추론 모델의 표현력과 잠재력을 제한하며, 표준적인 Chain-of-Thought(CoT) 방법이 단계별로 하나의 토큰을 샘플링하는 방식에 의존하기 때문에 추론 경로의 불완전한 탐색을 초래하는 경우가 많습니다. 본 연구에서는 연속적인 개념 공간에서 부드럽고 추상적인 개념 토큰을 생성함으로써 인간과 유사한 "소프트" 추론을 모방하는 학습이 필요 없는 방법인 Soft Thinking을 소개합니다. 이러한 개념 토큰은 토큰 임베딩의 확률 가중 혼합에 의해 생성되며, 이는 연속적인 개념 공간을 형성하여 전통적인 이산적 경계를 초월하는 부드러운 전환과 더 풍부한 표현을 가능하게 합니다. 본질적으로, 생성된 각 개념 토큰은 관련된 이산적 토큰들의 다중 의미를 내포함으로써 다양한 추론 경로를 암묵적으로 탐색하고 효과적으로 정답으로 수렴합니다. 다양한 수학 및 코딩 벤치마크에서의 실험적 평가는 Soft Thinking의 효과성과 효율성을 일관되게 입증하며, 표준 CoT와 비교하여 pass@1 정확도를 최대 2.48점 향상시키고 토큰 사용량을 최대 22.4% 감소시킵니다. 질적 분석은 또한 Soft Thinking의 출력이 여전히 높은 해석 가능성과 가독성을 유지함을 보여주며, 이는 이산적 언어 기반 추론의 고유한 병목 현상을 극복할 수 있는 Soft Thinking의 잠재력을 강조합니다. 코드는 https://github.com/eric-ai-lab/Soft-Thinking에서 확인할 수 있습니다.
확산 언어 모델(Diffusion Language Models, DLMs)은 자동회귀 언어 모델의 유망한 경쟁자로 여겨져 왔습니다. 그러나 확산 언어 모델은 오랜 기간 느린 추론 속도로 인해 제약을 받아왔습니다. 핵심적인 문제는 이들의 비자동회귀적 아키텍처와 양방향 어텐션이 디코딩을 가속화하는 키-값 캐시(key-value cache)를 사용할 수 없게 한다는 점입니다. 우리는 이러한 병목 현상을 해결하기 위해 DLM의 노이즈 제거(denoising) 과정을 위한 KV 캐시와 유사한 메커니즘인 지연된 KV 캐시(delayed KV-Cache)를 제안합니다. 이 접근법은 확산 과정에서 서로 다른 토큰들이 각기 다른 표현 동역학을 보인다는 관찰에 기반을 두고 있습니다. 이에 따라, 우리는 키와 값 상태에 대한 지연되고 조건부 캐싱 전략을 제안합니다. 우리는 키와 값을 단계별로 캐싱하기 위해 두 가지 상호 보완적인 변형을 설계했습니다: (1) dKV-Cache-Decode는 거의 손실 없는 가속을 제공하며, 긴 시퀀스에서 성능을 개선하기까지 하여, 기존 DLM이 추론 중에 컨텍스트 정보를 충분히 활용하지 못하고 있음을 시사합니다. (2) dKV-Cache-Greedy는 수명이 단축된 공격적인 캐싱을 통해 더 높은 속도 향상을 달성하지만, 일부 성능 저하를 감수하면서 2차 시간 복잡도를 가집니다. 최종적으로, dKV-Cache는 추론 속도에서 2~10배의 가속을 달성하여 AR(자동회귀 모델)과 DLM 간의 격차를 크게 좁혔습니다. 우리는 dKV-Cache를 여러 벤치마크에서 평가하며, 일반 언어 이해, 수학적 문제 해결, 코드 생성 벤치마크 전반에 걸쳐 가속 효과를 입증했습니다. 실험 결과는 캐시가 현재 DLM에서도 훈련 없이 사용될 수 있음을 보여줍니다.
현재의 텍스트-이미지(T2I) 생성 모델은 유망한 결과를 보여주고 있지만, 텍스트 프롬프트에 내포된 지식이 불확실한 시나리오에서는 실패하는 경우가 많습니다. 예를 들어, 2월에 출시된 T2I 모델은 4월에 개봉하는 영화의 포스터를 적절히 생성하는 데 어려움을 겪을 수 있습니다. 이는 캐릭터 디자인과 스타일이 모델에게 불확실하기 때문입니다. 이 문제를 해결하기 위해, 우리는 인터넷-증강 텍스트-이미지 생성(IA-T2I) 프레임워크를 제안하여, 참조 이미지를 제공함으로써 T2I 모델이 이러한 불확실한 지식을 명확히 이해하도록 돕습니다. 구체적으로, 주어진 텍스트 프롬프트를 기반으로 참조 이미지가 필요한지 여부를 결정하는 능동적 검색 모듈을 설계하였고, 이미지 검색 엔진이 반환한 가장 적합한 이미지를 찾아 T2I 모델을 강화하기 위한 계층적 이미지 선택 모듈을 도입하였으며, 생성된 이미지를 지속적으로 평가하고 개선하여 텍스트 프롬프트와의 충실한 일치를 보장하기 위한 자기 반성 메커니즘을 제시하였습니다. 제안된 프레임워크의 성능을 평가하기 위해, 우리는 Img-Ref-T2I라는 데이터셋을 수집하였으며, 여기에는 세 가지 유형의 불확실한 지식을 포함하는 텍스트 프롬프트가 있습니다: (1) 알려졌지만 드문 경우. (2) 알려지지 않은 경우. (3) 모호한 경우. 또한, GPT-4o가 선호도 평가를 수행하도록 복잡한 프롬프트를 신중하게 구성하였으며, 이는 인간의 선호도 평가와 유사한 평가 정확도를 보여주는 것으로 나타났습니다. 실험 결과는 우리의 프레임워크의 효과를 입증하며, 인간 평가에서 GPT-4o보다 약 30% 우수한 성능을 보였습니다.
지식 그래프 기반 검색 증강 생성은 대규모 언어 모델(LLM)에서 불충분하거나 오래된 지식으로 인해 발생하는 환각 현상을 완화하기 위해 고안되었습니다. 그러나 기존 방법들은 종종 지식 그래프(KG)에 내재된 사전 지식, 특히 구조적 정보와 명시적 또는 암묵적 제약 조건을 충분히 활용하지 못합니다. 전자는 LLM의 추론의 신뢰성을 강화할 수 있으며, 후자는 응답 생성의 신뢰성을 개선할 수 있습니다. 이러한 동기로, 우리는 KG에 포함된 사전 지식을 충분히 활용하는 신뢰할 수 있는 추론 프레임워크인 Deliberation over Priors(DP)를 제안합니다. 구체적으로, DP는 지도 학습 미세 조정과 Kahneman-Tversky 최적화를 결합하여 구조적 사전 지식을 LLM에 통합하는 점진적 지식 증류 전략을 채택함으로써 관계 경로 생성의 신뢰성을 향상시킵니다. 또한, 우리의 프레임워크는 추출된 제약 조건 사전 지식을 기반으로 LLM이 정교한 추론 검증을 수행하도록 유도하는 추론-성찰 전략을 사용하여 응답 생성의 신뢰성을 보장합니다. 세 가지 벤치마크 데이터셋에 대한 광범위한 실험을 통해 DP가 특히 ComplexWebQuestions 데이터셋에서 Hit@1 13%의 향상을 이루며 새로운 최첨단 성능을 달성하고 매우 신뢰할 수 있는 응답을 생성함을 입증했습니다. 또한, 우리는 그 유연성과 실용성을 검증하기 위해 다양한 분석을 수행했습니다. 코드는 https://github.com/reml-group/Deliberation-on-Priors에서 확인할 수 있습니다.
오픈소스 대형 언어 모델(LLM)에 자체 데이터를 활용한 미세 조정(Fine-tuning)은 다운스트림 개발자들이 특정 작업에 맞는 LLM을 얻기 위해 현재 널리 사용되는 표준적인 방법입니다. 그러나 우리는 이와 관련해 새로운 우려스러운 위험 요소를 발견했습니다: 오픈소스 LLM의 제작자가 나중에 단순한 백도어 학습을 통해 다운스트림 미세 조정 데이터를 추출할 수 있다는 점입니다. 이는 다운스트림 모델에 대한 블랙박스 접근만으로도 가능합니다. 우리는 3B에서 32B 파라미터를 가진 4개의 널리 사용되는 오픈소스 모델과 2개의 다운스트림 데이터셋을 대상으로 포괄적인 실험을 진행한 결과, 데이터 추출 성능이 놀라울 정도로 높을 수 있음을 확인했습니다: 실제 환경에서 총 5,000개 샘플 중 최대 76.3%의 다운스트림 미세 조정 데이터(쿼리)가 완벽하게 추출될 수 있으며, 더 이상적인 환경에서는 성공률이 94.9%까지 증가할 수 있습니다. 또한 탐지 기반 방어 전략을 탐구했지만, 개선된 공격으로 이를 우회할 수 있음을 알게 되었습니다. 전반적으로, 우리는 미세 조정 과정에서 새롭게 발견된 데이터 유출 위험의 긴급성을 강조하며, 이 우려스러운 위험을 해결하기 위한 후속 연구가 진행되기를 바랍니다. 우리 실험에 사용된 코드와 데이터는 https://github.com/thu-coai/Backdoor-Data-Extraction에서 공개되었습니다.
월드 모델은 행동에 대한 상태 전이를 예측하며, 다양한 모달리티에서 점점 더 개발되고 있다. 그러나 최대 가능도 추정(MLE)과 같은 표준 훈련 목표는 종종 월드 모델의 작업별 목표, 즉 정확도나 지각적 품질과 같은 전이 예측 지표와 일치하지 않는다. 본 논문에서는 이러한 지표를 직접 최적화하기 위해 검증 가능한 보상을 활용한 강화 학습(RLVR)을 도입한 통합 프레임워크인 RLVR-World를 제시한다. RLVR-World는 월드 모델링을 토큰화된 시퀀스의 자기회귀적 예측으로 공식화하지만, 디코딩된 예측의 지표를 검증 가능한 보상으로 평가한다. 우리는 텍스트 게임, 웹 탐색, 로봇 조작 등 다양한 도메인에서 언어 및 비디오 기반 월드 모델에 대한 상당한 성능 향상을 입증한다. 우리의 연구는 최근 추론 언어 모델의 발전을 넘어, RLVR이 생성 모델의 유용성을 더 넓게 향상시키는 유망한 사후 훈련 패러다임을 제공함을 보여준다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 수학 및 프로그래밍과 같은 추론 집중적 작업에서 놀라운 성과를 거두었습니다. 그러나 이러한 향상된 추론 능력이 반드시 안전성 성능의 개선으로 이어지지는 않으며, 경우에 따라서는 오히려 악화시킬 수도 있습니다. 이는 중요한 연구 질문을 제기합니다: 어떻게 LRMs의 안전성을 향상시킬 수 있을까요? 본 논문에서는 지도 미세 조정(Supervised Fine-Tuning, SFT)을 통해 LRMs의 안전성을 강화하는 방법에 대한 포괄적인 실증 연구를 제시합니다. 우리의 연구는 예상치 못한 관찰로 시작됩니다: DeepSeek-R1에서 안전한 응답을 직접 추출하는 것은 안전성을 크게 향상시키지 못했습니다. 우리는 이 현상을 분석하고 이를 야기하는 세 가지 주요 실패 패턴을 식별했습니다. 그런 다음 데이터 추출 과정에서 이러한 문제를 명시적으로 해결함으로써 상당한 안전성 개선을 이룰 수 있음을 입증했습니다. 다음으로, 안전성을 달성하기 위해 길고 복잡한 추론 과정이 필요한지 탐구했습니다. 흥미롭게도, 단순히 짧거나 템플릿 기반의 추론 과정을 사용하는 것만으로도 비슷한 수준의 안전성 성능을 달성할 수 있으며, 이는 더 복잡한 추론 체인보다 모델이 학습하기 훨씬 쉬운 것으로 나타났습니다. 이러한 발견은 안전성을 보장하는 데 있어 추론의 역할에 대한 깊은 성찰을 촉구합니다. 마지막으로, 안전성 미세 조정 과정에서 수학 추론 데이터를 혼합하는 것이 안전성과 과도한 거부 사이의 균형을 맞추는 데 도움이 된다는 것을 발견했습니다. 전반적으로, 우리의 실증 연구가 LRMs의 안전성을 강화하는 데 있어 더 포괄적인 그림을 제공할 수 있기를 바랍니다. 실험에 사용된 코드와 데이터는 https://github.com/thu-coai/LRM-Safety-Study에서 공개되었습니다.
Diffusion Transformer (DiT)는 시각적 생성 분야에서 유망한 확산 모델로, 인상적인 성능을 보여주지만 상당한 계산 비용을 초래합니다. 흥미롭게도, 사전 학습된 DiT 모델을 분석한 결과, 전역적 자기 주의(global self-attention)가 종종 불필요하며 주로 지역적 패턴을 포착하는 것으로 나타났습니다. 이는 더 효율적인 대안의 가능성을 강조합니다. 본 논문에서는 효율적이고 표현력이 뛰어난 확산 모델을 구축하기 위한 대안적 구성 요소로서 컨볼루션을 재검토합니다. 그러나 자기 주의를 단순히 컨볼루션으로 대체할 경우 일반적으로 성능 저하가 발생합니다. 우리의 연구에 따르면, 이러한 성능 격차는 Transformers에 비해 ConvNets에서 채널 중복성이 더 높기 때문입니다. 이를 해결하기 위해, 우리는 더 다양한 채널의 활성화를 촉진하여 특징 다양성을 향상시키는 간결한 채널 주의 메커니즘을 도입합니다. 이로 인해 표준 ConvNet 모듈로만 구성된 확산 모델인 Diffusion ConvNet (DiCo) 제품군이 탄생했습니다. DiCo는 강력한 생성 성능과 상당한 효율성 향상을 제공합니다. 클래스 조건부 ImageNet 벤치마크에서 DiCo는 이미지 품질과 생성 속도 모두에서 이전의 확산 모델을 능가합니다. 특히, DiCo-XL은 256x256 해상도에서 FID 2.05, 512x512 해상도에서 FID 2.53을 달성하며, 각각 DiT-XL/2 대비 2.7배 및 3.1배의 속도 향상을 보여줍니다. 더 나아가, 우리의 가장 큰 모델인 DiCo-H는 1B 파라미터로 확장되어, 훈련 중 추가적인 감독 없이도 ImageNet 256x256에서 FID 1.90을 달성했습니다. 코드: https://github.com/shallowdream204/DiCo.
최근 대형 추론 모델(Large Reasoning Models, LRMs)의 발전은 수학적 및 논리적 추론에서 인상적인 능력을 보여주고 있습니다. 그러나 현재의 LRM은 무지를 인정하거나 "모르겠다"고 응답하는 경우가 거의 없습니다. 대신, 종종 잘못된 답변을 내놓으면서도 지나친 자신감을 보여 사실적 신뢰성에 대한 우려를 불러일으키고 있습니다. 본 연구에서는 과도한 사고로 인해 지나친 자신감과 잘못된 답변을 초래하는 두 가지 병리적 추론 패턴, 즉 '마지막 순간 추측'과 '두 번째 생각의 나선형 반복'을 식별했습니다. 이러한 문제를 해결하기 위해, 우리는 간결하고 경계를 인지한 사실적 추론을 촉진하는 새로운 프레임워크인 BARREL을 제안합니다. 실험 결과, BARREL 훈련은 DeepSeek-R1-Distill-Llama-8B의 신뢰도를 39.33%에서 61.48%로 증가시키면서도 R1에 의해 생성된 추론 데이터로 미세 조정된 모델과 비슷한 정확도를 달성했습니다. 이러한 결과는 우리의 파일럿 연구가 더 신뢰할 수 있고 사실적인 System 2 LRM을 구축하는 데 영감을 준다는 것을 보여줍니다.
대화형 검색 시스템은 모호성, 생략, 공지시(共指示)를 포함하는 경우가 많은 문맥 의존적 질의를 효과적으로 처리해야 합니다. 대화형 질의 재구성(Conversational Query Reformulation, CQR)은 이러한 질의를 기존 검색기에 적합한 독립적인 형태로 변환함으로써 이 문제를 해결합니다. 그러나 기존 CQR 접근법은 두 가지 중요한 한계를 가지고 있습니다: 첫째, 인간 주석이나 대형 언어 모델로부터의 비용이 많이 드는 외부 감독에 대한 높은 의존성, 둘째, 재구성 모델과 하위 검색기 간의 불충분한 정렬입니다. 우리는 ConvSearch-R1을 제안합니다. 이는 강화 학습을 활용하여 검색 신호를 통해 직접 재구성을 최적화함으로써 외부 재구성 감독에 대한 의존성을 완전히 제거한 최초의 자체 주도형 프레임워크입니다. 우리의 새로운 두 단계 접근법은 검색 기반 자기 증류를 통해 콜드 스타트 문제를 해결하는 Self-Driven Policy Warm-Up과, 기존 검색 메트릭의 희소성 문제를 해결하기 위해 특별히 설계된 순위 인센티브 보상 형성 메커니즘을 포함한 Retrieval-Guided Reinforcement Learning을 결합합니다. TopiOCQA 및 QReCC 데이터셋에 대한 광범위한 실험 결과, ConvSearch-R1은 이전의 최첨단 방법들을 크게 능가하며, 특히 어려운 TopiOCQA 데이터셋에서 10% 이상의 성능 향상을 달성하면서도 더 작은 3B 파라미터 모델을 사용하고 외부 감독 없이 이를 달성했습니다.
표준 자기회귀 생성 방식에서, 대형 언어 모델(LLM)은 다음 토큰의 분포를 예측하고, 이산 토큰을 샘플링한 후, 해당 분포를 버리고 샘플링된 토큰만을 새로운 입력으로 전달합니다. 이 분포의 풍부한 정보를 보존하기 위해, 우리는 훈련이 필요 없는 자기회귀 생성 방법인 입력 혼합(Mixture of Inputs, MoI)을 제안합니다. 표준 패러다임에 따라 토큰을 생성한 후, 생성된 이산 토큰과 이전에 버려진 토큰 분포를 혼합한 새로운 입력을 구성합니다. 구체적으로, 우리는 토큰 분포를 사전 분포로, 샘플링된 토큰을 관측값으로 취급하고, 기존의 원-핫 벡터를 연속적인 사후 기대값으로 대체하여 새로운 모델 입력으로 사용하는 베이지안 추정 방법을 적용합니다. MoI는 모델이 생성 과정 전반에 걸쳐 더 풍부한 내부 표현을 유지할 수 있게 하여, 텍스트 품질과 추론 능력을 향상시킵니다. 수학적 추론, 코드 생성, 박사 수준의 질의응답 작업에서 MoI는 QwQ-32B, Nemotron-Super-49B, Gemma-3-27B, DAPO-Qwen-32B 등 여러 모델에서 추가 훈련 없이도 일관된 성능 향상을 보여주며, 계산 오버헤드도 무시할 수준입니다.
대규모 언어 모델(LLM)의 편향성은 그 신뢰성과 공정성을 크게 저해합니다. 우리는 모델의 개념 공간 내 두 참조 개념(예: 감정 극성 "긍정적"과 "부정적")이 세 번째 대상 개념(예: 리뷰 측면)과 비대칭적으로 상관관계를 보일 때 발생하는 일반적인 형태의 편향에 주목합니다. 예를 들어, "음식"에 대한 이해는 특정 감정으로 치우쳐서는 안 됩니다. 기존의 편향 평가 방법은 다양한 사회 집단에 대한 레이블 데이터를 구성하고 모델의 반응을 측정함으로써 LLM의 행동 차이를 평가하지만, 이는 상당한 인적 노력이 필요하며 제한된 사회적 개념만을 포착할 수 있습니다. 이러한 한계를 극복하기 위해, 우리는 모델의 벡터 공간 구조에 기반한 테스트 세트가 필요 없는 편향 분석 프레임워크인 BiasLens를 제안합니다. BiasLens는 개념 활성화 벡터(CAV)와 희소 오토인코더(SAE)를 결합하여 해석 가능한 개념 표현을 추출하고, 대상 개념과 각 참조 개념 간의 표현적 유사성 변이를 측정하여 편향을 정량화합니다. 레이블 데이터 없이도 BiasLens는 기존 편향 평가 지표와 강력한 일치성을 보입니다(Spearman 상관계수 r > 0.85). 더욱이 BiasLens는 기존 방법으로는 탐지하기 어려운 형태의 편향을 드러냅니다. 예를 들어, 시뮬레이션된 임상 시나리오에서 환자의 보험 상태가 LLM의 진단 평가에 편향을 초래할 수 있습니다. 전반적으로 BiasLens는 확장 가능하고 해석 가능하며 효율적인 편향 발견 패러다임을 제공함으로써 LLM의 공정성과 투명성 개선의 길을 열어줍니다.
기계 학습 기반의 원자 간 전위 및 힘장은 정확한 원자 구조에 크게 의존하지만, 실험적으로 결정된 결정 구조의 제한된 가용성으로 인해 이러한 데이터는 부족한 실정이다. 원자 수준 해상도의 전자 현미경은 구조 데이터의 잠재적 원천을 제공하지만, 이러한 이미지를 시뮬레이션에 적합한 형식으로 변환하는 작업은 여전히 노동 집약적이고 오류가 발생하기 쉬워 모델 훈련 및 검증에 있어 병목 현상을 초래한다. 본 연구에서는 스캐닝 투과 전자 현미경(STEM) 이미지를 자동으로 원자 결정 구조로 변환하고 이들의 물리적 특성을 예측하는 종단 간 에이전트 지원 파이프라인인 AutoMat을 소개한다. AutoMat은 패턴 적응형 노이즈 제거, 물리학 기반 템플릿 검색, 대칭 인식 원자 재구성, MatterSim을 통한 빠른 이완 및 특성 예측, 그리고 모든 단계 간의 조율된 오케스트레이션을 결합한다. 본 연구에서는 이 작업을 위해 최초로 전용 STEM2Mat-Bench를 제안하고, 격자 RMSD, 형성 에너지 MAE, 구조 매칭 성공률을 사용하여 성능을 평가한다. 외부 도구 호출을 조율함으로써 AutoMat은 텍스트 전용 대형 언어 모델(LLM)이 이 분야에서 비전-언어 모델을 능가하도록 하여 파이프라인 전반에 걸친 폐쇄형 추론을 가능하게 한다. 450개 이상의 구조 샘플에 대한 대규모 실험에서 AutoMat은 기존의 다중 모드 대형 언어 모델 및 도구를 크게 능가하는 성능을 보였다. 이러한 결과는 AutoMat과 STEM2Mat-Bench의 유효성을 입증하며, 재료 과학에서 현미경과 원자 수준 시뮬레이션을 연결하는 데 있어 중요한 단계를 표시한다. 코드와 데이터셋은 https://github.com/yyt-2378/AutoMat 및 https://huggingface.co/datasets/yaotianvector/STEM2Mat에서 공개적으로 이용 가능하다.
엔트로피 최소화(EM)는 모델이 가장 확신하는 출력에 더 많은 확률 질량을 집중하도록 훈련시킵니다. 우리는 이 간단한 목표만으로도, 레이블된 데이터 없이도, 대규모 언어 모델(LLMs)의 수학, 물리학, 코딩 과제에서의 성능을 크게 향상시킬 수 있음을 보여줍니다. 우리는 세 가지 접근 방식을 탐구했습니다: (1) EM-FT는 명령어 미세 조정과 유사하게 토큰 수준의 엔트로피를 최소화하지만, 모델에서 생성된 레이블 없는 출력에 대해 수행합니다; (2) EM-RL: 음의 엔트로피를 유일한 보상으로 극대화하는 강화 학습; (3) EM-INF: 훈련 데이터나 매개변수 업데이트 없이 엔트로피를 줄이기 위한 추론 시점 로짓 조정. Qwen-7B에서 EM-RL은 레이블된 데이터 없이도 60K 레이블된 예제로 훈련된 GRPO 및 RLOO와 같은 강력한 RL 베이스라인과 비슷하거나 더 나은 성능을 달성했습니다. 또한, EM-INF는 Qwen-32B가 SciCode 벤치마크에서 GPT-4o, Claude 3 Opus, Gemini 1.5 Pro와 같은 독점 모델의 성능을 맞추거나 능가할 수 있게 하면서, 자기 일관성 및 순차적 정제보다 3배 더 효율적입니다. 우리의 연구 결과는 많은 사전 훈련된 LLM들이 이전에 과소평가된 추론 능력을 가지고 있으며, 레이블된 데이터나 매개변수 업데이트 없이도 엔트로피 최소화만으로 효과적으로 이끌어낼 수 있음을 보여줍니다.
디퓨전 모델은 다양한 분야에서 강력한 생성 도구로 부상했지만, 사전 학습된 모델을 특정한 바람직한 속성을 나타내도록 맞춤화하는 것은 여전히 어려운 과제입니다. 강화 학습(RL)은 유망한 해결책을 제공하지만, 현재의 방법들은 안정적이고 효율적인 미세 조정을 동시에 달성하고 비미분 가능한 보상을 지원하는 데 어려움을 겪고 있습니다. 더욱이, 희소한 보상에 대한 의존성은 중간 단계에서 충분한 지도를 제공하지 못해 종종 최적이 아닌 생성 품질을 초래합니다. 이러한 한계를 해결하기 위해서는 디퓨전 과정 전반에 걸쳐 밀집하고 미분 가능한 신호가 필요합니다. 따라서 우리는 VAlue-based Reinforced Diffusion (VARD)를 제안합니다: 이는 먼저 중간 상태에서의 보상 기대치를 예측하는 가치 함수를 학습한 후, 이 가치 함수를 KL 정규화와 함께 사용하여 생성 과정 전반에 걸쳐 밀집한 지도를 제공하는 새로운 접근 방식입니다. 우리의 방법은 사전 학습된 모델에 근접성을 유지하면서 역전파를 통해 효과적이고 안정적인 학습을 가능하게 합니다. 실험 결과는 우리의 접근 방식이 더 나은 궤적 안내를 용이하게 하고, 학습 효율성을 개선하며, 복잡하고 비미분 가능한 보상 함수에 최적화된 디퓨전 모델에 RL의 적용 가능성을 확장함을 보여줍니다.
대규모 오디오 언어 모델(LAMs)의 등장은 잠재력과 위험을 동시에 가져왔으며, 이들의 오디오 출력은 유해하거나 비윤리적인 내용을 포함할 가능성이 있습니다. 그러나 현재 연구에서는 특히 음성의 시간적, 의미적 특성으로 인해 도전적인 jailbreak 공격에 대한 LAM의 안전성을 체계적이고 정량적으로 평가하는 데 부족함이 있습니다. 이러한 격차를 해소하기 위해, 우리는 LAM의 jailbreak 취약성을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 AJailBench을 소개합니다. 우리는 먼저 10개의 정책 위반 범주에 걸친 1,495개의 적대적 오디오 프롬프트로 구성된 AJailBench-Base 데이터셋을 구축했습니다. 이 데이터셋은 현실적인 텍스트-음성 합성을 사용하여 텍스트 기반 jailbreak 공격을 변환한 것입니다. 이 데이터셋을 사용하여 여러 최신 LAM을 평가한 결과, 어떤 모델도 공격 전반에 걸쳐 일관된 견고성을 보이지 않음을 확인했습니다. jailbreak 테스트를 더욱 강화하고 더 현실적인 공격 조건을 시뮬레이션하기 위해, 우리는 동적 적대적 변이를 생성하는 방법을 제안합니다. 우리의 오디오 왜곡 도구(Audio Perturbation Toolkit, APT)는 시간, 주파수, 진폭 영역에 걸쳐 표적 왜곡을 적용합니다. 원래의 jailbreak 의도를 보존하기 위해, 우리는 의미적 일관성 제약을 강제하고 베이지안 최적화를 사용하여 미묘하면서도 매우 효과적인 왜곡을 효율적으로 탐색합니다. 이를 통해 최적화된 적대적 오디오 샘플로 구성된 확장 데이터셋인 AJailBench-APT가 생성됩니다. 우리의 연구 결과는 작고 의미적으로 보존된 왜곡이라도 주요 LAM의 안전성 성능을 크게 저하시킬 수 있음을 보여주며, 더 견고하고 의미를 인지한 방어 메커니즘의 필요성을 강조합니다.
본 논문은 강화 미세 조정(Reinforcement Fine-Tuning, RFT)의 맥락에서 사전 프롬프트 엔지니어링(Prior Prompt Engineering, pPE)을 탐구한다. 여기서 언어 모델(Language Models, LMs)은 보상 신호를 통해 성능을 극대화하는 행동을 보이도록 유도된다. 기존 RFT 연구가 주로 알고리즘, 보상 형성, 데이터 큐레이션에 초점을 맞춘 반면, 훈련 중 질의 앞에 추가되어 단계별 추론과 같은 행동을 이끌어내는 사전 프롬프트의 설계는 충분히 탐구되지 않았다. 우리는 서로 다른 pPE 접근법이 RFT 이후에 언어 모델이 구별되는 행동을 내면화하도록 이끌 수 있는지 조사한다. 추론 시점 프롬프트 엔지니어링(Inference-time Prompt Engineering, iPE)에서 영감을 받아, 우리는 추론, 계획, 코드 기반 추론, 지식 회상, 널 예시 활용이라는 다섯 가지 대표적인 iPE 전략을 해당 pPE 접근법으로 변환한다. 각 pPE 접근법을 사용하여 Qwen2.5-7B 모델을 실험한 후, 인-도메인 및 아웃-오브-도메인 벤치마크(예: AIME2024, HumanEval+, GPQA-Diamond)에서 성능을 평가한다. 실험 결과, 모든 pPE로 훈련된 모델이 iPE 프롬프트를 사용한 모델을 능가했으며, 널 예시 pPE 접근법이 가장 큰 평균 성능 향상을 보였고 AIME2024와 GPQA-Diamond에서 가장 높은 개선을 달성하여 일반적으로 사용되는 추론 접근법을 능가했다. 또한, 행동 분류 프레임워크를 적용하여 서로 다른 pPE 전략이 결과 모델에 구별되는 행동 스타일을 심어준다는 것을 입증했다. 이러한 발견들은 pPE가 RFT에서 강력하면서도 충분히 연구되지 않은 축으로 자리매김할 수 있음을 보여준다.
대규모 멀티모달 모델(LMMs)은 현재 많은 비전-언어 벤치마크에서 뛰어난 성능을 보이고 있지만, 공정성, 윤리, 공감, 포용성 등 인간 중심의 기준과 관련해서는 여전히 어려움을 겪고 있으며, 이는 인간 가치와 조율하는 데 있어 핵심적인 요소입니다. 우리는 HumaniBench를 소개합니다. 이는 32,000개의 실제 이미지-질문 쌍으로 구성된 종합적인 벤치마크로, 확장 가능한 GPT4o 지원 파이프라인을 통해 주석이 달렸으며, 도메인 전문가들에 의해 철저히 검증되었습니다. HumaniBench는 공정성, 윤리, 이해, 추론, 언어 포용성, 공감, 견고성 등 7가지 인간 중심 AI(HCAI) 원칙을 평가하며, 개방형 및 폐쇄형 시각 질의응답(VQA), 다국어 QA, 시각적 근거화, 공감적 캡셔닝, 견고성 테스트 등 7가지 다양한 작업을 포함합니다. 15개의 최신 LMMs(오픈소스 및 상용)를 벤치마킹한 결과, 상용 모델들이 일반적으로 앞서나가지만, 견고성과 시각적 근거화는 여전히 약점으로 드러났습니다. 일부 오픈소스 모델들도 정확도와 인간 조율 원칙 준수 사이의 균형을 맞추는 데 어려움을 겪었습니다. HumaniBench는 HCAI 원칙을 중심으로 특별히 설계된 최초의 벤치마크입니다. 이는 조율 격차를 진단하고, LMMs가 정확하면서도 사회적으로 책임 있는 행동을 하도록 안내하는 엄격한 테스트베드를 제공합니다. 데이터셋, 주석 프롬프트, 평가 코드는 https://vectorinstitute.github.io/HumaniBench에서 확인할 수 있습니다.
보상 모델은 LLM(Large Language Model)을 인간의 선호도에 맞추는 데 핵심적인 역할을 하지만, 이를 훈련시키는 데는 대규모의 인간이 라벨링한 선호도 데이터와 강력한 사전 훈련된 LLM 백본이 필요해 비용이 많이 듭니다. 한편, 고품질의 합성 명령어 수행 데이터셋이 점점 더 많이 제공되면서, RL(Reinforcement Learning) 기반 정렬 과정에서 보상 모델의 대안으로 더 간단한 참조 기반 메트릭을 사용할 수 있을지에 대한 질문이 제기됩니다. 본 논문에서는 먼저 기본적인 문자열 매칭 메트릭인 BLEU가 일반적인 명령어 수행 데이터셋에서 인간의 선호도와 일치하는 강력한 보상 모델과 놀랍도록 잘 맞는다는 것을 보여줍니다. 이 통찰을 바탕으로, 우리는 BLEUBERI라는 방법을 개발했습니다. 이 방법은 먼저 도전적인 명령어를 식별한 다음, BLEU를 직접 보상 함수로 사용하여 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 적용합니다. 우리는 BLEUBERI로 훈련된 모델이 네 가지 도전적인 명령어 수행 벤치마크와 세 가지 다른 기본 언어 모델에서 보상 모델 기반 RL로 훈련된 모델과 경쟁력이 있다는 것을 입증합니다. 인간 평가는 또한 BLEUBERI 모델 출력의 품질이 보상 모델 정렬 모델의 출력과 동등하다는 것을 추가로 뒷받침합니다. 더 나아가, BLEUBERI 모델은 경쟁 방법보다 사실에 더 근거한 출력을 생성합니다. 전반적으로, 우리는 고품질의 참조 출력(기존의 명령어 수행 데이터셋이나 합성 데이터 생성으로 쉽게 얻을 수 있음)에 접근할 수 있다면, 문자열 매칭 기반 메트릭이 정렬 과정에서 보상 모델의 저렴하면서도 효과적인 대안이 될 수 있음을 보여줍니다. 우리는 코드와 데이터를 https://github.com/lilakk/BLEUBERI에서 공개합니다.
추론적 디코딩(Speculative Decoding)은 대규모 언어 모델(LLMs)의 우수한 텍스트 생성 성능을 유지하면서 추론 속도를 가속화하기 위한 인기 있는 방법으로 부상하고 있다. 기존 방법들은 접두사 토큰에 관계없이 고정된 추론적 디코딩 구성을 채택하거나, 오프라인 또는 온라인 방식으로 드래프트 모델을 훈련하여 컨텍스트와 일치시키는 방식을 사용했다. 본 논문에서는 텍스트가 생성되는 과정에서 추론적 디코딩의 하이퍼파라미터 구성을 적응적으로 선택할 수 있는 훈련이 필요 없는 온라인 학습 프레임워크를 제안한다. 먼저, 이 하이퍼파라미터 선택 문제를 다중 슬롯 머신(Multi-Armed Bandit) 문제로 공식화하고, 일반적인 추론적 디코딩 프레임워크인 BanditSpec을 제시한다. 더 나아가, 두 가지 밴딧 기반 하이퍼파라미터 선택 알고리즘인 UCBSpec과 EXP3Spec을 설계하고, 새로운 개념인 정지 시간 후회(stopping time regret)를 기준으로 분석한다. 이 후회는 확률적 및 적대적 보상 설정 하에서 상한이 도출된다. 정보 이론적 불가능성 결과를 도출함으로써, UCBSpec의 후회 성능이 보편적 상수 범위 내에서 최적임을 보인다. 마지막으로, LLaMA3과 Qwen2를 사용한 광범위한 실험을 통해 제안된 알고리즘이 기존 방법에 비해 효과적이며, 다양한 입력 프롬프트가 주어진 실제 LLM 서비스 시나리오에서 처리량이 오라클 최적 하이퍼파라미터에 근접함을 입증한다.
대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)은 과학적 발견에 있어서 놀라운 잠재력을 보여줍니다. 그러나 기존의 접근 방식들은 종종 합리성 제약이 없는 사전 정의된 워크플로우를 사용하여 과학적 발견을 자동화하는데, 이는 목적 없는 가설 설정과 가설과 증거를 일관되게 연결하지 못하는 문제를 초래하며, 체계적인 불확실성 감소를 방해합니다. 이러한 한계를 극복하기 위해서는 근본적으로 체계적인 불확실성 감소가 필요합니다. 우리는 PiFlow라는 정보 이론적 프레임워크를 소개하며, 자동화된 과학적 발견을 과학적 법칙과 같은 원칙에 의해 안내되는 구조화된 불확실성 감소 문제로 취급합니다. 나노물질 구조, 생체 분자, 그리고 목표 특성을 가진 초전도체 후보물질 발견이라는 세 가지 과학적 영역에서의 평가에서, 우리의 방법은 탐색 단계 대비 특성 값의 곡선 아래 면적(AUC)에서 73.55%의 증가를 보여주었고, 기본 에이전트 시스템 대비 솔루션 품질을 94.06% 향상시켰습니다. 전반적으로, PiFlow는 플러그 앤 플레이 방식으로 작동하며, 고효율 자동화 과학적 발견에서 새로운 패러다임 전환을 이끌어내어, 더욱 견고하고 가속화된 AI 기반 연구의 길을 열어줍니다. 코드는 https://github.com/amair-lab/PiFlow{GitHub}에서 공개되어 있습니다.
강화 학습(Reinforcement Learning, RL)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 강력한 접근 방식으로 부상하고 있으며, 이때 LLM 생성기는 검증기(보상 모델)에 의해 지도되는 정책으로 작동합니다. 그러나 현재 LLM을 위한 RL 사후 훈련 방법은 일반적으로 고정된(규칙 기반 또는 동결된 사전 훈련) 검증기를 사용하거나 지도 미세 조정(Supervised Fine-Tuning, SFT)을 통해 판별적으로 훈련된 검증기를 사용합니다. 이러한 설계는 보상 해킹에 취약하며 훈련 분포를 넘어서는 일반화 능력이 떨어집니다. 이러한 한계를 극복하기 위해, 우리는 Tango라는 새로운 프레임워크를 제안합니다. Tango는 RL을 사용하여 LLM 생성기와 검증기를 교차 방식으로 동시에 훈련합니다. Tango의 핵심 혁신은 RL을 통해 훈련되고 생성기와 공동 진화하는 생성적, 프로세스 수준의 LLM 검증기입니다. 특히, 이 검증기는 명시적인 프로세스 수준 주석 없이 결과 수준의 검증 정확도 보상만을 기반으로 훈련됩니다. 이 생성적 RL 훈련 검증기는 결정론적 또는 SFT 훈련 검증기보다 향상된 견고성과 우수한 일반화 능력을 보이며, 생성기와의 효과적인 상호 강화를 촉진합니다. 광범위한 실험을 통해 Tango의 두 구성 요소가 7B/8B 규모 모델 중에서 최첨단 결과를 달성함을 입증했습니다: 생성기는 다섯 가지 경쟁 수준의 수학 벤치마크와 네 가지 도전적인 도메인 외 추론 작업에서 최고 수준의 성능을 보였으며, 검증기는 ProcessBench 데이터셋에서 선두를 차지했습니다. 특히, 두 구성 요소 모두 가장 어려운 수학적 추론 문제에서 특히 큰 개선을 보였습니다. 코드는 https://github.com/kaiwenzha/rl-tango에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 장편 스토리텔링 능력을 견고하게 평가하는 것은 여전히 큰 도전 과제로 남아 있습니다. 기존 벤치마크는 종종 필요한 규모, 다양성 또는 객관적인 측정 기준이 부족하기 때문입니다. 이를 해결하기 위해 우리는 장편 소설 생성 평가를 위해 특별히 설계된 새로운 벤치마크인 WebNovelBench를 소개합니다. WebNovelBench는 4,000편 이상의 중국 웹 소설로 구성된 대규모 데이터셋을 활용하여, 평가를 시놉시스에서 스토리 생성 작업으로 구성합니다. 우리는 8가지 서사적 품질 차원을 포괄하는 다면적 프레임워크를 제안하며, 이를 LLM-as-Judge 접근법을 통해 자동으로 평가합니다. 점수는 주성분 분석(PCA)을 사용하여 집계되고, 인간이 작성한 작품과 비교하여 백분위 순위로 매핑됩니다. 우리의 실험은 WebNovelBench가 인간이 쓴 걸작, 인기 웹 소설, 그리고 LLM이 생성한 콘텐츠를 효과적으로 구분할 수 있음을 보여줍니다. 우리는 24개의 최첨단 LLM에 대한 포괄적인 분석을 제공하며, 그들의 스토리텔링 능력을 순위화하고 향후 개발을 위한 통찰을 제시합니다. 이 벤치마크는 LLM 기반 서사 생성의 평가와 발전을 위한 확장 가능하고 재현 가능하며 데이터 기반의 방법론을 제공합니다.
대규모 멀티모달 모델은 멀티모달 작업에서 뛰어난 성능을 보이지만, 시각적 토큰에 대한 과도한 계산으로 인해 상당한 계산적 어려움에 직면합니다. 토큰 수준의 중복성에 초점을 맞춘 토큰 축소 방법과 달리, 우리는 정보 손실 없이 시각 토큰에 대한 계산 수준의 중복성을 식별하고 연구합니다. 우리의 핵심 통찰은 사전 훈련된 시각 인코더에서 생성된 시각 토큰이 디코더 전용 대규모 멀티모달 모델에서 모든 무거운 연산(예: 자기 주의, 피드포워드 신경망)을 반드시 필요로 하지 않으며, 적절한 설계를 통해 더 가볍게 처리될 수 있다는 것입니다. 우리는 시각 관련 계산 중복성을 발견하고 점진적으로 줄이기 위해 일련의 실험을 설계했습니다. 이러한 발견을 바탕으로, 우리는 원래 시각 토큰에 대한 계산 부담을 완화하기 위해 프록시 시각 토큰을 활용하는 새로운 접근 방식인 ProxyV를 제안합니다. ProxyV는 성능 저하 없이 효율성을 향상시키며, 더 적당한 효율성 개선 시나리오에서도 상당한 성능 향상을 가져올 수 있습니다. 또한, ProxyV의 유연성은 토큰 축소 방법과 결합하여 효율성을 더욱 증진시킬 수 있음을 보여줍니다. 코드는 이 https://github.com/penghao-wu/ProxyV URL에서 공개될 예정입니다.
오디오-비주얼 음성 인식(AVSR)은 시각적 단서를 통합함으로써 잡음이 많은 환경에서의 견고성을 향상시킵니다. 최근의 발전은 대형 언어 모델(LLM)을 AVSR에 통합하고 있지만, 이들의 높은 계산 비용은 자원이 제한된 환경에서의 배포를 방해합니다. 이를 해결하기 위해, 우리는 추론 비용을 증가시키지 않으면서 모델 용량을 확장하기 위해 Sparse Mixture of Projectors(SMoP) 모듈을 사용하는 효율적인 멀티모달 LLM인 Llama-SMoP를 제안합니다. 희소 게이트 방식의 전문가 혼합(MoE) 프로젝터를 통합함으로써, Llama-SMoP는 더 작은 LLM을 사용하면서도 강력한 성능을 유지할 수 있습니다. 우리는 세 가지 SMoP 구성을 탐구하고, 모달리티별 라우터와 전문가를 사용하는 Llama-SMoP DEDR(Disjoint-Experts, Disjoint-Routers)이 ASR, VSR 및 AVSR 작업에서 우수한 성능을 달성함을 보여줍니다. 제거 연구는 전문가 활성화, 확장성 및 잡음 견고성에서의 효과를 확인합니다.
인간 청취자들은 노출을 통해 익숙하지 않은 화자와 언어 변이체에 쉽게 적응하지만, 이러한 적응 효과가 최첨단 음성 언어 모델까지 확장될까요? 우리는 Phi-4 멀티모달에서 인터리브된 작업 프롬프트와 오디오-텍스트 쌍을 사용하여 컨텍스트 내 학습(ICL)을 가능하게 하는 확장 가능한 프레임워크를 소개하고, 추론 시 단 12개의 예시 발화(약 50초)만으로도 다양한 영어 코퍼스에서 단어 오류율이 평균 19.7%(1.2pp) 상대적으로 감소함을 발견했습니다. 이러한 개선은 저자원 변이체에서, 컨텍스트와 대상 화자가 일치할 때, 그리고 더 많은 예시가 제공될 때 가장 두드러지게 나타났습니다. 그러나 우리의 절차를 확장함에 따라 컨텍스트 길이에 대한 한계 수익이 감소하는 경향을 보였습니다. 전반적으로, 우리의 새로운 ICL 적응 방식은 (1) 인간 청취자와 유사한 성능 프로파일을 보여주고, (2) 다양한 화자와 언어 배경에 걸쳐 자동 음성 인식(ASR)의 견고성을 일관되게 개선함을 입증했습니다. 적응이 광범위하게 성공하긴 했지만, 특정 변이체에서는 여전히 상당한 격차가 남아 있어, 현재 모델이 인간의 유연성에 미치지 못하는 부분을 드러냅니다. 우리는 GitHub에 프롬프트와 코드를 공개했습니다.
대형 언어 모델(LLMs)은 신뢰성과 사실성 측면에서 본질적인 한계를 지니고 있으며, 이러한 현상은 일반적으로 환각(hallucination)으로 불립니다. 영어 중심 데이터셋을 기반으로 사실성 평가를 위한 테스트베드 역할을 하는 여러 벤치마크가 개발되었으나, 이들은 웹 링크나 텍스트 구절과 같은 보조 정보에 의존하면서도 기존에 존재하는 구조화된 사실 자원을 활용하지 못하고 있습니다. 이에 따라 지식 그래프(KGs)는 환각 완화를 위한 유용한 도구로 주목받고 있는데, 이는 최소한의 언어적 오버헤드로 엔티티와 그들 간의 관계에 대한 사실을 구조화된 방식으로 표현할 수 있기 때문입니다. 우리는 기존의 환각 평가 벤치마크에서 지식 그래프 경로와 다국어 지원이 부족한 점을 해소하고, 생성형 텍스트 평가를 위한 KG 기반의 다국어, 다중 홉(multihop) 벤치마크인 MultiHal을 제안합니다. 데이터 수집 파이프라인의 일환으로, 우리는 오픈 도메인 KGs에서 140k개의 KG 경로를 추출한 후 노이즈가 있는 KG 경로를 제거하여 25.9k개의 고품질 부분집합을 선별했습니다. 베이스라인 평가 결과, KG-RAG가 일반 QA에 비해 다국어 및 다양한 모델에서 의미적 유사도 점수가 약 0.12에서 0.36 포인트 절대적으로 증가한 것으로 나타나, KG 통합의 잠재력을 입증했습니다. 우리는 MultiHal이 그래프 기반 환각 완화 및 사실 확인 작업을 위한 향후 연구를 촉진할 것으로 기대합니다.
코드 스위칭은 동일한 발화, 사고 또는 대화 내에서 서로 다른 언어를 번갈아 사용하는 일반적인 현상입니다. 우리는 인간이 특정 주제와 영역에 대해 한 언어보다 다른 언어로 이야기하는 것이 더 편안하다고 느끼기 때문에 코드 스위칭을 한다고 가정합니다. 지식 집약적 언어 모델의 부상과 함께, 우리는 자연스럽게 다음 질문을 던집니다: 모델이 특정 주제에 대해 어떤 언어 X에서 더 많은 지식을 보유할 수 있을까? 더 중요한 것은, 추론을 수행하는 언어를 변경함으로써 추론을 개선할 수 있을까? 우리는 이러한 현상을 나타내기 위해 '언어 특정 지식(Language Specific Knowledge, LSK)'이라는 용어를 만들었습니다. 민족 문화가 서로 다른 언어와 함께 발전하는 경향이 있기 때문에, 우리는 문화 특정 데이터셋(문화적 및 사회적 행동 규범에 대한 지식을 포함하는)을 사용합니다. 우리는 언어 모델이 영어가 아닌 다른 언어에서 사고의 연쇄(chain-of-thought) 추론을 사용할 때 더 나은 성능을 보일 수 있으며, 때로는 저자원 언어에서도 더 나은 성능을 보일 수 있음을 발견했습니다. 이전 연구에서 의미적 유사성이 표현적 유사성과 동일하지 않음을 보여준 것과 결합하여, 우리는 문화적으로 특정한 텍스트가 해당 언어에서 더 풍부하게 발생하여 특정 "전문가" 언어에서만 특정 지식이 발생한다고 가정합니다. 초기 결과에 고무되어, 우리는 언어 모델에 존재하는 언어 특정 지식을 벤치마킹하고 추론 중에 이를 활용하기 위해 LSKExtractor라는 간단한 방법론을 설계했습니다. 우리는 다양한 모델과 데이터셋에 대한 결과를 보여주며, 정확도에서 평균 10%의 상대적 개선을 보여줍니다. 우리의 연구는 문화적 및 언어적 맥락에 더 잘 맞고 포용적인 언어 모델의 오픈소스 개발에 기여합니다.