번역이 포함된 일일 선별된 AI 연구 논문
이 보고서에서는 이전 버전인 CodeQwen1.5로부터의 중요한 업그레이드 인 Qwen2.5-Coder 시리즈를 소개합니다. 이 시리즈에는 두 가지 모델이 포함되어 있습니다: Qwen2.5-Coder-1.5B 및 Qwen2.5-Coder-7B. 코드에 특화된 모델인 Qwen2.5-Coder는 Qwen2.5 아키텍처를 기반으로 구축되었으며 5.5조 개 이상의 토큰으로 구성된 방대한 말뭉치에서 사전 훈련을 받았습니다. 세심한 데이터 정제, 확장 가능한 합성 데이터 생성 및 균형 잡힌 데이터 혼합을 통해 Qwen2.5-Coder는 일반적인 다재다능성을 유지하면서도 탁월한 코드 생성 능력을 나타냅니다. 이 모델은 코드 생성, 완성, 추론 및 수리를 포함한 다양한 코드 관련 작업에서 평가되었으며, 동일한 모델 크기의 더 큰 모델들을 일관되게 능가하며 10개 이상의 벤치마크에서 최신 기술 성능을 달성했습니다. 우리는 Qwen2.5-Coder 시리즈의 출시가 코드 지능 연구의 경계를 넓히는 데 그치지 않고 허가받은 라이선스를 통해 실제 응용 프로그램 개발자들에게 보다 널리 채택되도록 장려할 것이라고 믿습니다.
이전의 Qwen-VL 모델의 고급 업그레이드인 Qwen2-VL 시리즈를 소개합니다. 이 모델은 시각 처리에서 전통적인 결정적 해상도 접근 방식을 재정의합니다. Qwen2-VL은 Naive Dynamic Resolution 메커니즘을 도입하여 모델이 다양한 해상도의 이미지를 동적으로 처리하여 다른 수의 시각 토큰으로 변환할 수 있게 합니다. 이 접근 방식은 모델이 더 효율적이고 정확한 시각적 표현을 생성할 수 있도록 하며 인간의 지각 과정과 밀접하게 일치합니다. 또한 모델은 Multimodal Rotary Position Embedding (M-RoPE)을 통합하여 텍스트, 이미지 및 비디오 간의 위치 정보를 효과적으로 통합합니다. 이미지와 비디오를 처리하기 위해 통합된 패러다임을 채택하여 모델의 시각 지각 능력을 향상시킵니다. 대규모 다중모달 모델의 잠재력을 탐구하기 위해 Qwen2-VL은 대규모 비전-언어 모델 (LVLMs)에 대한 스케일링 법칙을 조사합니다. 모델 크기(2B, 8B 및 72B 매개변수 버전)와 교육 데이터 양을 모두 확장함으로써 Qwen2-VL 시리즈는 매우 경쟁력 있는 성능을 달성합니다. 특히, Qwen2-VL-72B 모델은 GPT-4o 및 Claude3.5-Sonnet과 같은 선도적인 모델과 비교하여 다양한 다중모달 벤치마크에서 우수한 결과를 달성하며 다른 종합 모델을 능가합니다. 코드는 https://github.com/QwenLM/Qwen2-VL에서 제공됩니다.
넓은 텍스트 이해와 맥락 학습에는 전체 문서 맥락을 활용하는 언어 모델이 필요합니다. 긴 맥락 모델을 직접 훈련하는 데 관련된 구현적인 어려움으로 인해, 많은 방법이 제안되어 왔습니다. 이러한 방법들을 비교하는 것이 어려워 데이터와 모델 클래스의 차이로 인해 긴 맥락 성능을 평가하고 표준 평가와 어떻게 다른지에 대한 불확실성이 생겼습니다. 우리는 표준화된 평가를 통해 확장 방법에 대한 통제된 프로토콜을 구현하고 일관된 기본 모델과 확장 데이터를 활용합니다. 우리의 연구는 긴 맥락 행동에 대한 여러 통찰을 제공합니다. 첫째, 우리는 퍼플렉서티가 일반적인 성능 지표로서 긴 맥락 작업에서도 중요한 역할을 한다는 것을 재확인합니다. 둘째, 현재의 근사 어텐션 방법이 긴 맥락 작업에서 일관되게 성능이 부족하다는 것을 발견합니다. 마지막으로, 정확한 파인튜닝 기반 방법이 일반적으로 그들의 확장 범위 내에서 효과적이라는 것을 확인하고, 추정은 여전히 어려운 것으로 나타냅니다. 모든 코드베이스, 모델 및 체크포인트는 오픈 소스로 제공되며, AI 개발의 이 중요한 영역에서의 추가 연구를 촉진하고 투명성을 증진합니다.
프롬프팅을 통한 사고 연쇄(Chain-of-thought, CoT)는 대규모 언어 모델(Large Language Models, LLMs)로부터 추론 능력을 유도하는 사실상의 방법입니다. 그러나 이러한 추가 "사고"가 어떤 종류의 작업에 정말 도움이 되는 것일까요? 이를 분석하기 위해, 우리는 CoT를 사용하는 100편 이상의 논문을 포괄하는 양적 메타 분석을 실시하고, 14개 모델을 통해 20개 데이터셋에 대한 자체 평가를 진행했습니다. 결과는 CoT가 주로 수학이나 논리를 포함하는 작업에서 강력한 성능 향상을 제공하며, 다른 유형의 작업에서는 훨씬 작은 이득을 제공한다는 것을 보여줍니다. MMLU에서 CoT 없이 답변을 직접 생성하는 경우, 질문이나 모델의 응답에 등호가 포함되어 있지 않는 한, CoT와 거의 동일한 정확도를 보입니다. 이는 상징적 연산과 추론을 나타내는 경우에 해당합니다. 이 발견을 바탕으로, 우리는 계획과 실행을 분리하고 도구 보조 LLMs와 비교하여 이러한 문제에서 CoT의 동작을 분석합니다. CoT의 많은 이득은 상징적 실행을 개선하는 데서 나오지만, 상징적 해결사를 사용하는 것에 비해 성능이 떨어집니다. 결과는 CoT가 성능을 유지하면서 추론 비용을 절약할 수 있는 선택적으로 적용될 수 있음을 나타내며, 중요한 것은 프롬프트 기반 CoT를 넘어서 전체 LLM 응용 프로그램 범위에서 중간 계산을 더 잘 활용하는 새로운 패러다임으로 나아가야 한다는 필요성을 시사합니다.
개인화는 다양한 언어 작업 및 응용 프로그램에서 중요한 역할을 합니다. 왜냐하면 동일한 요구 사항을 가진 사용자들도 개인적인 관심에 기반하여 다양한 출력물을 선호할 수 있기 때문입니다. 이로 인해 사용자 선호도에 부합하는 맞춤 출력물을 생성하기 위해 대규모 언어 모델 (LLMs)을 조정하는 다양한 개인화된 접근 방식이 개발되었습니다. 그 중 일부는 각 사용자에게 고유한 맞춤형 LLM을 세밀하게 조정하는 것을 포함하는데, 이는 보급적인 응용에는 너무 비용이 많이 듭니다. 대안적인 방법은 사용자의 관련 이전 텍스트를 검색하여 플러그 앤 플레이 방식으로 개인화 정보를 도입하는 것입니다. 그러나 이러한 검색 기반 전략은 사용자 이력의 연속성을 깨뜨릴 수 있으며 사용자의 전반적인 스타일과 패턴을 포착하지 못하여 최적의 성능을 발휘하지 못할 수 있습니다. 이러한 도전에 대처하기 위해 우리는 새로운 개인화된 LLM 모델을 제안합니다. 이 모델은 각 개인에 대해 사용자별 임베딩을 구성하여 가벼운 플러그인 사용자 임베더 모듈을 통해 모든 사용자의 이력적 맥락을 모델링합니다. 이 임베딩을 작업 입력에 부착함으로써 LLM은 사용자의 습관과 선호도를 더 잘 이해하고 포착하여 자체 매개변수를 조정하지 않고도 더 개인화된 출력물을 생성할 수 있습니다. 언어 모델 개인화 (LaMP) 벤치마크의 다양한 작업에 대한 광범위한 실험 결과는 제안된 모델이 기존의 개인화된 LLM 접근 방식을 현저히 능가한다는 것을 입증합니다.
선호 튜닝은 심층 생성 모델을 인간의 선호와 조율하는 중요한 과정입니다. 본 설문은 최근 선호 튜닝 및 인간 피드백 통합의 최신 발전을 철저히 살펴봅니다. 논문은 세 가지 주요 섹션으로 구성되어 있습니다: 1) 소개 및 준비 작업: 강화 학습 프레임워크, 선호 튜닝 작업, 모델 및 데이터셋에 대한 소개, 다양한 모달리티(언어, 음성, 시각) 및 다양한 정책 접근 방식, 2) 각 선호 튜닝 접근 방식의 심층적인 검토: 선호 튜닝에 사용된 방법의 상세 분석, 그리고 3) 응용, 토론 및 미래 방향: 선호 튜닝의 응용 프로그램 탐색, 하류 작업에서의 평가 방법, 다양한 모달리티에 대한 전망 및 미래 연구 방향에 대한 탐구가 포함됩니다. 우리의 목표는 연구자와 실무자들을 위해 이 분야의 최신 방법론을 제시하여 선호 튜닝과 모델 조율에 대한 이해를 높이는 것입니다. 이 영역에서의 추가 참여와 혁신을 촉진하기를 희망합니다.
전문가 모델의 혼합(Mixture-of-Experts, MoE)은 전문가 라우팅을 통해 희소 계산으로 인해 밀집 모델보다 효과적으로 확장됩니다. 이는 전문가 모듈의 작은 하위 집합만 활성화되도록 선택적으로 활성화하기 때문입니다. 그러나 희소 계산은 기존의 훈련 방법에 도전을 제기합니다. 왜냐하면 이산적인 전문가 라우팅이 표준 역전파를 방해하고 따라서 그라디언트 기반 최적화를 방해하기 때문입니다. MoE의 확장 능력을 더 잘 추구하기 위해, 우리는 GRIN(GRadient-INformed MoE training)을 소개합니다. 이는 전문가 라우팅을 위한 희소 그라디언트 추정을 통합하고 토큰 삭제를 피하기 위해 모델 병렬화를 구성합니다. 자기회귀 언어 모델링에 GRIN을 적용하여 상위 2개의 16배3.8B MoE 모델을 개발했습니다. 우리의 모델은 활성화된 매개변수가 6.6B개뿐이며, 7B 밀집 모델을 능가하며, 동일한 데이터로 훈련된 14B 밀집 모델의 성능과 일치합니다. 다양한 작업을 통해 수행된 포괄적인 평가는 GRIN이 MoE의 효과성을 크게 향상시킬 수 있는 잠재력을 보여주며, MMLU에서 79.4, HellaSwag에서 83.7, HumanEval에서 74.4, MATH에서 58.9의 성능을 달성했습니다.
빅데이터와 대형 언어 모델 시대의 도래로, 제로샷 개인화된 신속한 맞춤화가 중요한 트렌드로 떠오르고 있습니다. 본 보고서에서는 오디오북 제작을 위해 특별히 설계된 Takin AudioLLM이라는 일련의 기술과 모델을 소개합니다. 이에는 주로 Takin TTS, Takin VC, Takin Morphing이 포함되어 있습니다. 이러한 모델들은 제로샷 음성 생성이 가능하며, 실제 인간의 음성과 거의 구분할 수 없는 고품질 음성을 생성하여 개인이 필요에 맞게 음성 콘텐츠를 맞춤화할 수 있도록 지원합니다. 구체적으로, 먼저 향상된 신경 음성 코덱과 멀티태스크 훈련 프레임워크를 기반으로 하는 Takin TTS를 소개합니다. 이 모델은 제로샷 방식으로 고품질 자연스러운 음성을 생성할 수 있습니다. Takin VC의 경우, 효과적인 콘텐츠 및 음색 합동 모델링 접근을 제안하여 화자 유사성을 향상시키며, 자연스러움과 표현력을 더욱 향상시키기 위해 조건부 플로우 매칭 기반 디코더를 지지합니다. 마지막으로, Takin Morphing 시스템을 제안합니다. 이 시스템은 고도로 분리된 음색 및 억양 모델링 접근을 통해 개인이 원하는 음색과 억양으로 음성 생성을 정확하고 조절 가능하게 합니다. 광범위한 실험을 통해 우리의 Takin AudioLLM 시리즈 모델의 효과성과 견고성을 검증하였습니다. 자세한 데모는 https://takinaudiollm.github.io를 참조해주시기 바랍니다.
우리는 오랜 세월에 걸친 탐험을 시작합니다: 보이는 부분의 단편만으로 객체의 숨겨진 차원을 밝히는 것. 이를 해결하기 위해 우리는 Vista3D를 제시합니다. 이는 5분 만에 신속하고 일관된 3D 생성을 실현하는 프레임워크입니다. Vista3D의 핵심에는 두 단계 접근 방식이 있습니다: 굵은 단계와 세밀한 단계. 굵은 단계에서는 단일 이미지로부터 가우시안 스플래팅을 사용하여 초기 기하학을 신속하게 생성합니다. 세밀한 단계에서는 학습된 가우시안 스플래팅으로부터 직접 부호화된 거리 함수(SDF)를 추출하고, 미분 가능한 등거리 표현을 최적화합니다. 또한, 보이는 부분과 가려진 부분을 모두 포착하기 위해 두 독립적인 암시적 함수로 구성된 분리된 표현을 사용하여 생성의 품질을 높입니다. 게다가, 2D 확산 사전의 그래디언트를 3D 인식 확산 사전과 각도 확산 사전 합성을 통해 조화롭게 조절합니다. 철저한 평가를 통해 Vista3D가 생성된 3D 객체의 일관성과 다양성 사이의 균형을 효과적으로 유지함을 입증합니다. 데모 및 코드는 https://github.com/florinshen/Vista3D에서 제공될 예정입니다.
본 논문에서는 소리 추출을 위한 혁신적인 확산 기반 생성 모델인 SoloAudio를 소개합니다. 저희 방법은 음성에 대한 잠재 확산 모델을 훈련시키며, 이전 U-Net 기반을 건너뛰는 Transformer를 사용하여 잠재 특징에 작용하는 모델로 대체합니다. SoloAudio는 CLAP 모델을 사용하여 음향 및 언어 지향적 소리 추출을 지원합니다. 더불어, SoloAudio는 최신 텍스트-음성 모델에 의해 생성된 합성 음성을 활용하여 훈련하며, 도메인 이탈 데이터 및 보이지 않는 소리 이벤트에 대해 강력한 일반화를 보여줍니다. 저희는 FSD Kaggle 2018 혼합 데이터셋과 AudioSet의 실제 데이터에서 이 방법을 평가했으며, SoloAudio는 도메인 내 및 도메인 외 데이터에 대해 최첨단 결과를 달성하며, 인상적인 제로샷 및 퓨샷 능력을 보여줍니다. 소스 코드와 데모가 공개되었습니다.
다양하고 효율적인 오디오 자막을 위해 맞춤화된 비자기회귀 확산 모델인 확산 기반 오디오 자막(DAC)을 소개합니다. 언어 백본에 의존하는 기존 자막 모델들은 다양한 자막 작업에서 높은 성공을 거두었지만, 생성 속도와 다양성 측면에서의 미흡한 성능은 오디오 이해와 멀티미디어 응용 분야의 발전을 방해합니다. 저희의 확산 기반 프레임워크는 자막에서의 고유한 장점을 제공하는데, 이는 내재적인 확률성과 전체적인 문맥 모델링에서 비롯됩니다. 철저한 평가를 통해, DAC가 기존 벤치마크와 비교하여 자막 품질에서 SOTA 성능 수준을 달성할 뿐만 아니라 생성 속도와 다양성 측면에서 현저히 뛰어난 성과를 보이는 것을 입증합니다. DAC의 성공은 텍스트 생성이 확산 백본을 활용하여 오디오 및 시각 생성 작업과 원활하게 통합될 수 있음을 보여주며, 이는 서로 다른 모달리티 간 통합된 오디오 관련 생성 모델로 나아가는 길을 열어놓습니다.
오프라인 다중 에이전트 강화 학습(MARL)은 정적 데이터셋을 사용하여 다중 에이전트 시스템에 대한 최적 제어 정책을 찾는 흥미로운 연구 방향입니다. 이 분야는 본질적으로 데이터 주도적이지만, 현재까지 데이터를 무시하고 최첨단 결과를 달성하려는 노력이 소홀했습니다. 우리는 먼저 문헌 조사를 통해 이 주장을 입증하고, 작업의 대부분이 일관된 방법론 없이 자체 데이터셋을 생성하고 이러한 데이터셋의 특성에 대한 정보를 제공하지 않는 것을 보여줍니다. 그런 다음 데이터의 본질을 무시하는 것이 왜 문제인지를 보여주며, 알고리즘 성능이 사용된 데이터셋과 밀접하게 연결되어 있어 실험을 위한 공통 기반이 필요하다는 중요한 예시를 제시합니다. 이에 대응하여, 우리는 오프라인 MARL에서 데이터 사용과 데이터 인식을 개선하기 위한 큰 한걸음을 내딛었으며, 이는 세 가지 주요 기여를 포함합니다: (1) 새로운 데이터셋 생성을 위한 명확한 지침; (2) 일관된 저장 형식과 사용하기 쉬운 API를 사용하여 공개적으로 제공되는 저장소에 호스팅된 80개 이상의 기존 데이터셋의 표준화; 그리고 (3) 이러한 데이터셋을 더 잘 이해할 수 있도록 도와주는 분석 도구 모음을 제공합니다.
수학은 오랫동안 주로 자연 언어를 통해 전달되어 왔으며, 주로 인간의 이해를 위해 사용되었습니다. 기계화된 수학과 증명 보조 도구의 등장으로 인해, 비공식적인 수학 텍스트를 이해하는 필요성이 증가하고 있지만, 대부분의 기존 벤치마크는 영어에만 초점을 맞추고 다른 언어를 간과하고 있습니다. 본 논문은 루마니아어 수학 추론 벤치마크인 RoMath를 소개합니다. RoMath는 RoMath-Baccalaureate, RoMath-Competitions 및 RoMath-Synthetic 세 가지 데이터셋으로 구성되어 있으며, 다양한 수학 영역과 난이도 수준을 다루며, 비영어권 언어 모델을 개선하고 다국어 인공지능 개발을 촉진하기 위한 목적을 가지고 있습니다. 유일한 언어적 특징을 가진 저자원 언어인 루마니아어에 초점을 맞추어, RoMath는 영어 중심 모델의 한계를 해소하고 단순한 자동 번역을 넘어 전용 자원의 필요성을 강조합니다. 우리는 여러 개의 오픈 웨이트 언어 모델을 벤치마킹하며, 소외된 언어를 위한 자원을 만드는 중요성을 강조합니다. 코드와 데이터셋을 공개합니다.
AI 에이전트는 과학 연구를 수행하는 것을 포함하여 다양한 중요한 작업에서 사용자를 지원할 수 있는 잠재력을 가지고 있습니다. 유용한 에이전트의 개발을 촉진하기 위해, 우리는 도전적이지만 무엇보다도 실제로 중요한 현실 세계 작업과 직접적으로 대응하는 벤치마크가 필요합니다. 본 논문은 과학 연구의 중요하고 놀랍도록 도전적인 측면 중 하나인 계산 재현성을 다루는 AI 에이전트의 정확성을 측정하기 위해 설계된 이러한 벤치마크를 소개합니다. 이 작업은 과학적 과정에 기본적인 작업으로, 제공된 코드와 데이터를 사용하여 연구 결과를 재현하는 것을 포함합니다. 우리는 CORE-Bench (Computational Reproducibility Agent Benchmark)라는 벤치마크를 소개합니다. 이 벤치마크는 컴퓨터 과학, 사회 과학 및 의학 분야의 90편의 과학 논문을 기반으로 270가지 작업으로 구성되어 있습니다. CORE-Bench의 작업은 세 가지 난이도 수준으로 구성되어 있으며 언어만, 시각-언어 작업 둘 다를 포함합니다. 우리는 에이전트의 정확성을 빠르고 병렬화할 수 있는 평가 시스템을 제공하여, 순차적 구현과 비교하여 각 실행에 대한 평가 시간을 몇 일 동안 단축할 수 있습니다. 우리는 두 가지 베이스라인 에이전트를 평가했습니다: 일반 목적의 AutoGPT와 CORE-Agent라는 작업 특화 에이전트. 우리는 두 가지 기본 언어 모델인 GPT-4o와 GPT-4o-mini를 사용하여 두 가지 변형을 테스트했습니다. 최고의 에이전트는 가장 어려운 작업에서 21%의 정확도를 달성했으며, 루틴 과학 작업을 자동화하는 데 개선할 여지가 매우 크다는 것을 보여주었습니다. 기존 작업을 재현할 수 있는 에이전트를 보유하는 것은 새로운 연구를 수행하고 다른 연구 에이전트의 성능을 확인하고 향상시킬 수 있는 에이전트를 구축하기 위한 필수적인 단계입니다. 우리는 CORE-Bench가 재현성 상태를 개선하고 미래 연구 에이전트의 발전을 촉진할 수 있기를 희망합니다.
기능 자기 공명 영상(fMRI) 데이터에서 3D 시각을 재구성하는 것은 우리의 학회 논문에서 Recon3DMind로 소개되어 있으며, 인지 신경과학과 컴퓨터 비전에 큰 관심을 끌고 있습니다. 이 작업을 발전시키기 위해, 우리는 15명의 참가자 데이터를 포함하고 총 4768개의 3D 객체를 보여주는 fMRI-3D 데이터셋을 제시합니다. 이 데이터셋은 fMRI-Shape와 fMRI-Objaverse 두 구성 요소로 이루어져 있습니다. fMRI-Shape은 이전에 소개되었으며 https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape에서 접근할 수 있습니다. 반면, fMRI-Objaverse는 본 논문에서 제안되었으며 https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse에서 이용할 수 있습니다. fMRI-Objaverse에는 5명의 참가자 데이터가 포함되어 있으며, 그 중 4명은 fMRI-Shape의 핵심 집합에 속하며, 각 참가자는 117가지 범주를 가진 3142개의 3D 객체를 보고 있으며, 각각의 객체는 텍스트 캡션과 함께 제공됩니다. 이는 데이터셋의 다양성과 잠재적인 응용 가능성을 크게 향상시킵니다. 게다가, 우리는 fMRI 신호로부터 3D 시각 정보를 해독하기 위해 설계된 새로운 프레임워크인 MinD-3D를 제안합니다. 이 프레임워크는 먼저 신경-융합 인코더를 사용하여 fMRI 데이터에서 특징을 추출하고 집계한 다음, 특징-브릿지 확산 모델을 활용하여 시각적 특징을 생성하고 마지막으로 생성적 트랜스포머 디코더를 사용하여 3D 객체를 재구성합니다. 우리는 모델 성능을 평가하기 위해 의미론적 및 구조적 수준에서 메트릭을 설계하여 새로운 기준을 설정합니다. 더불어, 우리는 Out-of-Distribution 환경에서 모델의 효과성을 평가하고 추출된 특징과 fMRI 신호의 시각적 ROI의 기여를 분석합니다. 우리의 실험은 MinD-3D가 높은 의미론적 및 공간적 정확도로 3D 객체를 재구성할 뿐만 아니라 인간 뇌가 3D 시각 정보를 처리하는 방식에 대한 이해를 깊이 있게 함을 보여줍니다. 프로젝트 페이지: https://jianxgao.github.io/MinD-3D.
다중 문서 요약(Multi-Document Summarization, MDS) 과제에 대처하기 위해 다양한 방법이 제안되어 왔으며, 추출적 및 생성적 요약 기술을 아우르고 있습니다. 그러나 각 접근 방식에는 각각의 한계가 있어 오직 한 가지에만 의존하는 것은 효과적이지 않습니다. 최근에 주목받고 있는 유망한 전략은 추출적 및 생성적 요약 기법을 융합하는 것입니다. 이 도메인에서 다양한 연구가 있음에도 불구하고, 특히 베트남어 처리 문맥에서 결합된 방법론에 대한 연구는 부족합니다. 본 논문은 추출적 및 생성적 기술을 통합하는 두 구성 요소 파이프라인 아키텍처를 활용하는 혁신적인 베트남어 MDS 프레임워크를 제시합니다. 첫 번째 구성 요소는 각 문서 내에서 주요 문장을 식별하기 위해 추출적 접근 방식을 사용합니다. 이는 사이메스 및 트리플 네트워크 구조를 사용하여 의미론적으로 유의미한 구절 임베딩을 도출하는 사전 훈련된 BERT 네트워크의 수정을 통해 달성됩니다. 두 번째 구성 요소는 생성적 요약을 위해 VBD-LLaMA2-7B-50b 모델을 활용하며, 최종 요약 문서를 생성합니다. 우리가 제안하는 프레임워크는 VN-MDS 데이터셋에서 39.6%의 ROUGE-2 점수를 달성하며 최첨단 베이스라인을 능가하는 긍정적인 성능을 보여줍니다.
인간의 가치와 그 측정은 오랜 역사를 가진 학제간 문제 연구입니다. 최근 AI의 발전으로 이 분야에 대한 관심이 다시 불붙었습니다. 대형 언어 모델(Large Language Models, LLMs)이 가치 측정의 도구로서 등장하면서 이에 대한 관심이 높아졌습니다. 본 연구는 가치에 대한 생성적 심리측정(Generative Psychometrics for Values, GPV)을 소개합니다. GPV는 LLM을 기반으로 한 데이터 주도형 가치 측정 패러다임으로, 텍스트로 나타난 선택적 지각에 이론적으로 근거를 두고 있습니다. 우리는 정확한 지각 수준의 가치 측정을 위해 LLM을 세밀하게 조정하고, LLM이 텍스트를 지각으로 파싱하는 능력을 확인하여 GPV 파이프라인의 핵심을 형성합니다. GPV를 인간이 작성한 블로그에 적용하여 이의 안정성, 타당성, 그리고 이전 심리학적 도구들에 비해 우월함을 입증합니다. 그리고 LLM 가치 측정으로 GPV를 확장함으로써, 1) 확장 가능하고 자유로운 형태의 출력을 기반으로 LLM 가치를 측정하는 심리측정 방법론을 소개하여 맥락별 측정을 가능하게 합니다; 2) 측정 패러다임의 비교 분석을 통해 이전 방법들의 응답 편향을 보여줍니다; 그리고 3) LLM 가치와 그 안전성을 연결하려는 시도를 통해 다양한 가치 체계의 예측력과 LLM 안전성에 미치는 가치의 영향을 밝혀냅니다. 학제간 노력을 통해, 우리는 AI를 통해 차세대 심리측정을 이끌어내고, 가치에 부합하는 AI를 위한 심리측정을 추구합니다.