번역이 포함된 일일 선별된 AI 연구 논문
이미지 지오로컬라이제이션 작업은 시각적 단서를 이용해 지구상 어디에서 촬영된 이미지인지 그 위치를 예측하는 것을 목표로 합니다. 기존의 대규모 시각-언어 모델(LVLM) 접근법은 세계 지식, 사고 연쇄 추론, 에이전트 능력을 활용하지만, 인간이 흔히 사용하는 전략인 지도 활용을 간과해 왔습니다. 본 연구에서는 먼저 모델에 지도 활용 능력(Thinking with Map)을 부여하고 이를 맵 내 에이전트 루프(agent-in-the-map loop)로 공식화합니다. 이를 위해 에이전트 강화 학습(RL)과 이후 병렬 시험 시간 스케일링(TTS)을 포함하는 두 단계 최적화 방안을 개발했습니다. RL은 샘플링 효율성을 높이기 위해 모델의 에이전트 능력을 강화하고, 병렬 TTS는 최종 예측 전에 모델이 여러 후보 경로를 탐색할 수 있게 하여 지오로컬라이제이션에至关重要的합니다. 최신 및 실생활 이미지에 대한 방법을 평가하기 위해, 전적으로 실제 세계 이미지로 구성된 포괄적인 지오로컬라이제이션 훈련 및 평가 벤치마크인 MAPBench을 추가로 제시합니다. 실험 결과, 우리의 방법이 대부분의 지표에서 기존의 오픈소스 및 클로즈드소스 모델을 능가하며, 특히 Google Search/Map 기반 모드를 적용한 Gemini-3-Pro 대비 Acc@500m을 8.0%에서 22.1%로 크게 향상시킴을 보여줍니다.
자연어 수학을 형식적 명제로 변환하여 기계 추론을 가능하게 하는 자동형식화는 물리적 세계의 다중모달적 특성으로 인해 현실 적용에 근본적 어려움을 직면합니다. 특히 물리학 분야에서는 시각 요소에서 질량이나 에너지와 같은 숨겨진 제약 조건을 추론해야 합니다. 이를 해결하기 위해 우리는 실제 수학 및 물리 영역의 개체를 적응적 접지와 통합하여 자동형식화를 텍스트를 넘어 확장하는 MMFormalizer를 제안합니다. MMFormalizer는 지각적으로 접지된 기본 요소로부터 재귀적 접지와 공리 구성을 통해 형식적 명제를 재귀적으로 구성하며, 적응적 재귀 종료를 통해 모든 추상화가 시각적 증거에 기반하고 차원적 또는 공리적 접지에 고정되도록 합니다. 우리는 MathVerse, PhyX, Synthetic Geometry, Analytic Geometry에서 선별한 115개 샘플로 구성된 새로운 벤치마크 PhyX-AF에서 MMFormalizer를 평가하며, 다양한 다중모달 자동형식화 작업을 포괄합니다. 결과에 따르면 GPT-5 및 Gemini-3-Pro와 같은 최첨단 모델이 가장 높은 컴파일 및 의미 정확도를 달성했으며, GPT-5는 물리 추론에서 우수한 성능을 보인 반면 기하학은 가장 어려운 영역으로 나타났습니다. 전반적으로 MMFormalizer는 지각과 형식적 추론을 연결하는 통합 다중모달 자동형식화를 위한 확장 가능한 프레임워크를 제공합니다. 우리가 알고 있는 한, 이는 고전 역학(해밀토니안에서 유래)과 상대성 이론, 양자 역학, 열역학을 처리할 수 있는 최초의 다중모달 자동형식화 방법입니다. 자세한 내용은 프로젝트 페이지(MMFormalizer.github.io)에서 확인할 수 있습니다.
사진처럼 사실적이고 제어 가능한 얼굴 3D 캐리커처화 프레임워크를 소개한다. 본 연구는 본질적 가우스 곡률 기반 표면 과장 기법으로 시작하며, 이 기법은 텍스처와 결합될 때 과도하게 매끄럽게 렌더링되는 경향이 있다. 이를 해결하기 위해 최근 사실적인 자유 시점 아바타 생성 능력을 입증한 3D 가우시안 스플래팅(3DGS)을 활용한다. 다중 뷰 영상 시퀀스를 입력받아 FLAME 메시를 추출하고, 곡률 가중 푸아송 방정식을 풀어 과장된 형태를 얻는다. 그러나 가우시안을 직접 변형하면 결과가 좋지 않아, 국소 아핀 변환을 사용하여 각 프레임을 과장된 2D 표현으로 와핑하여 가상 실측값 캐리커처 이미지를 합성해야 한다. 그런 다음 실제 감독과 합성 감독을 번갈아 사용하는 훈련 방식을 고안하여 단일 가우시안 집합이 일반적인 아바타와 과장된 아바타를 모두 표현할 수 있도록 한다. 이 방식은 충실도를 향상시키고 지역적 편집을 지원하며 캐리커처 강도를 연속적으로 제어할 수 있게 한다. 실시간 변형을 달성하기 위해 원본 표면과 과장된 표면 간의 효율적인 보간법을 도입한다. 또한 이를 분석하여 폐형 해석적 해법으로부터의 편차가 유계됨을 보인다. 정량적 및 정성적 평가 모두에서 우리의 결과는 기존 연구를 능가하며, 사실적이고 기하학적으로 제어되는 캐리커처 아바타를 제공한다.
대규모 언어 모델(LLM)은 인간 또는 비-장사고(非-Long-CoT) LLM 모방을 통해 효과적인 장사고(Long CoT) 추론을 학습하는 데 종종 실패합니다. 이를 이해하기 위해 우리는 효과적이고 학습 가능한 장사고 궤적이 통합된 관점에서 안정적인 분자적 구조를 가지며, 이 구조가 세 가지 상호작용 유형(심층 추론[공유결합 유사], 자기 성찰[수소결합 유사], 자기 탐색[반데르발스 힘 유사])에 의해 형성된다고 제안합니다. 증류된 궤적 분석 결과, 이러한 구조는 키워드 모방이 아닌 장사고 미세 조정 과정에서 나타남을 확인했습니다. 우리는 '효과적 의미 이성질체(Effective Semantic Isomers)' 개념을 도입하고, 빠른 엔트로피 수렴을 촉진하는 결합만이 안정적인 장사고 학습을 지원하며 구조적 경쟁은 학습을 저해함을 보여줍니다. 이러한 발견을 바탕으로, 효과적인 장사고 구조 합성을 유도하는 분포-전이-그래프 방법인 Mole-Syn을 제시합니다. 이 방법은 다양한 벤치마크에서 성능과 강화학습 안정성을 모두 향상시켰습니다.
본 보고서에서는 Qwen3-VL 기초 모델을 기반으로 개발된 Qwen3-VL-Embedding 및 Qwen3-VL-Reranker 모델 시리즈를 소개합니다. 이 모델들은 텍스트, 이미지, 문서 이미지, 비디오 등 다양한 양식을 통합된 표현 공간에 매핑하여 고정밀 멀티모달 검색을 위한 종단간 파이프라인을 제공합니다. Qwen3-VL-Embedding 모델은 대규모 대조 사전 학습부터 재순위 모델 지식 증류에 이르는 다단계 학습 패러다임을 통해 의미론적으로 풍부한 고차원 벡터를 생성합니다. Matryoshka 표현 학습을 지원하여 유연한 임베딩 차원을 가능하게 하며, 최대 32k 토큰의 입력을 처리합니다. 이를 보완하는 Qwen3-VL-Reranker는 교차 주의 메커니즘을 활용한 크로스-인코더 아키텍처로 질의-문서 쌍에 대한 세밀한 관련성 추정을 수행합니다. 두 모델 시리즈 모두 Qwen3-VL의 다국어 지원 능력을 계승하여 30개 이상의 언어를 지원하며, 다양한 배포 요구사항을 수용하기 위해 2B와 8B 매개변수 규모로 공개됩니다. 실험 평가 결과, Qwen3-VL-Embedding 시리즈는 다양한 멀티모달 임베딩 평가 벤치마크에서 최첨단 성능을 달성했습니다. 구체적으로, Qwen3-VL-Embedding-8B는 MMEB-V2에서 전체 점수 77.8을 기록하여 모든 모델 중 1위를 차지했습니다(2025년 1월 8일 기준). 본 보고서는 해당 시리즈의 아키텍처, 학습 방법론 및 실제 성능을 제시하며, 이미지-텍스트 검색, 시각 질의 응답, 비디오-텍스트 매칭 등 다양한 멀티모달 검색 작업에서의 효과성을 입증합니다.
강화학습(RL)은 LLM 기반 심층 검색 에이전트 성능 향상을 위한 핵심 기술로 부상했습니다. 그러나 기존 접근법은 주로 이분법적 결과 보상에 의존하여 에이전트의 추론 과정의 포괄성과 사실성을 제대로 반영하지 못하며, 단축 경로 활용과 허구적 생성 같은 바람직하지 않은 행동을 초래하는 경우가 많습니다. 이러한 한계를 해결하기 위해 우리는 추론의 포괄성, 사실적 근거, 증거 연결성에 중점을 둔 세분화된 보상 프레임워크인 CaRR(Citation-aware Rubric Rewards)을 제안합니다. CaRR은 복잡한 질문을 검증 가능한 단일 홉 루브릭으로 분해하고, 에이전트가 숨겨진 개체를 명시적으로 식별하고 올바른 인용으로 뒷받침하며, 예측된 답변과 연결되는 완전한 증거 사슬을 구성하여 이러한 루브릭을 충족하도록 요구합니다. 또한 우리는 CaRR과 결과 보상을 결합하여 강력한 심층 검색 에이전트를 훈련시키는 C-GRPO(Citation-aware Group Relative Policy Optimization)를 소개합니다. 실험 결과, C-GRPO은 여러 심층 검색 벤치마크에서 표준 결과 기반 RL 기준 모델을 지속적으로 능가하는 것으로 나타났습니다. 우리의 분석은 또한 C-GRPO가 단축 경로 활용을 효과적으로 억제하고, 포괄적이며 증거에 기반한 추론을 촉진하며, 개방형 심층 연구 작업으로의 강력한 일반화 능력을 보여준다는 것을 입증했습니다. 우리의 코드와 데이터는 https://github.com/THUDM/CaRR에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 다양한 현실 환경에서 에이전트로 작동하도록 훈련될 것으로 기대되지만, 이 과정은 풍부하고 다양한 도구 상호작용 샌드박스에 의존합니다. 그러나 실제 시스템에 대한 접근은 종종 제한적이며, LLM 기반 시뮬레이션 환경은 환각과 비일관성 문제가 발생하기 쉽고, 수동으로 구축된 샌드박스는 확장하기 어렵습니다. 본 논문에서는 프로그램적 합성을 통한 확장 가능한 도구 상호작용 환경을 위한 자동화 프레임워크인 EnvScaler를 제안합니다. EnvScaler는 두 가지 구성 요소로 이루어집니다. 첫째, SkelBuilder는 토픽 마이닝, 논리 모델링 및 품질 평가를 통해 다양한 환경 골격을 구축합니다. 그런 다음 ScenGenerator는 각 환경에 대해 여러 작업 시나리오와 규칙 기반 궤적 검증 기능을 생성합니다. EnvScaler를 사용하여 191개 환경과 약 7,000개 시나리오를 합성하였으며, 이를 Qwen3 시리즈 모델의 지도 미세 조정(SFT) 및 강화 학습(RL)에 적용했습니다. 3개 벤치마크에 대한 결과는 EnvScaler가 다중 턴, 다중 도구 상호작용을 포함한 복잡한 환경에서 LLM의 작업 해결 능력을 크게 향상시킴을 보여줍니다. 코드와 데이터는 https://github.com/RUC-NLPIR/EnvScaler에서 공개합니다.
대규모 언어 모델(LLM)의 최근 발전으로 다중 턴 상호작용 경로에 걸쳐 강화 학습(RL)으로 훈련된 에이전트 시스템이 가능해졌지만, 토큰 예산과 메모리 사용량을 급증시키는 텍스트 기록의 급속한 증가로 실질적인 배포에 병목 현상이 발생하고 있습니다. 본 연구에서는 축적된 관찰-행동 기록을 압축된 렌더링 이미지로 표현하여 시각적 토큰의 우수한 정보 밀도를 활용하는 AgentOCR 프레임워크를 소개합니다. 다중 턴 롤아웃의 확장성을 위해 AgentOCR은 세그먼트 광학 캐싱을 제안합니다. 기록을 해시 가능한 세그먼트로 분해하고 시각적 캐시를 유지함으로써 이 메커니즘은 중복 재렌더링을 제거합니다. 고정된 렌더링을 넘어 AgentOCR은 에이전트가 압축률을 능동적으로 출력하고 압축 인식 보상으로 훈련되어 작업 성공과 토큰 효율성을 적응적으로 균형 잡는 에이전트 자체 압축을 도입합니다. 우리는 ALFWorld 및 검색 기반 QA라는 도전적인 에이전트 벤치마크에서 광범위한 실험을 수행했습니다. 주목할 만하게, 결과는 AgentOCR이 텍스트 기반 에이전트 성능의 95% 이상을 유지하면서 토큰 사용량을 상당히 절감(>50%)하여 일관된 토큰 및 메모리 효율성을 제공함을 보여줍니다. 추가 분석을 통해 세그먼트 광학 캐싱으로 인한 20배의 렌더링 속도 향상과 자체 압축의 효과적인 전략적 균형 조절이 검증되었습니다.
자율 기계 학습 에이전트는 과학적 발견을 혁신적으로 변화시켰으나, 여전히 '생성-실행-피드백' 패러다임에 제약을 받고 있습니다. 기존 접근법은 가설 검증이 비용이 큰 물리적 실행에 엄격히 의존함에 따라 심각한 실행 병목 현상을 겪어왔습니다. 이러한 물리적 제약을 극복하기 위해 우리는 월드 모델에서 영감을 얻어, 비용이 많이 드는 런타임 검증을 즉각적인 예측적 추론으로 대체하기 위해 실행 사전 지식을 내재화했습니다. 본 연구에서는 데이터 중심 솔루션 선호도 과제를 정형화하고 18,438개의 pairwise 비교로 구성된 포괄적인 코퍼스를 구축했습니다. 검증된 데이터 분석 보고서를 프라이밍한 LLM이 61.5%의 정확도와 강건한 신뢰도 보정을 달성하며 상당한 예측 능력을 보임을 입증했습니다. 마지막으로 '예측 후 검증' 루프를 활용하는 FOREAGENT 에이전트에 이 프레임워크를 구현하여 기존 대비 6배 빠른 수렴 속도와 실행 기반 베이스라인 대비 +6% 향상된 성능을 달성했습니다. 코드와 데이터 세트는 https://github.com/zjunlp/predict-before-execute에서 공개될 예정입니다.
최근 비디오 생성 분야에서는 확산 및 흐름 매칭 모델이 주도적인 발전을 이루며 높은 품질의 결과를 생산하고 있지만, 여전히 계산 비용이 크고 확장이 어렵다는 한계가 있습니다. 본 연구에서는 다중 스케일 다음 프레임 예측과 자기회귀 모델링을 결합한 최초의 대규모 비디오 생성용 시각적 자기회귀(VAR) 프레임워크인 VideoAR을 소개합니다. VideoAR은 시공간 동역학을 효율적으로 인코딩하는 3D 다중 스케일 토크나이저를 기반으로 프레임 내 VAR 모델링과 인과적 다음 프레임 예측을 통합하여 공간적 및 시간적 의존성을 분리합니다. 장기적 일관성을 향상시키기 위해 다중 스케일 시간적 RoPE, 크로스 프레임 오류 수정 및 무작위 프레임 마스킹을 제안하며, 이러한 기법들은 집합적으로 오류 전파를 완화하고 시간적 일관성을 안정화합니다. 우리의 다단계 사전 학습 파이프라인은 해상도와 지속 시간이 증가함에 따라 공간 및 시간 학습을 점진적으로 정렬합니다. 실험적으로 VideoAR은 자기회귀 모델 중 새로운 최첨단 성능을 달성하여 UCF-101에서 FVD를 99.5에서 88.6으로 개선하면서 추론 단계를 10배 이상 줄였으며, 81.74의 VBench 점수로 규모가 한 차원 더 큰 확산 기반 모델들과 경쟁력을 보였습니다. 이러한 결과는 VideoAR이 자기회귀와 확산 패러다임 간의 성능 격차를 좁히며, 향후 비디오 생성 연구를 위한 확장 가능하고 효율적이며 시간적으로 일관된 기반을 제공함을 입증합니다.
선호도 튜닝은 사전 학습된 언어 모델을 가능성만이 아닌 명시적 선호 신호를 최적화하여 품질, 도움성 또는 안전성에 대한 인간의 판단에 맞춥니다. 선행 연구에서는 선호도 튜닝이 훈련 도메인 외부에서 평가될 때 성능을 저하시키고 도움성을 감소시킨다는 것을 보여주었습니다. 그러나 적응 전략이 이러한 도메인 변화를 얼마나 완화하는지에 대해서는 아직 연구되지 않았습니다. 우리는 도메인 변화 하에서의 정렬 일반화에 대한 포괄적이고 체계적인 연구를 수행하여 이 문제를 해결합니다. 우리는 요약 및 질문-답변 도움성 작업에 걸쳐, 목표 도메인 지도 미세 조정 및 의사 레이블링을 포함한 소스에서 타겟으로의 다양한 적응 전략과 다섯 가지 인기 있는 정렬 목적을 비교합니다. 우리의 연구 결과는 도메인 변화 하에서 정렬 목적 간 일반화에 체계적인 차이가 있음을 보여줍니다. 우리는 의사 레이블링에 기반한 적응 전략이 도메인 변화로 인한 성능 저하를 상당히 줄일 수 있음을 입증합니다.
대규모 언어 모델(LLM)이 실제 환경에 점점 더 많이 배포됨에 따라 정확성만으로는 충분하지 않습니다. 신뢰할 수 있는 배포를 위해서는 맥락적 변화 속에서도 진실된 신념을 유지해야 합니다. 기존 평가는 주로 Self-Consistency와 같은 점별 신뢰도에 의존하는데, 이는 취약한 신념을 가릴 수 있습니다. 우리는 완벽한 자기 일관성으로 답변된 사실조차도 약한 맥락적 간섭 아래에서 급격히 붕괴될 수 있음을 보여줍니다. 이러한 격차를 해결하기 위해 개념적 이웃 간 응답 일관성을 평가하는 신념 강건성의 구조적 측정치인 Neighbor-Consistency Belief(NCB)를 제안합니다. NCB의 효율성을 검증하기 위해 맥락적 간섭 하에서 출력 안정성을 탐색하는 새로운 인지 스트레스 테스트 프로토콜을 도입했습니다. 여러 LLM에 대한 실험 결과, 높은 NCB 값을 보인 데이터의 성능은 간섭에 상대적으로 더 강인한 것으로 나타났습니다. 마지막으로, 맥락에 불변하는 신념 구조를 최적화하고 장기적 지식 취약성을 약 30% 감소시키는 Structure-Aware Training(SAT)을 소개합니다. 코드는 https://github.com/zjunlp/belief에서 공개될 예정입니다.
최근 비디오 생성 기술의 발전으로 로봇 및 계획 분야에서 잠재적 미래를 시뮬레이션할 수 있는 '월드 모델' 개발이 가능해졌습니다. 그러나 이러한 모델에 대한 정확한 목표 설정은 여전히 과제로 남아 있습니다. 텍스트 지시는 물리적 뉘앙스를 포착하기에는 너무 추상적인 반면, 대상 이미지는 동적 작업에 대해 지정하기가 종종 불가능합니다. 이를 해결하기 위해 우리는 인간이 물리적 작업을 개념화하는 방식과 유사하게 명시적 힘 벡터와 중간 역학을 통해 사용자가 목표를 정의할 수 있는 새로운 프레임워크인 Goal Force를 소개합니다. 우리는 탄성 충돌 및 도미노 넘어짐과 같은 합성 인과 관계 기본 요소로 구성된 데이터셋으로 비디오 생성 모델을 훈련시켜 힘이 시간과 공간을 통해 전파되도록 가르칩니다. 단순한 물리 데이터로 훈련되었음에도 불구하고, 우리 모델은 도구 조작 및 다중 객체 인과 관계 체인을 포함한 복잡한 실제 시나리오에 대해 놀라운 제로샷 일반화 능력을 보여줍니다. 우리의 결과는 비디오 생성을 기본 물리적 상호작용에 기반함으로써 모델이 외부 엔진에 의존하지 않고 정확하고 물리 인식 계획을 가능하게 하는 암묵적 신경 물리 시뮬레이터로 발전할 수 있음을 시사합니다. 우리는 프로젝트 페이지에서 모든 데이터셋, 코드, 모델 가중치 및 대화형 비디오 데모를 공개합니다.
대규모 언어 모델은 빠르게 진화하며 금융 업무 지능화의 핵심 기술로 부상했습니다. 그러나 기존 벤치마크는 시뮬레이션 또는 범용 샘플에 의존하거나 단일의 오프라인 정적 시나리오에 집중하는 등의 한계로 인해, 금융 서비스가 요구하는 실제성과 실시간 응답성 요구사항을 충족하지 못합니다. 이로 인해 벤치마크 성능과 실제 운영 효율 간에 상당한 격차가 발생하고 있습니다. 이를 해결하기 위해 본 논문에서는 중국과 미국 주식 시장의 실제 비즈니스 데이터를 기반으로 온라인 평가를 통합한 최초의 대규모 평가 벤치마크인 BizFinBench.v2를 소개합니다. 금융 플랫폼의 실제 사용자 질의에 대해 군집 분석을 수행하여 4가지 핵심 비즈니스 시나리오 내 8가지 기본 작업과 2가지 온라인 작업, 총 29,578개의 전문가 수준 문답 쌍을 구성했습니다. 실험 결과, ChatGPT-5는 주요 작업에서 61.5%의 높은 정확도를 달성했으나 금융 전문가 대비 상당한 격차가 여전히 존재했습니다. 온라인 작업에서는 DeepSeek-R1이 다른 모든 상용 LLM을 능가했습니다. 오류 분석을 통해 실제 금융 비즈니스 맥락에서 기존 모델의 구체적인 능력 결함을 추가로 규명했습니다. BizFinBench.v2는 현행 벤치마크의 한계를 넘어 LLM의 금융 역량을 비즈니스 수준에서 세분화하여, 금융 분야 LLM 광범위 도배 시 운영 효율성 평가를 위한 정밀한 기준을 제공합니다. 데이터와 코드는 https://github.com/HiThink-Research/BizFinBench.v2에서 이용 가능합니다.
단안 영상 깊이 추정은 2D 이미지로부터 3D 장면의 깊이 정보를 복원하는 것을 목표로 합니다. 최근 연구는 상당한 진전을 이루었으나, 대규모 데이터셋과 복잡한 디코더에 대한 의존성으로 인해 효율성과 일반화 성능이 제한되어 왔습니다. 본 논문에서는 제로샷 단안 깊이 추정을 위한 경량화 및 데이터 중심 프레임워크를 제안합니다. 먼저 고품질의 밀집 특징을 얻기 위해 시각 인코더로 DINOv3를 채택합니다. 둘째, DPT의 복잡한 구조적 한계를 해결하기 위해 컴팩트한 트랜스포머 기반 디코더인 단순 깊이 변환기(SDT)를 설계합니다. SDT는 DPT 대비 단일 경로 특징 융합 및 업샘플링 과정을 사용하여 교차 규모 특징 융합의 계산 부담을 줄이고, 매개변수 수를 약 85%~89% 감소시키면서도 더 높은 정확도를 달성합니다. 더 나아가 유해 샘플을 걸러내기 위한 품질 기반 필터링 전략을 제안하여 데이터셋 크기를 줄이면서도 전체 학습 품질을 향상시킵니다. 5개 벤치마크에서의 광범위한 실험을 통해 본 프레임워크가 정확도 면에서 DPT를 능가함을 입증합니다. 본 연구는 효율적이고 일반화 가능한 제로샷 깊이 추정을 달성하기 위해 모델 설계와 데이터 품질의 균형을 맞추는 것의 중요성을 강조합니다. 코드: https://github.com/AIGeeksGroup/AnyDepth. 웹사이트: https://aigeeksgroup.github.io/AnyDepth.
대규모 언어 모델(LLM)은 금융의 다양한 영역에 널리 적용되고 있습니다. 학습 데이터가 대부분 인간이 작성한 말뭉치에서 도출되기 때문에 LLM은 다양한 인간의 편향을 계승할 수 있습니다. 행동 편향은 의사 결정, 특히 금융 정보 처리 시 불안정성과 불확실성을 초래할 수 있습니다. 그러나 LLM 편향에 대한 기존 연구는 주로 직접 질문이나 단순화된 일반 목적 설정에 집중되어 있으며, 복잡한 실제 금융 환경과 고위험, 상황에 민감한 다국어 금융 허위정보 탐지 과제(MFMD)에 대한 고려는 제한적이었습니다. 본 연구에서는 다양한 경제 시나리오에서 MFMD 작업 시 LLM의 행동 편향을 평가하기 위한 포괄적인 벤치마크인 MFMDScen을 제안합니다. 금융 전문가들과의 협력을 통해 세 가지 유형의 복잡한 금융 시나리오를 구성합니다: (i) 역할 및 성격 기반, (ii) 역할 및 지역 기반, (iii) 민족 및 종교 신념을 포함한 역할 기반 시나리오입니다. 또한 영어, 중국어, 그리스어, 벵골어를 포괄하는 다국어 금융 허위정보 데이터셋을 추가로 개발했습니다. 이러한 시나리오와 허위정보 주장을 통합함으로써 MFMDScen은 22개의 주류 LLM에 대한 체계적인 평가를 가능하게 합니다. 우리의 연구 결과는 상용 및 오픈소스 모델 전반에 걸쳐 현저한 행동 편향이 지속되고 있음을 보여줍니다. 본 프로젝트는 https://github.com/lzw108/FMD에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 기반 검색 에이전트는 정보 검색 기능을 통합하여 지식 집약적 문제 해결에 유망한 가능성을 보여주고 있습니다. 기존 연구는 주로 검색 에이전트의 추론 패러다임 최적화에 초점을 맞추고 있으며, 추론 과정에서 생성되는 중간 검색 질의의 질적 향상은 간과되어 왔습니다. 그 결과 생성되는 질의는 종종 부정확하여 예상치 못한 검색 결과를 초래하고, 궁극적으로 검색 에이전트의 전반적 성능을 제한합니다. 이러한 문제를 완화하기 위해 본 논문에서는 두 가지 핵심 메커니즘을 기반으로 한 SmartSearch 프레임워크를 소개합니다: (1) 이중 수준 신용 평가를 통해 각 중간 검색 질의의 질에 대한 세밀한 감독을 제공하는 과정 보상. (2) 질의 정제를 통해 저품질 검색 질의를 선택적으로 개선하고, 이 정제된 내용을 바탕으로 후속 검색 라운드를 재생성함으로써 질의 생성 최적화를 촉진하는 메커니즘. 검색 에이전트가 과정 보상의 지도 하에 질의 품질 향상 능력을 점진적으로 내재화할 수 있도록, 모방에서 정렬을 거쳐 최종적으로 일반화에 이르는 3단계 커리큘럼 학습 프레임워크를 설계하였습니다. 실험 결과, SmartSearch는 기존 베이스라인을 지속적으로 능가하며, 추가 정량 분석을 통해 검색 효율성과 질의 품질 모두에서 유의미한 성능 향상을 확인하였습니다. 코드는 https://github.com/MYVAE/SmartSearch에서 확인할 수 있습니다.
본 연구에서는 단일 또는 짝을 이룬 이미지로부터 객체의 3차원 방향 및 회전을 통합적으로 이해하는 향상된 파운데이션 모델인 Orient Anything V2를 제안한다. 단일 고유 정면을 통해 방향을 정의한 V1을 기반으로, V2는 다양한 회전 대칭성을 가진 객체를 처리하고 상대 회전을 직접 추정하는 능력으로 그 기능을 확장하였다. 이러한 향상은 네 가지 핵심 혁신을 통해 구현되었다: 1) 생성 모델로 합성된 확장 가능한 3D 자산으로, 광범위한 범주 coverage와 균형 잡힌 데이터 분포를 보장함; 2) 각 객체에 대해 0개에서 N개의 유효한 정면을 강건하게 식별하는 효율적인 모델-인-더-루프 주석 시스템; 3) 객체의 회전 대칭성을 효과적으로 모델링하며, 모든 가능한 정면 방향을 포착하는 대칭 인식 주기적 분포 적합 목적 함수; 4) 객체의 상대 회전을 직접 예측하는 다중 프레임 아키텍처. 폭넓은 실험을 통해 Orient Anything V2가 11개의 널리 사용되는 벤치마크에서 방향 추정, 6자유도 자세 추정, 객체 대칭 인식 분야에서 최첨단 제로샷 성능을 달성함을 입증하였다. 본 모델은 강력한 일반화 능력을 보여주며, 다양한 다운스트림 작업에서 방향 추정의 적용 가능성을 크게 확장하였다.
전문가 혼합(Mixture-of-Experts, MoE)은 대규모 언어 모델(Large Language Models, LLMs)의 규모 확장을 위한 중요한 패러다임으로 자리 잡았습니다. LoRA와 같은 매개변수 효율적 미세 조정(Parameter-efficient fine-tuning, PEFT)은 사전 학습된 MoE LLMs을 하위 작업에 적응시키기 위해 널리 채택되고 있습니다. 그러나 기존 접근법은 모든 전문가에게 동일한 LoRA 계층(Rank)을 할당하여 MoE LLMs 내재적 기능 특수화를 간과합니다. 이러한 균일한 할당은 자원 불일치를 초래하여, 작업과 관련성 높은 전문가는 자원이 부족한 반면 관련성 낮은 전문가는 중복된 매개변수를 할당받게 됩니다. 본 논문에서는 작업별 요구에 따라 미세 조정 중 전문가 LoRA 계층을 동적으로 증가시키는 DR-LoRA(Dynamic Rank LoRA) 프레임워크를 제안합니다. DR-LoRA는 전문가 라우팅 빈도와 LoRA 계층 중요도를 통합하여 각 전문가의 추가 용량 수요를 정량화하는 전문가 중요도 평가(Expert Saliency Scoring) 메커니즘을 사용합니다. 높은 중요도 점수를 가진 전문가는 계층 확장에 우선순위를 부여받아, 목표 작업에 맞춰 이질적 계층 분포가 자동으로 형성됩니다. 다중 벤치마크 실험 결과, DR-LoRA는 동일한 매개변수 예산 하에서 표준 LoRA 및 정적 할당 전략을 일관되게 능가하며, 더 효율적인 매개변수 활용으로 우수한 작업 성능을 달성함을 입증했습니다.
검색 증강 대규모 언어 모델(LLM)은 외부 검색을 통합하여 지식 집약적 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델들은 종종 과도한 검색을 수행하는데, 이는 응답 품질 향상에 도움이 되지 않을 때에도 불필요하게 검색 도구를 호출하여 계산 비효율성을 초래하고, 관련 없는 문맥을 포함시킴으로써 허구적 응답(hallucination)을 유발합니다. 본 연구에서는 질의 유형, 모델 범주, 검색 조건, 다중 회차 대화를 포함한 다차원적 측면에서 과도한 검색에 대한 체계적인 평가를 수행합니다. 우리의 연구 결과는 다음과 같습니다: (i) 검색은 일반적으로 답변이 가능한 질의의 정확도는 향상시키지만, 답변이 불가능한 질의의 응답 자제(abstention) 능력은 저해합니다; (ii) 과도한 검색 현상은 복잡한 추론 모델과 심층 연구 시스템에서 더 두드러지며, 노이즈가 많은 검색 환경에서 악화되고, 다중 회차 대화에서 회차를 거듭하며 누적됩니다; (iii) 검색된 증거의 구성은 매우 중요하며, 부정적 증거(negative evidence)의 존재가 응답 자제 능력을 향상시킵니다. 과도한 검색을 정량화하기 위해 우리는 검색 증강 LLM의 성능-비용 절충 관계를 포착하는 평가 지표인 정확도 당 토큰 수(Tokens Per Correctness, TPC)를 제안합니다. 마지막으로, 질의 수준과 검색 수준 모두에서 완화 방안을 탐구하고, 효율적인 검색 증강 LLM 연구의 지속적 발전을 촉진하기 위해 OverSearchQA 데이터셋을 공개합니다.
다중 에이전트 시스템(MAS)은 고성능 지능형 애플리케이션 구축을 위한 강력한 패러다임으로 자리잡았습니다. 이러한 시스템 내에서 주어진 쿼리를 처리해야 할 전문가 에이전트를 결정하는 라우터는 전체 성능에 있어 핵심적인 역할을 수행합니다. 기존 라우팅 전략은 일반적으로 두 가지 범주로 나뉩니다: 서로 다른 규모의 모델 간 지연 시간과 비용을 균형 있게 조절하는 성능 기반 라우팅과, 정확도 향상을 위해 도메인별 전문가에게 쿼리를 할당하는 작업 기반 라우팅입니다. 실제 기업 애플리케이션에서는 작업 기반 라우팅이 더 적합하지만, 대부분의 기존 접근법은 정적 단일 레이블 결정에 의존하여 두 가지 주요 한계를 초래합니다: (i) 비즈니스 영역이 확장됨에 따라 새로운 에이전트를 원활하게 통합하기 어렵고, (ii) 에이전트 역량의 중복으로 인한 라우팅 충돌이 발생하여 궁극적으로 정확도와 견고성이 저하됩니다. 이러한 문제를 해결하기 위해 우리는 다중 에이전트 협력을 위한 적응형 추론 라우터인 TCAndon-Router(TCAR)를 제안합니다. 기존 라우터와 달리 TCAR은 동적 에이전트 온보딩을 지원하며, 쿼리를 처리할 수 있는 후보 에이전트 집합을 예측하기 전에 먼저 자연어 추론 체인을 생성합니다. 또한, 선별된 에이전트들이 독립적으로 응답을 생성한 후, 전담 리파이닝 에이전트(Refining Agent)가 이를 통합 및 정제하여 단일 고품질 응답으로 만드는 협업 실행 파이프라인을 설계했습니다. 공개 데이터셋과 실제 기업 데이터에 대한 실험 결과, TCAR은 라우팅 정확도를 크게 향상시키고, 라우팅 충돌을 줄이며, 모호한 시나리오에서도 견고한 성능을 유지하는 것으로 나타났습니다. 우리는 설명 가능하고 협력적인 다중 에이전트 라우팅에 대한 향후 연구를 지원하기 위해 TCAR을 https://huggingface.co/tencent/TCAndon-Router 에 공개했습니다.
대규모 언어 모델(LLM)은 점차 자신의 환경을 추론, 계획 및 상호작용하는 지능형 에이전트로 배포되고 있습니다. 장기적인 시나리오로 효과적으로 확장하기 위해, 이러한 에이전트에게 핵심적인 능력은 과거 경험을 보유, 조직 및 검색하여 하류 의사 결정을 지원할 수 있는 메모리 메커니즘입니다. 그러나 대부분의 기존 접근법은 메모리를 평평한 방식으로 구성 및 저장하고 단순한 유사성 기반 검색 기술에 의존합니다. 구조화된 메모리가 도입된 경우에도 기존 방법들은 경험 또는 메모리 단위 간의 논리적 관계를 명시적으로 포착하는 데 어려움을 겪는 경우가 많습니다. 더욱이 메모리 접근은 구성된 구조와 크게 분리되어 있으며 여전히 얕은 의미론적 검색에 의존하여, 에이전트가 장기적 의존 관계에 대해 논리적으로 추론하는 것을 방해합니다. 본 연구에서는 사건 분할 이론에서 영감을 받은 사건 중심 메모리 프레임워크인 CompassMem을 제안합니다. CompassMem은 경험을 점진적으로 사건으로 분할하고 명시적 논리적 관계를 통해 연결함으로써 메모리를 이벤트 그래프로 구성합니다. 이 그래프는 논리 지도 역할을 하여 에이전트가 표면적인 검색을 넘어 메모리 위에서 구조화되고 목표 지향적인 탐색을 수행하며, 점진적으로 가치 있는 메모리를 수집하여 장기 추론을 지원할 수 있게 합니다. LoCoMo 및 NarrativeQA에 대한 실험은 CompassMem이 여러 백본 모델에 걸쳐 검색 및 추론 성능을 모두 지속적으로 향상시킴을 입증합니다.
생성 모델이 보편화됨에 따라 생성 과정에 대한 세밀한 제어의 필요성이 절실해지고 있습니다. 그러나 프롬프팅에서 미세 조정에 이르기까지 제어 생성 방법이 확산되고 있음에도 근본적인 질문은 여전히 답변되지 않은 채 남아 있습니다. 이러한 모델들이 과연 원천적으로 제어 가능한 것인가? 본 연구에서는 이 질문에 공식적으로 답하기 위한 이론적 프레임워크를 제시합니다. 인간-모델 상호작용을 제어 과정으로 설정하고, 대화 설정에서 모델의 제어 가능 집합을 추정하기 위한 새로운 알고리즘을 제안합니다. 특히 표본 복잡도의 함수로서 추정 오차에 대한 공식적 보장을 제공합니다. 즉, 분포에 독립적이며 출력 유계성 외에는 어떠한 가정도 사용하지 않고, 모든 블랙박스 비선형 제어 시스템(즉, 모든 생성 모델)에 적용 가능한 제어 가능 집합 추정치에 대한 확률적 근사 정확 보장을 유도합니다. 우리는 언어 모델과 텍스트-이미지 생성 모두에 대해 대화 과정 제어의 다양한 과제에서 이 이론적 프레임워크를 실증적으로 입증합니다. 우리의 결과는 모델 제어 가능성이 놀라울 정도로 취약하며 실험 설정에 크게 의존함을 보여줍니다. 이는 단순히 제어를 시도하는 것에서 벗어나 그 근본적 한계를 먼저 이해해야 할 필요성을 강조하며, 엄격한 제어 가능성 분석의 필요성을 부각시킵니다.
인공지능(AI) 얼라인먼트는 AI 시스템이 어떻게 행동해야 하는지를 규정하는 규범적 문제와 AI 시스템이 그러한 규격을 준수하도록 보장하는 기술적 문제를 포괄한다. 현재까지 AI 얼라인먼트 연구는 이러한 문제를 해결하기 위한 중요한 지식과 실천의 원천인 법을 일반적으로 간과해왔다. 본 논문은 법적 규칙, 원칙 및 방법론이 얼라인먼트 문제 해결에 어떻게 활용될 수 있으며, 안전하고 윤리적으로 운영되는 AI 시스템 설계에 어떻게 정보를 제공할 수 있는지 탐구함으로써 이 격차를 메우고자 한다. 이 신흥 분야인 '법적 얼라인먼트'는 세 가지 연구 방향에 중점을 둔다: (1) 합법적 제도와 절차를 통해 발전된 법적 규칙의 내용을 준수하도록 AI 시스템을 설계하는 것, (2) 법 해석 방법론을 적용하여 AI 시스템의 추론 및 의사 결정 방식을 안내하는 것, (3) AI 시스템의 신뢰성, 신뢰 및 협력 과제에 대처하기 위한 구조적 청사진으로 법적 개념을 활용하는 것. 이러한 연구 방향은 새로운 개념적, 실증적, 제도적 질문들을 제기하며, 여기에는 특정 AI 시스템이 따라야 할 구체적인 법 규범 집합을 검토하고, 실제 환경에서의 법적 준수 여부를 평가하기 위한 평가 방법을 창안하며, 실무에서 법적 얼라인먼트 구현을 지원할 거버넌스 체계를 개발하는 것이 포함된다. 이러한 질문들을 해결하려면 법학, 컴퓨터공학 및 기타 학문 분야에 걸친 전문성이 필요하며, 이는 각 학문 공동체에 더 나은 AI 설계를 위해 협력할 기회를 제공한다.
대규모 언어 모델(LLM) 추론을 위한 검증 가능 보상 강화 학습(RLVR)의 최근 발전은 탐험 붕괴라는 지속적인 과제로 인해 저해되어 왔다. 무작위 롤아웃의 의미론적 동질성은 모델을 좁고 과도하게 최적화된 행동 패턴에 가두는 경우가 많다. 기존 방법은 정책 엔트로피를 활용하여 탐험을 장려하지만 본질적인 한계에 직면한다. 전역 엔트로피 정규화는 의미 없는 장황함을 유발할 수 있는 보상 해킹에 취약한 반면, 지역적 토큰 선택적 업데이트는 사전 훈련된 모델의 강한 귀납적 편향으로 어려움을 겪는다. 이를 해결하기 위해 우리는 토큰 분포의 통계적 변동이 아닌 추론 경로의 위상적 분기를 통한 탐험으로 전환하는 새로운 접근법인 반복 정보 병목을 통한 잠재 정책 최적화(IIB-LPO)를 제안한다. IIB-LPO는 고엔트로피 상태에서 잠재 분기를 유발하여 추론 경로를 다양화하고, 정보 병목 원리를 경로 필터 및 자가 보상 메커니즘으로 동시에 활용하여 간결하고 유익한 탐험을 보장한다. 4개의 수학적 추론 벤치마크에서의 실험 결과는 IIB-LPO가 최첨단 성능을 달성하며, 기존 방법 대비 정확도에서 최대 5.3%, 다양성 지표에서 7.4%의 차이로 앞섬을 입증하였다.
대규모 언어 모델(LLM)의 최근 획기적인 발전은 이를 에이전트로서 유망한 패러다임으로 자리매김하게 했으며, 장기 계획 및 의사 결정 능력은 다양한 시나리오와 작업에 적응하기 위한 핵심 범용 능력으로 부상하고 있습니다. 실시간 전략(RTS) 게임은 게임 플레이의 특성상 거시적 차원의 전략적 계획과 미시적 차원의 전술적 적응 및 행동 실행을 모두 요구하기 때문에 이 두 가지 능력을 평가하기 위한 이상적인 테스트베드 역할을 합니다. 기존 RTS 게임 기반 환경은 비교적 높은 계산 수요를 가지거나 텍스트 관측을 지원하지 않는 문제점이 있어 LLM 평가를 위한 RTS 게임 활용이 제한되어 왔습니다. 이러한 동기에 따라 우리는 RTS 게임의 하위 장르인 타워 디펜스(TD)에 기반한 새로운 환경인 TowerMind를 제안합니다. TowerMind는 낮은 계산 수요와 픽셀 기반, 텍스트, 구조화된 게임 상태 표현을 포함한 다중 모달 관측 공간을 특징으로 하면서도, LLM 평가를 위한 RTS 게임의 핵심 평가 강점을 유지합니다. 또한 TowerMind는 모델 환각 평가를 지원하고 높은 수준의 사용자 정의 기능을 제공합니다. 우리는 다양한 다중 모달 입력 설정 하에서 여러 널리 사용되는 LLM을 평가하기 위해 5개의 벤치마크 레벨을 설계했습니다. 결과는 능력과 환각 차원 모두에서 LLM과 인간 전문가 간의 뚜렷한 성능 격차를 보여줍니다. 실험은 더 나아가 계획 검증의 부족, 의사 결정에서 다중 최종성의 부재, 비효율적인 행동 사용과 같은 LLM 행동의 주요 한계를 부각시킵니다. 우리는 또한 두 가지 고전적 강화 학습 알고리즘인 Ape-X DQN과 PPO를 평가했습니다. 경량화되고 다중 모달로 설계된 TowerMind는 기존 RTS 게임 기반 환경 환경을 보완하고 AI 에이전트 분야에 새로운 벤치마크를 소개합니다. 소스 코드는 GitHub(https://github.com/tb6147877/TowerMind)에서 공개되어 있습니다.
얼굴 이미지 품질 평가(FIQA)는 신뢰할 수 있는 얼굴 인식 시스템에 필수적입니다. 기존 접근법은 주로 최종 계층 표현만 활용하는 반면, 훈련이 필요 없는 방법들은 여러 번의 순전파나 역전파를 요구합니다. 본 연구에서는 중간 Vision Transformer(ViT) 블록 간의 패치 임베딩 진화 안정성을 측정하는 훈련 없는 방법인 ViTNT-FIQA를 제안합니다. 고품질 얼굴 이미지는 블록 간에 안정적인 특징 정제 궤적을 보이는 반면, 열화된 이미지는 불규칙한 변환을 나타냄을 입증합니다. 우리의 방법은 연속된 트랜스포머 블록의 L2 정규화된 패치 임베딩 간 유클리드 거리를 계산하고 이를 이미지 수준의 품질 점수로 집계합니다. 통제된 열화 수준을 가진 품질 라벨링 합성 데이터셋에서 이 상관관계를 실증적으로 검증합니다. 기존 훈련 없는 접근법과 달리, ViTNT-FIQA는 역전파나 구조 수정 없이 단일 순전파만으로 수행됩니다. 8개 벤치마크(LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C)에 대한 광범위한 평가를 통해 ViTNT-FIQA가 계산 효율성과 사전 훈련된 ViT 기반 얼굴 인식 모델에의 즉각적인 적용 가능성을 유지하면서 최신 방법들과 경쟁력 있는 성능을 달성함을 보여줍니다.
우리는 파일 기반 메모리 시스템과 에이전트 제어 도구 호출을 통해 일시적인 비판을 검색 가능한 지침으로 전환함으로써 추론 시점 비용을 분산하는 프레임워크를 제안합니다. 우리는 루브릭 기반 학습을 위한 새로운 데이터셋인 Rubric Feedback Bench에서 이 방법을 평가합니다. 실험 결과, 우리의 증강된 대규모 언어 모델(LLM)이 추론 비용을 획기적으로 절감하면서도 테스트 시점 정제 파이프라인의 성능을 빠르게 따라잡는 것을 확인했습니다.
실시간 다중모달 자동 완성은 사용자 입력이 공유된 시각적 맥락에 의존하는 디지털 어시스턴트, 챗봇, 디자인 도구, 의료 상담에서 필수적입니다. 본 연구에서는 부분적으로 입력된 텍스트와 시각적 단서를 활용하여 실시간 채팅에서 예정된 문자를 예측하는 다중모달 자동 완성(MAC) 작업을 소개합니다. 기존의 텍스트 전용 자동 완성(TAC)과 달리 MAC은 다중모달 맥락에 기반하여 예측을 수행함으로써 사용자 의도를 더욱 정확히 포착합니다. 이 작업을 가능하게 하기 위해 MMDialog와 ImageChat을 개조하여 벤치마크 데이터셋을 구축했습니다. 저희는 선도적인 시각-언어 모델(VLM)을 강력한 텍스트 기반 베이스라인과 비교 평가하며 정확도와 효율성 간의 트레이드오프를 부각합니다. 또한 대화 맥락에 따라 텍스트 모델과 VLM을 동적으로 선택하는 라우터 프레임워크인 Router-Suggest와 자원이 제한된 환경을 위한 경량 변형을 제시합니다. Router-Suggest는 최고 성능 VLM 대비 2.3배에서 10배의 속도 향상을 달성했습니다. 사용자 연구 결과, VLM이 다중 턴 대화에서 사용자 입력 노력을 크게 절약하고 완성 품질을 향상시켜 사용자 만족도 측면에서 텍스트 모델을 크게 능가함을 보여줍니다. 이러한 결과는 더 스마트하고 사용자 인식이 가능한 어시스턴트로 나아가기 위해 자동 완성에 다중모달 맥락이 필요함을 강조합니다.
아프리카는 전 세계 언어의 3분의 1 이상이 분포하는 지역임에도 AI 연구에서는 여전히 소외되어 있습니다. 본 논문에서는 12개국 15개 아프리카 언어로 구성된 7,500개의 질의-응답 쌍을 포함하는 첫 번째 다국어 문화 질의응답 벤치마크인 Afri-MCQA를 소개합니다. 이 벤치마크는 텍스트 및 음성 모달리티에 걸쳐 영어-아프리카 언어 병렬 질의응답 쌍을 제공하며, 전적으로 원어민에 의해 구축되었습니다. Afri-MCQA에서 대규모 언어 모델(LLM)을 벤치마킹한 결과, 오픈 웨이트 모델들은 평가된 문화권 전반에서 낮은 성능을 보였으며, 특히 원어(원어 텍스트 또는 음성)로 질의 시 개방형 시각 질의응답(VQA) 정확도가 거의 제로에 가까웠습니다. 언어적 능력을 평가하기 위해 문화적 지식과 별도로 해당 측면을 평가하기 위한 대조 실험을 포함하였으며, 텍스트와 음성 모두에서 원어와 영어 간에 상당한 성능 격차가 관찰되었습니다. 이러한 결과는 음성 중심 접근법, 문화에 기반한 사전 학습, 그리고 교차 언어 문화 전이의 필요성을 강조합니다. 아프리카 언어로 더 포용적인 다중 모드 AI 개발을 지원하기 위해, 본 Afri-MCQA 데이터셋을 HuggingFace(https://huggingface.co/datasets/Atnafu/Afri-MCQA)에서 학술 라이선스 또는 CC BY-NC 4.0 하에 공개합니다.
페르소나 조건화는 대규모 언어 모델(LLM)의 행동 사전 확률(prior)로 간주될 수 있으며, 일반적으로 단조롭게 전문성을 부여하고 안전성을 향상시킨다고 가정됩니다. 그러나 고위험 임상 의사결정에 미치는 영향은 아직 잘 규명되지 않았습니다. 본 연구에서는 임상 LLM에서 페르소나 기반 제어를 체계적으로 평가하며, 전문직 역할(예: 응급실 의사, 간호사)과 상호작용 스타일(대담함 vs. 신중함)이 모델 및 의료 과제에 따라 행동에 어떻게 영향을 미치는지 검토합니다. 임상 분류(triage) 및 환자 안전 과제에 대한 성능을 과제 정확도, 보정(calibration), 안전 관련 위험 행동을 포착하는 다차원 평가를 통해 측정합니다. 연구 결과, 체계적이고 상황에 따라 달라지며 비단조적인 효과가 발견되었습니다: 의료 페르소나는 중증 치료 과제에서 성능을 향상시켜 정확도와 보정에서 최대 약 +20%의 이득을 제공하지만, 일차 진료 환경에서는 비슷한 수준으로 성능을 저하시켰습니다. 상호작용 스타일은 위험 성향과 민감도를 조절하지만, 이는 모델에 크게 의존적입니다. 집계된 LLM-judge 순위는 안전이 중요한 경우 비의료 페르소나보다 의료 페르소나를 선호했지만, 인간 임상의들은 안전 준수에 대해 중간 수준의 일치도(평균 Cohen's κ=0.43)를 보였으나 추론 질문에 대한 응답의 95.9%에서 낮은 확신도를 나타냈습니다. 본 연구는 페르소나가 안전이나 전문성을 보장하기보다 상황에 따른 트레이드오프를 초래하는 행동 사전 확률로 기능함을 보여줍니다. 코드는 https://github.com/rsinghlab/Persona_Paradox에서 이용 가능합니다.