번역이 포함된 일일 선별된 AI 연구 논문
우리는 다양한 로봇 플랫폼 간의 강건한 교차 구현체 일반화를 위해 설계된 기초 Vision-Language-Action(VLA) 모델인 Being-H0.5를 소개한다. 기존 VLA 모델들이 형태학적 이질성과 데이터 부족 문제로 어려움을 겪는 반면, 우리는 인간 상호작용 흔적을 물리적 상호작용을 위한 보편적인 "모국어"로 간주하는 인간 중심 학습 패러다임을 제안한다. 이를 지원하기 위해 우리는 지금까지 가장 큰 구체화된 사전 학습 레시피인 UniHand-2.0을 제시하며, 이는 30가지의 서로 다른 로봇 구현체에 걸쳐 35,000시간 이상의 다중 모드 데이터로 구성된다. 우리의 접근 방식은 이기종 로봇 제어를 의미론적으로 정렬된 슬롯으로 매핑하는 통합 행동 공간을 도입하여, 저자원 로봇이 인간 데이터와 고자원 플랫폼으로부터 기술을 습득할 수 있도록 한다. 이 인간 중심 기반 위에, 우리는 인간 데모와 로봇 실행을 연결하기 위한 통합 순차 모델링 및 다중 작업 사전 학습 패러다임을 설계한다. 구조적으로 Being-H0.5는 공유된 운동 기본 요소를 특화된 구현체별 전문가로부터 분리하기 위한 새로운 Mixture-of-Flow(MoF) 프레임워크를 특징으로 하는 Mixture-of-Transformers 설계를 활용한다. 마지막으로, 교차 구현체 정책이 현실 세계에서 안정적으로 작동하도록 하기 위해, 우리는 감각 변화 하에서의 강건성을 위한 Manifold-Preserving Gating과 서로 다른 지연 시간 및 제어 프로파일을 가진 구현체 간에 청크 제어를 보편화하는 Universal Async Chunking을 도입한다. 우리는 Being-H0.5가 LIBERO(98.9%) 및 RoboCasa(53.9%)와 같은 시뮬레이션 벤치마크에서 최첨단 성능을 달성하는 동시에 5가지 로봇 플랫폼에서 강력한 교차 구현체 능력을 보임을 실증적으로 입증한다.
이슈 해결은 실제 소프트웨어 개발에 필수적인 복잡한 소프트웨어 공학 과업으로, 인공 지능에게 매력적인 도전 과제로 부상하고 있습니다. SWE-bench와 같은 벤치마크의 등장은 이 과업이 대규모 언어 모델에게 매우 어려운 것으로 밝혀지며, 자율 코딩 에이전트의 진화를 크게 가속시켰습니다. 본 논문은 이 신생 분야에 대한 체계적인 조사를 제시합니다. 먼저 자동화된 수집 및 합성 방식을 아우르는 데이터 구축 파이프라인을 검토합니다. 다음으로, 모듈식 구성 요소를 갖춘 학습 불필요 프레임워크부터 지도 미세 조정 및 강화 학습을 포함한 학습 기반 기술에 이르기까지 방법론에 대한 포괄적인 분석을 제공합니다. 이후 데이터 품질과 에이전트 행동에 대한 비판적 분석과 실제 적용 사례를 논의합니다. 마지막으로 핵심 과제를 식별하고 향후 연구를 위한 유망한 방향을 제시합니다. 본 분야의 동적 자원으로 활용될 오픈소스 저장소를 https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution 에서 유지 관리하고 있습니다.
최근 대규모 언어 모델을 에이전트 시스템으로 확장하려는 관심이 높아지고 있습니다. 에이전트의 효과성은 지속적으로 향상되고 있으나, 실제 현장 적용에 중요한 효율성 측면은 종종 간과되어 왔습니다. 따라서 본 논문은 에이전트의 세 가지 핵심 구성 요소인 메모리, 도구 학습, 계획 수립 측면에서 지연 시간, 토큰 수, 단계 수 등의 비용을 고려하여 효율성을 분석합니다. 에이전트 시스템 자체의 효율성을 포괄적으로 연구하기 위해, 구현 방식은 다르지만 압축 및 관리를 통한 문맥 범위 제한, 도구 호출 최소화를 위한 강화 학습 보상 설계, 효율성 향상을 위한 제어된 탐색 메커니즘 적용 등 높은 수준의 공통 원칙을 공유하는 다양한 최신 접근법을 검토하고 상세히 논의합니다. 이에 따라 우리는 효율성을 두 가지 상보적인 방식으로 규정합니다: 고정된 비용 예산 내에서 효과성을 비교하는 방식과 유사한 효과성 수준에서 비용을 비교하는 방식입니다. 이러한 절충 관계는 효과성과 비용 간 파레토 최적선 관점에서도 살펴볼 수 있습니다. 이러한 관점에서 우리는 각 구성 요소에 대한 평가 프로토콜을 종합하고 벤치마크 및 방법론 연구에서 일반적으로 보고되는 효율성 지표를 통합하여 효율성 중심 벤치마크를 분석합니다. 더 나아가 주요 과제와 미래 방향을 논의함으로써 유용한 통찰을 제공하는 것을 목표로 합니다.
물리적 세계를 이해하고 추론하기 위해서는 공간 지능, 즉 2D 인식을 넘어 기하학적 구조, 원근법, 공간 관계를 해석하는 능력이 필요합니다. 최근 등장한 비전 대규모 모델(VLM)은 시각적 이해에 뛰어나지만, 근본적으로 2D 인식자에 머물러 진정한 3D 추론에는 어려움을 겪습니다. 본 연구에서는 VLM 에이전트가 3D 공간으로 사고할 수 있도록 하는 Think3D 프레임워크를 소개합니다. 이미지나 비디오에서 포인트 클라우드와 카메라 포즈를 복원하는 3D 재구성 모델을 활용하여, Think3D는 에이전트가 카메라 기반 조작과 에고/글로벌 뷰 전환을 통해 공간을 능동적으로 조작하고, 공간 추론을 대화형 3D 사고 연쇄 과정으로 전환하도록 합니다. 추가 학습 없이도 Think3D는 GPT-4.1 및 Gemini 2.5 Pro와 같은 고급 모델의 공간 추론 성능을 크게 향상시켜 BLINK Multi-view와 MindCube에서 평균 +7.8%, VSI-Bench에서 +4.7%의 성능 향상을 달성했습니다. 또한 공간 탐색에 어려움을 겪는 소규모 모델의 경우, 정보가 풍부한 시점과 조작을 선택할 수 있도록 하는 강화 학습 정책을 통해 큰 이점을 얻는 것을 확인했습니다. 강화 학습을 통해 도구 사용의 이점은 +0.7%에서 +6.8%로 증가했습니다. 우리의 연구 결과는 학습이 필요 없는 도구 증강 공간 탐색이 다중모달 에이전트에서 더 유연하고 인간과 유사한 3D 추론을 위한 실현 가능한 경로이며, 다중모달 지능의 새로운 차원을 정립함을 보여줍니다. 코드와 가중치는 https://github.com/zhangzaibin/spagent에서 공개됩니다.
기계론적 해석 가능성(Mechanistic Interpretability, MI)은 대규모 언어 모델(LLM)의 불투명한 의사 결정 과정을 규명하는 핵심적 접근법으로 부상했다. 그러나 기존 연구 동향 분석은 주로 MI를 관찰 과학으로 취급하며 분석적 통찰을 요약하는 데 그치고, 체계적인 실천적 개입 프레임워크를 제시하지 못했다. 이러한 격차를 해소하기 위해 본 논문은 "진단(Locate), 조정(Steer), 개선(Improve)" 파이프라인을 중심으로 구성된 실용적 조사 연구를 제안한다. 우리는 특정 해석 가능 객체(Interpretable Objects)를 기반으로 진단(국소화) 및 개입(조정) 방법을 체계적으로 분류하여 엄격한 개입 프로토콜을 수립한다. 더 나아가 이 프레임워크가 모델의 정렬(Alignment), 능력(Capability), 효율성(Efficiency) 측면에서 가시적인 개선을 가능하게 하여 MI를 모델 최적화를 위한 실천 방법론으로 효과적으로 운영하는 방식을 입증한다. 본 연구의 선별된 논문 목록은 https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey에서 확인할 수 있다.
동영상은 공간적 및 시간적 동역학을 모두 포착하여 이미지나 텍스트보다 풍부한 정보를 전달합니다. 그러나 기존 대부분의 동영상 맞춤화 방법은 참조 이미지나 작업별 시간적 사전 정보에 의존하여 동영상 고유의 풍부한 시공간 정보를 완전히 활용하지 못하므로, 동영상 생성의 유연성과 일반화가 제한됩니다. 이러한 한계를 해결하기 위해 우리는 시공간 동영상 전이를 위한 통합 프레임워크인 OmniTransfer를 제안합니다. OmniTransfer는 프레임 간 다중 뷰 정보를 활용하여 외관 일관성을 향상시키고, 시간적 단서를 이용하여 세밀한 시간적 제어를 가능하게 합니다. 다양한 동영상 전이 작업을 통합하기 위해 OmniTransfer는 세 가지 핵심 설계를 포함합니다: 참조 동영상 정보를 적응적으로 활용하여 시간적 정렬 또는 외관 일관성을 개선하는 작업 인식 위치 편향(Task-aware Positional Bias); 참조와 대상 브랜치를 분리하여 정확한 참조 전이를 가능하게 하면서 효율성을 향상시키는 참조 분리 인과 학습(Reference-decoupled Causal Learning); 다중 모달 의미론적 지도를 사용하여 다양한 작업을 동적으로 구분하고 처리하는 작업 적응형 다중 모달 정렬(Task-adaptive Multimodal Alignment). 광범위한 실험을 통해 OmniTransfer가 외관(신원 및 스타일) 및 시간적 전이(카메라 이동 및 동영상 효과)에서 기존 방법을 능가하며, 포즈를 사용하지 않고도 모션 전이에서 포즈 기반 방법과 동등한 성능을 보여, 유연하고 높은 충실도의 동영상 생성을 위한 새로운 패러다임을 정립함을 확인했습니다.
멀티모달 대규모 언어 모델(MLLMs)은 강력한 범모달(omni-modal) 인식 능력을 보여주지만, 시청각 단서로부터 미래 사건을 예측하는 능력은 기존 벤치마크가 주로 회고적 이해에 초점을 맞추고 있어 아직 크게 탐구되지 않았습니다. 이러한 격차를 해소하기 위해 우리는 시청각 환경에서의 범모달 미래 예측을 평가하기 위해 최초로 설계된 벤치마크인 FutureOmni를 소개합니다. 평가 대상 모델은 교차 모달 인과 관계 및 시간적 추론을 수행하고, 내부 지식을 효과적으로 활용하여 미래 사건을 예측해야 합니다. FutureOmni는 확장 가능한 LLM 지원, 인간 참여형(Human-in-the-loop) 파이프라인을 통해 구축되었으며, 8개 주요 도메인에 걸쳐 919개의 비디오와 1,034개의 객관식 QA 쌍을 포함합니다. 13개의 범모달 모델과 7개의 비디오 전용 모델에 대한 평가 결과, 현재 시스템들은 특히 음성이 많은 시나리오에서 시청각 미래 예측에 어려움을 겪으며, Gemini 3 Flash가 64.8%의 최고 정확도를 달성했습니다. 이러한 한계를 완화하기 위해 우리는 7,000개의 샘플로 구성된 지시 튜닝(instruction-tuning) 데이터셋을 구축하고 범모달 미래 예측(OFF) 훈련 전략을 제안합니다. FutureOmni 및 인기 있는 시청각 및 비디오 전용 벤치마크에 대한 평가 결과, OFF가 미래 예측 능력과 일반화 성능을 향상시킴을 입증했습니다. 우리는 모든 코드(https://github.com/OpenMOSS/FutureOmni)와 데이터셋(https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni)을 공개합니다.
기존 연구들은 긴 문맥을 세그먼트 방식으로 처리하기 위해 메모리 중심 메커니즘을 점점 더 많이 채택하고 있으며, 효과적인 메모리 관리란 대규모 언어 모델이 전체 시퀀스에 걸쳐 정보를 효과적으로 전파할 수 있게 하는 핵심 능력 중 하나입니다. 따라서 메모리 품질을 자동적이고 신뢰롭게 평가하기 위해 보상 모델(RM)을 활용하는 것이 중요합니다. 본 연구에서는 RM의 장기 기억 관리 과정 평가 능력을 체계적으로 연구하기 위한 최초의 벤치마크인 MemoryRewardBench를 소개합니다. MemoryRewardBench는 장문 맥락 이해 및 장문 생성 과제를 모두 아우르며, 서로 다른 메모리 관리 패턴을 가진 10가지 상이한 설정과 8K에서 128K 토큰에 이르는 문맥 길이를 특징으로 합니다. 13개의 최첨단 RM에 대한 평가 결과, 오픈소스 모델과 독점 모델 간의 성능 격차가 좁아지고 있으며, 매개변수 수와 관계없이 신세대 모델들이 이전 모델들을 꾸준히 능가하는 것으로 나타났습니다. 우리는 더 나아가 다양한 설정에 걸친 LLM 메모리 관리 평가에서 현재 RM들의 능력과 근본적인 한계를 드러냅니다.
LightOnOCR-2-1B는 깨지기 쉬운 OCR 파이프라인 없이 문서 이미지(예: PDF)를 깔끔하고 자연스러운 순서의 텍스트로 변환하는 10억 파라미터 규모의 엔드투엔드 다국어 비전-언어 모델입니다. 스캔본, 프랑스어 문서, 과학 논문 PDF를 광범위하게 포함한 대규모 고품질 지식 증류 데이터로 학습된 LightOnOCR-2는 OlmOCR-Bench에서 최고 성능을 달성했으며, 기존 최고 성능 모델 대비 9배 더 작고 상당히 빠릅니다. 또한 출력 형식을 확장하여 삽입된 이미지의 정규화된 바운딩 박스를 예측하며, 재개 전략을 통해 사전 학습 단계에서 위치 인식 기능을 도입하고 IoU 기반 보상을 사용한 RLVR로 이를 정교화했습니다. 마지막으로 체크포인트 평균화와 작업 산술 병합을 통해 강건성을 개선했습니다. Apache 2.0 라이선스 하에 모델 체크포인트를 공개하며, 해당 라이선스에 따라 데이터셋과 LightOnOCR-bbox-bench 평가 도구도 공개합니다.
시각-언어 항법(VLN)에서 인간 수준의 성능을 달성하기 위해서는 구현된 에이전트가 긴 행동 시퀀스에 대해 추론하면서 다중 모드 지침과 시각-공간적 맥락을 동시에 이해해야 합니다. NavCoT나 NavGPT-2와 같은 최근 연구들은 사고 연쇄(CoT) 추론이 해석 가능성과 장기 계획 수립 능력을 향상시킬 수 있는 잠재력을 보여주었습니다. 더 나아가 OctoNav-R1과 CoT-VLA 같은 다중 모드 확장은 CoT가 인간과 유사한 항법 추론을 위한 유망한 경로임을 추가로 입증합니다. 그러나 기존 접근법은 중요한 한계에 직면해 있습니다: 순수 텍스트 기반 CoT는 공간적 기반이 부족하며 희소하게 주석이 달린 추론 단계에 쉽게 과적합되는 반면, 다중 모드 CoT는 상상된 시각 관측치를 생성하여严重的한 토큰 비대화를 초래해 실시간 항법을 비현실적으로 만듭니다. 본 연구에서는 명시적인 토큰 오버헤드 없이 CoT 추론의 이점을 유지하는 통합 암묵적 추론 프레임워크인 FantasyVLN을 제안합니다. 구체적으로, CoT 추론 훈련 중 사전 훈련된 시각 자동회귀 인코더(VAR)를 사용하여 상상된 시각 토큰을 압축된 잠재 공간으로 인코딩하며, 모델은 통합 다중 CoT 전략 하에서 텍스트, 시각 및 다중 모드 CoT 모드로부터 공동 학습을 수행합니다. 추론 시에는 우리 모델이 직접적인 지침-행동 매핑을 수행하면서도 추론 인식 표현의 이점을 여전히 누릅니다. LH-VLN에 대한 광범위한 실험 결과, 우리의 접근 방식이 추론 인식적이면서도 실시간 항법을 달성하여 명시적 CoT 방법 대비 추론 지연 시간을 크게 줄이는 동시에 성공률과 효율성을 향상시킴을 확인했습니다.
에이전트 기반 검색은 최근 복잡한 질문을 해결하기 위해 에이전트가 다단계 추론과 온디맨드 정보 검색을 교차하여 수행하는 강력한 패러다임으로 부상했습니다. 그러나 그 성공에도 불구하고, 에이전트 기반 검색을 위한 검색기를 어떻게 설계할지에 대한 연구는 여전히 미흡한 실정입니다. 기존 검색 에이전트는 일반적으로 유사도 기반 검색기에 의존하는데, 유사한 문단이 최종 답변 생성에 항상 유용한 것은 아닙니다. 본 논문에서는 에이전트 기반 검색에 특화된 새로운 검색기 훈련 프레임워크를 제안합니다. 단일 턴 검색 증강 생성(RAG)만을 위해 설계되어 지역적 문단 유용성에만 의존하는 기존 검색기와 달리, 본 연구에서는 다중 턴 에이전트 기반 검색에서 문단의 유용성을 측정하기 위해 지역적 질의-문단 관련성과 전역적 답변 정확성을 모두 활용합니다. 또한 검색 에이전트와 검색기가 양방향 및 반복적으로 최적화되는 반복적 훈련 전략을 도입합니다. 고정된 질문으로 단 한 번만 훈련되는 RAG 검색기와 달리, 우리의 검색기는 에이전트로부터 진화하고 더 높은 품질의 질의를 지속적으로 활용하여 개선됩니다. 7개의 단일 홉 및 다중 홉 질의응답 벤치마크에 대한 광범위한 실험을 통해 로 명명된 우리의 검색기가 다양한 검색 에이전트에서 강력한 베이스라인을 지속적으로 능가함을 입증합니다. 우리의 코드는 https://github.com/8421BCD/Agentic-R에서 확인할 수 있습니다.
최근 진전에도 불구하고 의료 파운데이션 모델은 여전히 시각적 이해와 생성의 통합에 어려움을 겪고 있으며, 이는 두 작업이 본질적으로 상충하는 목표(의미론적 추상화 대 픽셀 수준 재구성)를 가지기 때문입니다. 기존 접근법은 일반적으로 매개변수 공유 자기회귀 아키텍처에 기반하여 두 작업 중 하나 또는 둘 모두에서 성능 저하를 초래하는 경우가 많습니다. 이를 해결하기 위해 우리는 흉부 X-ray 이해 및 생성을 위한 차세대 통합 의료 파운데이션 모델인 UniX를 제시합니다. UniX는 두 작업을 이해를 위한 자기회귀 분기와 고품질 생성을 위한 확산 분기로 분리합니다. 결정적으로, 크로스 모달 자기 주의 메커니즘을 도입하여 생성 과정을 이해 특징으로 동적으로 안내합니다. 엄격한 데이터 정제 파이프라인과 다단계 학습 전략과 결합된 이 아키텍처는 확산 모델의 강점을 활용하여 우수한 생성을 달성하면서 작업 간의 시너지 협력을 가능하게 합니다. 두 가지 대표적인 벤치마크에서 UniX는 LLM-CXR 대비 매개변수 수의 4분의 1만 사용하여 이해 성능(Micro-F1)에서 46.1%, 생성 품질(FD-RadDino)에서 24.2%의 향상을 달성했습니다. 작업 특화 모델과 동등한 성능을 달성함으로써, 우리의 연구는 시너지적인 의료 영상 이해와 생성을 위한 확장 가능한 패러다임을 정립합니다. 코드와 모델은 https://github.com/ZrH42/UniX에서 이용 가능합니다.
보상 기반 탐색 방법은 복잡한 행동 공간에서 샘플링과 탐색을 효과적으로 안내함으로써 도구 사용 에이전트의 성능 향상에 강력한 잠재력을 보여주고 있다. 핵심 설계로, 이러한 탐색 방법은 단계별 보상을 제공하는 과정 보상 모델(PRM)을 활용하여 보다 세분화된 모니터링을 가능하게 한다. 그러나 도구 사용 환경에서 PRM을 체계적이고 신뢰할 수 있게 평가할 기준이 부족한 실정이다. 본 논문에서는 도구 사용 에이전트를 위한 PRM 평가를 위해 특별히 설계된 대규모 벤치마크인 ToolPRMBench를 소개한다. ToolPRMBench는 여러 대표적인 도구 사용 벤치마크를 기반으로 구축되었으며, 에이전트 궤적을 단계별 테스트 케이스로 변환한다. 각 케이스에는 상호작용 이력, 올바른 행동, 그럴듯하지만 잘못된 대안 행동, 그리고 관련 도구 메타데이터가 포함된다. 우리는 오프라인 샘플링을 통해 지역적 단일 단계 오류를 분리하고, 온라인 샘플링을 통해 전체 에이전트 실행에서 발생하는 현실적인 다단계 실패를 포착한다. 레이블 노이즈를 줄이고 데이터 품질을 보장하기 위해 다중 LLM 검증 파이프라인을 제안한다. ToolPRMBench를 통해 대규모 언어 모델, 일반 PRM, 그리고 도구 특화 PRM에 걸쳐 광범위한 실험을 수행한다. 결과는 PRM의 효과성에 있어 뚜렷한 차이를 보여주며, 도구 사용을 위한 특화된 PRM의 잠재력을 강조한다. 코드와 데이터는 https://github.com/David-Li0406/ToolPRMBench에서 공개될 예정이다.
현재의 대규모 언어 모델(LLM)은 중요한 양식적 단절을 보입니다: 방대한 의미론적 지식을 보유하고 있지만, 물리적 세계의 불변의 법칙을 존중할 수 있는 절차적 토대가 결여되어 있습니다. 그 결과, 이러한 에이전트가 암묵적으로 세계 모델로서 기능함에도 불구하고, 그 시뮬레이션은 종종 물리적 환각(physical hallucination)을 겪습니다. 즉, 논리적으로는 타당하지만 물리적으로 실행 불가능한 계획을 생성하는 것입니다. 기존 정렬(alignment) 전략은 주로 자원 집약적인 학습 또는 미세 조정에 의존하며, 이는 동적인 환경 규칙을 정적인 모델 매개변수로 압축하려 시도합니다. 그러나 이러한 매개변수적 캡슐화는 본질적으로 경직되어 있어, 지속적이고 비용이 많이 드는 재학습 없이는 물리 역학의 개방형 변동성에 적응하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해 우리는 환경 피드백을 종합하여 상징적 세계 지식 저장소(World Knowledge Repository)를 자율적으로 구축하는 WorldMind 프레임워크를 소개합니다. 구체적으로, 예측 오류를 통해 물리적 실행 가능성을 강제하는 과정 경험(Process Experience)과 성공적인 궤적을 통해 작업 최적성을 안내하는 목표 경험(Goal Experience)을 통합합니다. EB-ALFRED 및 EB-Habitat에서의 실험 결과, WorldMind가 기준 모델 대비 우수한 성능을 달성함과 동시에 놀라운 수준의 교차 모델 및 교차 환경 전이성을 보여줌을 확인했습니다.
대규모 언어 모델을 활용한 자기 대전은 자기 향상 인공 지능을 실현하기 위한 유망한 패러다임으로 부상했습니다. 그러나 기존 자기 대전 프레임워크는 (i) 질문자에 대한 솔버 의존적 보상 피드백으로 인한 비정적 목표와 (ii) 솔버를 지도하는 데 사용되는 자체 생성 의사 레이블의 부트스트래핑 오류로 인해 최적화 불안정성을 겪는 경우가 많습니다. 이러한 문제를 완화하기 위해 우리는 자기 진화 과정을 안정화하는 2단계 프레임워크인 DARC(Decoupled Asymmetric Reasoning Curriculum)를 제안합니다. 첫째, 명시적 난이도와 외부 코퍼스를 조건으로 하여 질문자가 난이도가 보정된 질문을 합성하도록 훈련합니다. 둘째, 문서 증강 교사가 문서 접근 권한이 없는 학생 솔버를 지도하는 고품질 의사 레이블을 생성하는 비대칭 자기 지식 증류 메커니즘으로 솔버를 훈련합니다. 실험 결과에 따르면 DARC는 모델에 독립적으로 적용 가능하며, 9개의 추론 벤치마크와 3개의 백본 모델에서 평균 10.9점의 성능 향상을 보였습니다. 또한 DARC는 모든 베이스라인을 일관되게 능가하며 인간 주석에 의존하지 않으면서 완전 지도 모델의 성능에 근접했습니다. 코드는 https://github.com/RUCBM/DARC에서 확인할 수 있습니다.
프로덕션 LLM 시스템은 안전성 및 기타 분류 중심 단계에 별도의 모델을 사용하는 경우가 많아 지연 시간, VRAM 사용량 및 운영 복잡성이 증가합니다. 우리는 대신 서빙 LLM이 이미 수행한 계산을 재활용합니다: 은닉 상태에 경량 프로브를 학습시켜 생성에 사용된 동일한 순전파 과정에서 레이블을 예측합니다. 분류를 고정된 토큰이나 고정된 계층(예: 첫 번째 토큰 로짓 또는 최종 계층 풀링)에 의존하기보다 전체 토큰-계층 은닉 상태 텐서에 대한 표현 선택 문제로 재구성합니다. 이를 구현하기 위해 (i) 각 계층 내 토큰을 요약하고 (ii) 계층별 요약을 종합하여 분류를 위한 단일 표현을 형성하는 2단계 집계기를 도입합니다. 우리는 이 템플릿을 직접 풀링, 100K 매개변수 스코어링 어텐션 게이트, 최대 35M의 학습 가능 매개변수를 가진 다운캐스트 다중 헤드 자가 어텐션(MHA) 프로브로 구체화합니다. 안전성 및 감성 벤치마크에서 우리의 프로브는 로짓 전용 재활용(예: MULI)을 개선하고 상당히 큰 작업 특화 기준선과 경쟁력 있는 성능을 보이며, 거의 서빙 수준의 지연 시간을 유지하고 별도의 가드 모델 파이프라인의 VRAM 및 지연 시간 비용을 방지합니다.
개념 기반 설명은 고위준 개념(예: 성별 또는 경력)이 모델 행동에 미치는 영향을 정량화하며, 이는 고위험 분야의 의사 결정자에게 중요합니다. 최근 연구는 이러한 설명을 반사실적 데이터로 추정된 기준 인과 효과와 비교하여 설명의 신뢰도를 평가합니다. 실제로 기존 벤치마크는 불완전한 대용물 역할을 하는 비용이 많이 드는 인간 작성 반사실적 데이터에 의존합니다. 이를 해결하기 위해 우리는 구조적 반사실적 쌍을 포함하는 데이터셋 구축 프레임워크인 LIBERTy(LLM 기반 참조 대상 설명 가능성 평가 기준)를 소개합니다. LIBERTy는 명시적으로 정의된 텍스트 생성 구조적 인과 모델(SCM)에 기반하여, 개념에 대한 개입이 SCM을 통해 전파된 후 LLM이 반사실적 데이터를 생성합니다. 우리는 세 가지 데이터셋(질병 감지, 이력서 스크리닝, 직장 내 폭력 예측)과 새로운 평가 지표인 순서 신뢰도를 제안합니다. 이를 활용하여 다섯 가지 모델에 걸쳐 다양한 방법을 평가하고 개념 기반 설명의 개선을 위한 상당한 잠재력을 확인했습니다. LIBERTy는 또한 개입에 대한 모델 민감도의 체계적 분석을 가능하게 합니다: 우리는 사후 학습 완화로 인해 상용 LLM이 인구통계학적 개념에 대해 현저히 낮은 민감도를 보인다는 것을 발견했습니다. 전반적으로 LIBERTy는 신뢰할 수 있는 설명 가능성 방법 개발을 위해 절실히 필요한 벤치마크를 제공합니다.
픽셀 기반 강화 학습 에이전트는 잠재 역학과 보상이 변경되지 않은 경우에도 순수 시각적 분포 변화 하에서 종종 실패하지만, 기존 벤치마크는 여러 변화 원인을 복합적으로 다루어 체계적 분석을 어렵게 합니다. 본 연구에서는 기본 제어 문제는 고정한 채 관찰 과정을 독립적으로 제어 가능한 시각적 축으로 분해하는 JAX 기반 2D 플랫폼 게임 환경인 KAGE-Env를 소개합니다. 설계 상 시각적 축을 변경하는 것은 픽셀 정책의 상태-조건부 행동 분포를 통해 성능에만 영향을 미쳐 시각적 일반화를 위한 명확한 추상화를 제공합니다. 이 환경을 기반으로 개별 시각적 변화를 분리한 34개의 학습-평가 구성 쌍으로 이루어진 6개의 알려진 축 세트로 구성된 벤치마크인 KAGE-Bench를 정의합니다. 표준 PPO-CNN 기준 모델을 사용하여 배경 및 광도 측정 변화가 성공률을 급격히 저하시키는 등 축에 따라 현저한 실패 패턴을 관찰한 반면, 에이전트 외형 변화는 상대적으로 영향을 적게 미쳤습니다. 여러 변화는 과제 완수를 방해하면서 전진 운동은 유지하여, 단순한 보상 합계만으로는 일반화 실패를 파악하기 어렵다는 점을 보여줍니다. 마지막으로, 완전히 벡터화된 JAX 구현을 통해 단일 GPU에서 초당 최대 3,300만 환경 단계를 처리할 수 있어 시각적 요소에 대한 빠르고 재현 가능한 탐색이 가능합니다. 코드: https://avanturist322.github.io/KAGEBench/.
긴 사고 연쇄(CoT) 궤적은 교사 LLM에서 학생 LLM으로의 추론 과정을 압축하여 전수하는 데 풍부한 감독 신호를 제공합니다. 그러나 기존 연구와 우리의 실험 모두에서 더 강력한 교사의 궤적이 반드시 더 나은 학생 모델을 만들어내는 것은 아니며, 이는 증류 과정에서 데이터-학생 간 적합성의 중요성을 강조합니다. 기존 방법은 주로 학생 모델의 가능도를 통해 적합성을 평가하여, 모델의 현재 행동과 밀접하게 일치하는 궤적을 선호하지만 더 많은 정보를 제공하는 궤적은 간과해왔습니다. 이를 해결하기 위해 우리는 정렬도와 정보성을 모두 포착하여 추론 궤적의 적합성을 평가하는 간단한 지표인 순위-놀람 비율(RSR)을 제안합니다. RSR은 효과적인 궤적이 일반적으로 학생 모델 기준으로 낮은 절대 확률과 상대적으로 높은 순위의 토큰을 결합함으로써 학습 신호 강도와 행동 정렬 간의 균형을 이루는 관찰에 기반합니다. 구체적으로 RSR은 궤적의 평균 토큰 단위 순위를 평균 음의 로그 가능도로 나눈 값으로 정의되며, 계산과 해석이 직관적입니다. 5가지 학생 모델과 11가지 다양한 교사의 추론 궤적에 걸쳐 RSR은 훈련 후 성능과 높은 상관관계(평균 스피어만 상관계수 0.86)를 보여 기존 지표들을 능가했습니다. 우리는 또한 궤적 선택과 교사 선택이라는 두 가지 실제 적용 사례에서 RSR의 유용성을 추가로 입증합니다.
음성 인식(Phone Recognition, PR)은 교차 언어 음성 처리 및 음성 분석을 위한 언어 중립적 모델링의 기본 인터페이스 역할을 합니다. 오랜 기간 PR 시스템 개발 노력이 지속되어 왔음에도 불구하고, 현재의 평가는 표면적인 전사 정확도만을 측정하고 있습니다. 본 논문은 PR 시스템의 내적 및 외적 평가를 통해 음성 인식의 맹점을 드러내도록 설계된 최초의 오픈소스 벤치마크인 PRiSM을 소개합니다. PRiSM은 전사 기반 평가를 표준화하고, 전사 및 표현 프로브를 활용하여 임상, 교육, 다국어 환경에서의 하위 작업 유용성을 평가합니다. 우리는 훈련 중 다양한 언어 노출이 PR 성능의 핵심 요소이며, 인코더-CTC 모델이 가장 안정적이며, 특화된 PR 모델이 여전히 대규모 오디오 언어 모델보다 성능이 우수함을 발견했습니다. PRiSM은 코드, 레시피 및 데이터세트를 공개하여 강력한 음성 능력을 가진 다국어 음성 모델 분야의 발전을 촉진합니다: https://github.com/changelinglab/prism.
결과-보상 강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 효과적인 것으로 입증되었습니다. 그러나 표준 RL은 최종 답변 수준에서만 신용을 할당하여 결과가 틀렸을 때는 전체 추론 과정을 불이익하고, 정답일 때는 모든 단계를 균일하게 강화합니다. 그 결과, 실패한 추론 과정에서 정확한 중간 단계가 약화될 수 있고, 성공한 추론 과정에서 오류가 있는 단계가 강화될 수 있습니다. 우리는 이러한 실패 모드를 신용 할당 문제라고 부릅니다. 자연스러운 해결책은 과정 보상 모델을 훈련시키는 것이지만, 수정이 필요한 추론 단계를 정확히 식별하도록 이러한 모델을 최적화하는 것은 여전히 어렵습니다. 우리는 인터벤션 트레이닝(InT)을 소개합니다. 이는 모델이 높은 보상 방향으로 궤적을 조종하는 짧고 표적화된 수정안을 제시함으로써 자체 추론 과정에 대해 세밀한 신용 할당을 수행하는 훈련 패러다임입니다. 수학적 추론 데이터셋에서 흔히 이용 가능한 참조 솔루션과 모델 생성 솔루션의 검증이 처음부터 정답을 생성하는 것보다 쉽다는 점을 활용하여, 모델은 자체 추론에서 첫 번째 오류를 식별하고 정확한 솔루션 방향으로 궤적을 재조정하는 단일 단계 인터벤션을 제안합니다. 그런 다음 오류가 발생한 지점까지의 온-폴리시 롤아웃과 인터벤션을 연결하여 지도 미세 조정(SFT)을 적용함으로써 실패를 초래한 특정 단계에 오류를 국소화합니다. 우리는 이를 통해 얻어진 모델이 RL 훈련을 위한 훨씬 나은 초기화 모델로 기능함을 보여줍니다. InT 및 이후 RL을 통한 미세 조정을 수행한 결과, 4B 매개변수 기반 모델 대비 IMO-AnswerBench에서 정확도가 약 14% 향상되었으며, gpt-oss-20b와 같은 더 큰 오픈소스 모델들을 능가하는 성능을 달성했습니다.
저자원 언어에서 대규모 의미 관계 데이터셋을 구축하기 위한 하이브리드 방법론을 제안하며, 포괄적인 터키어 의미 관계 코퍼스를 통해 그 효과성을 입증한다. 본 접근법은 세 단계를 통합한다: (1) FastText 임베딩과 Agglomerative Clustering을 활용한 의미 클러스터 식별, (2) Gemini 2.5-Flash 기반 자동 의미 관계 분류, (3) 정제된 사전 자료와의 통합. 결과 데이터셋은 세 가지 관계 유형(동의어, 반의어, 공하위어)에 걸친 843,000개의 고유 터키어 의미 쌍으로 구성되며, 기존 자원 대비 10배 규모 확대를 최소 비용(65달러)으로 달성했다. 데이터셋 검증을 위해 두 가지 다운스트림 태스크를 수행한 결과, 임베딩 모델은 90%의 Top-1 검색 정확도를, 분류 모델은 90%의 F1-macro 점수를 각각 기록했다. 본 확장 가능한 프로토콜은 터키어 자연어처리 분야의 심각한 데이터 부족 문제를 해결하며 다른 저자원 언어에도 적용 가능함을 입증한다. 데이터셋과 모델을 공개한다.
신경망 임베딩은 notorious한 한계점을 지니고 있습니다: 동의어와 반의어를 신뢰성 있게 구분하지 못한다는 것입니다. 이로 인해 유사도 임계값을 높여도 반대 개념들이 함께 묶이는 것을 막기 어렵습니다. 우리는 이 문제를 직접 해결하기 위해 대규모 의미론적 클러스터링 시스템을 구축했습니다. 우리의 파이프라인은 1,500만 개의 어휘 항목을 처리하고, 무려 5억 2,000만 개의 잠재적 관계를 평가하며, 최종적으로 290만 개의 고정밀 의미론적 클러스터를 생성합니다. 본 시스템은 세 가지 주요 기여점을 갖습니다. 첫째, Gemini 2.5-Flash LLM 증강을 통해 구축하고 인간이 편집한 사전 자원으로 검증한, 동의 관계, 반의 관계, 공하위어 관계를 아우르는 843,000개 개념 쌍의 레이블된 데이터셋을 도입합니다. 둘째, 90%의 macro-F1 성능을 달성하여 원시 임베딩 유사도를 넘어선 강력한 의미 중의성 해소를 가능하게 하는 전문적인 3-way 의미 관계 판별기를 제안합니다. 셋째, 의미 변이(semantic drift)를 완화하여 잘못된 추이적 연결(예: hot -> spicy -> pain -> depression)을 방지하면서 동시에 다의성을 해결하는 새로운 soft-to-hard 클러스터링 알고리즘을 소개합니다. 우리의 접근 방식은 위상 인식(topology-aware) 2단계 확장-제거 절차와 위상 투표를 채택하여 각 용어가 정확히 하나의 의미론적으로 일관된 클러스터에 할당되도록 보장합니다. 그 결과물은 특히 기존 동의어 데이터베이스가 부족한 형태론적으로 풍부하고 저자원 언어에서 고정밀 의미 검색 및 검색 증강 생성에 활용할 수 있는 자원을 제공합니다.
대규모 언어 모델(LLM)이 점점 더 불투명한 코퍼스로 훈련됨에 따라, 훈련 과정에서 저작권이 있는 텍스트가 사용되었는지 감사하기 위해 멤버십 추론 공격(MIA)이 제안되었지만, 현실적인 조건에서의 신뢰성에 대한 우려가 커지고 있습니다. 본 연구는 MIA가 적대적 저작권 분쟁에서 증거로 채택될 수 있는지 검토합니다. 이러한 분쟁 상황에서는 피고인인 모델 개발자가 의미 내용을 보존하면서 훈련 데이터를 은폐할 수 있으며, 우리는 이를 재판관-검사-피고인 통신 프로토콜을 통해 정형화합니다. 이 프로토콜 하에서 강건성을 테스트하기 위해, 우리는 SAGE(Structure-Aware SAE-Guided Extraction)를 소개합니다. SAGE는 Sparse Autoencoder(SAE)에 기반한 패러프레이징 프레임워크로, 어휘 구조를 변경하지만 의미 내용과 하류 작업 유용성은 보존하도록 훈련 데이터를 재구성합니다. 우리의 실험 결과, SAGE로 생성된 패러프레이즈로 모델을 미세 조정할 경우 최신 MIA의 성능이 저하되어, 해당 공격의 신호가 의미 보존 변환에 대해 강건하지 않음을 보여줍니다. 일부 미세 조정 방식에서 어느 정도의 정보 누출이 남아 있기는 하지만, 이러한 결과는 MIA가 적대적 환경에서 취약하며 LLM 저작권 감사를 위한 독립적인 메커니즘으로는 그 자체로 불충분함을 시사합니다.
우리는 과학 논문과 코드베이스 간의 불일치를 탐지하여 충실한 구현을 보장하기 위한 데이터셋인 SciCoQA를 제안합니다. SciCoQA는 GitHub 이슈와 재현성 논문을 바탕으로 구축하였으며, 데이터셋 규모 확장을 위해 논문-코드 불일치를 생성하는 합성 데이터 생성 방법을 제안합니다. 우리는 논문-코드 불일치를 상세히 분석하고 발생하는 불일치를 더 잘 이해하기 위해 불일치 유형과 범주를 제시합니다. 전체적으로 우리 데이터셋은 AI, 물리학, 정량생물학 등 다양한 계산 과학 분야에 걸친 611개의 논문-코드 불일치(실제 81개, 합성 530개)로 구성됩니다. 21개의 대규모 언어 모델에 대한 평가 결과는 SciCoQA의 어려움, 특히 논문 상세 내용 생략, 장문 컨텍스트 입력, 모델 사전 학습 코퍼스 외부 데이터가 포함된 사례에서의 어려움을 부각했습니다. 평가에서 가장 높은 성능을 보인 GPT-5 모델도 실제 논문-코드 불일치의 45.7%만 탐지할 수 있었습니다.
차등 프라이버시 확률적 경사하강법(DP-SGD)은 프라이버시 보호 학습의 주요 패러다임이지만, 최악의 경우 적대적 프라이버시 정의 하에서의 근본적 한계는 여전히 명확히 규명되지 않았습니다. 본 연구는 가설 검정 트레이드오프 곡선을 통해 프라이버시를 규정하는 f-차등 프라이버시 프레임워크에서 DP-SGD를 분석하고, M번의 그래디언트 업데이트로 단일 에포크 내에서 수행되는 셔플링 샘플링을 검토합니다. 우리는 달성 가능한 트레이드오프 곡선에 대한 명시적인 차선 최적 상한을 도출합니다. 이 결과는 메커니즘의 트레이드오프 곡선과 이상적인 무작위 추측 선 사이의 최대 거리인 분리도(separation) κ에 대한 기하학적 하한을 유도합니다. 큰 분리도는 상당한 적대적 이점을 의미하므로, 의미 있는 프라이버시 보호는 작은 κ를 필요로 합니다. 그러나 우리는 작은 분리도를 강제하는 것이 가우시안 노이즈 승수 σ에 엄격한 하한을 부과하며, 이는 직접적으로 달성 가능한 유틸리티를 제한함을 증명합니다. 특히, 표준 최악의 경우 적대적 모델 하에서 셔플링된 DP-SGD는 반드시 다음을 만족해야 합니다: σ ≥ 1/√(2ln M) 또는 κ ≥ 1/8 * (1 - 1/(4πln M)), 따라서 강력한 프라이버시와 높은 유틸리티를 동시에 달성할 수 없습니다. 이 하한이 M → ∞일 때 점근적으로 소멸하더라도, 그 수렴 속도는 극히 느립니다: 실용적으로 관련된 수준의 업데이트 횟수에서도 요구되는 노이즈 크기는 상당하게 유지됩니다. 우리는 더 나아가 동일한 한계가 상수 계수 내에서 포아송 부샘플링으로도 확장됨을 보입니다. 우리의 실험은 이 하한이 시사하는 노이즈 수준이 현실적인 학습 환경에서 심각한 정확도 저하를 초래함을 확인하며, 이는 표준 최악의 경우 적대적 가정 하에서 DP-SGD가 가진 중요한 병목 현상을 보여줍니다.
인스트럭션 튜닝은 대규모 언어 모델(LLM)을 적응시키기 위한 표준 패러다임이지만, 현대의 인스트럭션 데이터셋은 규모가 크고 노이즈가 많으며 중복적이어서 전체 데이터 미세 조정은 비용이 많이 들고 종종 불필요합니다. 기존 데이터 선택 방법은 비용이 많이 드는 그레이디언트 데이터 저장소를 구축하거나 약한 프록시로부터 정적 점수를 할당하는 방식으로, 진화하는 불확실성을 크게 무시하여 LLM 해석 가능성의 핵심 원천을 놓치고 있습니다. 우리는 목적에 구애받지 않는 불확실성 인식 데이터 선택 프레임워크인 GRADFILTERING을 제안합니다. 이 방법은 LoRA 앙상블을 적용한 소규모 GPT-2 프록시를 활용하고 개별 예제별 그레이디언트를 Gradient Signal-to-Noise Ratio(G-SNR) 유틸리티로 집계합니다. 우리의 방법은 대부분의 LLM-as-a-judge 평가와 인간 평가에서 무작위 서브셋 및 강력한 베이스라인을 능가하거나 동등한 성능을 보입니다. 더욱이, GRADFILTERING으로 선택된 서브셋은 동일한 컴퓨팅 예산 하에서 경쟁적인 필터보다 더 빠르게 수렴하여 불확실성 인식 스코어링의 이점을 반영합니다.
원격 탐사 변화 탐지는 두 시점 간의 장면 변화를 위치 특정하고 특성화하는 것을 목표로 하며, 환경 모니터링 및 재해 평가와 같은 응용 분야에서 핵심적인 역할을 합니다. 한편, 최근 시각 자회귀 모델(VAR)이 인상적인 이미지 생성 능력을 보여주었지만, 제한된 제어성, 차선의 밀집 예측 성능 및 노출 편향으로 인해 픽셀 수준의 판별 작업에는 제한적으로 적용되어 왔습니다. 본 연구에서는 이러한 한계를 해결하기 위한 새로운 VAR 기반 변화 탐지 프레임워크인 RemoteVAR을 소개합니다. RemoteVAR은 교차 주의를 통해 다중 해상도 융합 이시점 특징에 자회귀 예측을 조건화하고, 변화 맵 예측에 특화된 자회귀 훈련 전략을 채택합니다. 표준 변화 탐지 벤치마크에서의 광범위한 실험을 통해 RemoteVAR이 강력한 확산 기반 및 트랜스포머 기반 기준선 대비 일관되고 상당한 성능 향상을 제공함을 보여주며, 원격 탐사 변화 탐지를 위한 경쟁력 있는 자회귀 대안을 제시합니다. 코드는 https://github.com/yilmazkorkmaz1/RemoteVAR에서 공개될 예정입니다.
최근 LLM 기반 데이터 에이전트는 데이터 분석부터 딥러닝에 이르는 데이터 과학 업무 자동화를 목표로 합니다. 그러나 실제 데이터 과학 문제는 종종 여러 분류 체계를 아우르며 표준 답안이 부재하는 개방형 특성으로 인해 평가에 상당한 어려움이 따릅니다. 이를 해결하기 위해 우리는 285개의 다양한 데이터셋을 기반으로 구조화 및 비구조화 데이터(예: 영상 및 텍스트)를 모두 포함하는 641개의 실제 데이터 과학 문제로 구성된 벤치마크인 DSAEval을 소개합니다. DSAEval은 세 가지 독특한 특징을 포함합니다: (1) 텍스트와 영상을 포함한 다중 모달 관측치 해석이 가능한 다중 모달 환경 인지, (2) 실제 데이터 과학 프로젝트의 반복적·누적적 특성을 반영한 다중 질의 상호작용, (3) 추론, 코드, 결과에 걸친 종합적 평가를 제공하는 다차원 평가입니다. 우리는 DSAEval을 사용하여 11개의 고급 에이전트 LLM을 체계적으로 평가했습니다. 그 결과, Claude-Sonnet-4.5가 전체적으로 가장 강력한 성능을 보였으며, GPT-5.2가 가장 효율적이고, MiMo-V2-Flash가 가장 비용 대비 효과적이었습니다. 또한 다중 모달 인식이 영상 관련 작업에서 2.04%에서 11.30%에 이르는 성능 향상을 꾸준히 가져온다는 점을 입증했습니다. 전반적으로, 현재 데이터 과학 에이전트는 구조화된 데이터와 일반적인 데이터 분석 워크플로우에서는 우수한 성능을 보이지만, 비구조화 영역에서는 여전히 상당한 과제가 남아 있습니다. 마지막으로, 데이터 과학 에이전트 발전을 위한 핵심 통찰을 제공하고 향후 연구 방향을 제시합니다.
많은 학생들이 전문적인 연구 멘토링의 혜택을 받지 못하고 있습니다. 본 연구는 AI 멘토가 학부생의 아이디어를 논문으로 발전시킬 수 있는지 탐구합니다. 우리는 문헌 검색, 체계화된 가이드라인, 방법론 점검, 메모리 기능을 갖춘 도구 기반 단계 인식 어시스턴트인 METIS를 구축했습니다. METIS를 GPT-5 및 Claude Sonnet 4.5와 대조하여 LLM 판단 기반 쌍별 선호도 평가, 학생 페르소나 루브릭, 단기 다중 터튜토리얼, 증거/준수 검증 등 6개 글쓰기 단계에 걸쳐 평가했습니다. 90개의 단일 터 프롬프트에서 LLM 판단자는 Claude Sonnet 4.5 대비 71%, GPT-5 대비 54%의 경우에서 METIS를 선호했습니다. 학생 평가 점수(명확성/실행 가능성/제약 조건 적합성; 90개 프롬프트 x 3명 판단자)는 모든 단계에서 더 높았습니다. 다중 터 세션(5개 시나리오/에이전트)에서 METIS는 GPT-5 대비 최종 결과물 품질이 약간 더 높았습니다. 성과 향상은 문서 기반 단계(D-F)에서 두드러졌으며, 이는 단계 인식 라우팅 및 근거 기반 접근의 효과와 일치합니다. 주요 실패 모드로는 조기 도구 라우팅, 피상적 근거, 간헐적 단계 오분류가 포함됩니다.
우울증, 불안, 외상 관련 상태와 같은 정서의 언어적 표현은 임상 기록, 상담 대화, 온라인 정신건강 커뮤니티에서 흔히 발견되며, 이러한 정서를 정확하게 인식하는 것은 임상 분류, 위험 평가 및 적시 개입에 필수적입니다. 대규모 언어 모델(LLM)이 정서 분석 과제에서 강력한 일반화 능력을 입증했으나, 위험도가 높고 맥락이 복잡한 의료 현장에서의 진단 신뢰도는 프롬프트 설계에 매우 민감합니다. 더욱이 기존 방법론은 정서 공존병리(여러 정서 상태가 복합적으로 얽혀 예측을 어렵게 함)와 임상적 관련 단서의 비효율적 탐색이라는 두 가지 주요 과제에 직면해 있습니다. 이러한 과제를 해결하기 위해 우리는 진단 효율성과 강건성을 향상시키기 위해 더 넓고 세분화된 프롬프트 공간을 체계적으로 탐색하는 APOLO(Automated Prompt Optimization for Linguistic Emotion Diagnosis) 프레임워크를 제안합니다. APOLO는 지침 개선을 부분 관측 마르코프 결정 과정으로 공식화하고, Planner, Teacher, Critic, Student, Target 역할로 구성된 다중 에이전트 협업 메커니즘을 채택합니다. 이 폐쇄형 루프 프레임워크 내에서 Planner는 최적화 궤적을 정의하고, Teacher-Critic-Student 에이전트는 추론의 안정성과 효과성을 높이기 위해 프롬프트를 반복적으로 개선하며, Target 에이전트는 성능 평가를 기반으로 최적화를 계속할지 여부를 결정합니다. 실험 결과, APOLO는 도메인 특화 및 계층화된 벤치마크에서 진단 정확도와 강건성을 지속적으로 향상시켜, 정신건강 관리 분야에서 신뢰할 수 있는 LLM 응용을 위한 확장 가능하고 일반화 가능한 패러다임을 입증했습니다.
액티브 러닝(AL)은 볼류메트릭 데이터에 대한 전문가 수준 라벨링이 시간과 비용이 많이 드는 3D 생체의학 이미지 분할에서 주석 비용을 획기적으로 절감할 잠재력을 지닙니다. 그러나 기존 AL 방법들은 3D 데이터에 맞게 개선된 무작위 샘플링 기준선을 지속적으로 능가하지 못해 이 분야에 신뢰할 수 있는 해결책이 부재한 실정입니다. 본 연구에서는 표준 불확실성 기반 AL 방법의 두 가지 주요 한계인 클래스 불균형과 초기 선택의 중복성을 해결하는 간단하면서 효과적인 질의 전략인 클래스 계층화 예정 전력 예측 엔트로피(ClaSP PE)를 소개합니다. ClaSP PE는 저조하게 표현된 구조의 Coverage를 보장하기 위한 클래스 계층화 질의와, 초기 AL 단계에서 질의 다양성을 강화하고 후기 단계에서 exploitation을 촉진하기 위한 감쇠 스케줄을 적용한 로그 스케일 전력 노이징을 결합합니다. 포괄적인 nnActive 벤치마크 내 네 가지 3D 생체의학 데이터셋을 활용한 24개 실험 설정에 대한 평가에서 ClaSP PE는 통계적으로 유의미한 성능 향상과 함께 분할 품질 측면에서 개선된 무작위 기준선을 일반적으로 능가하는 유일한 방법이었으며, 동시에 주석 효율성도 유지했습니다. 더 나아가, 모든 실험 매개변수가 사전 정의된 지침에 따라 설정된 상태에서 수동 조정 없이 이전에 확인되지 않은 네 가지 데이터셋에 대해 본 방법을 테스트함으로써 실제 적용 환경을 명시적으로 시뮬레이션했습니다. 결과는 ClaSP PE가 데이터셋별 조정 없이도 새로운 작업에 강건하게 일반화됨을 확인시켜 줍니다. nnActive 프레임워크 내에서 우리는 AL 방법이 현실적이고 프로덕션 환경에 가까운 시나리오에서 성능과 주석 효율성 모두 측면에서 3D 분할에 적응된 무작위 기준선을 지속적으로 능가할 수 있음을 설득력 있게 입증합니다. 우리의 오픈소스 구현체와 명확한 배포 지침은 실제 적용을 용이하게 합니다. 코드는 https://github.com/MIC-DKFZ/nnActive에서 확인할 수 있습니다.