번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 자율 에이전트로 진화하면서 AI 코딩의 범위는 지역적인 코드 생성에서 복잡한 저장소 수준의 실행 중심 문제 해결로 확장되었습니다. 그러나 현재 벤치마크는 정적 맥락에서 코드 논리를 평가하는 데 주력하여, 실제 엔지니어링, 특히 엄격한 환경 구성과 서비스 배포를 요구하는 백엔드 개발의 동적이고 전 과정적인 요구사항을 간과하고 있습니다. 이러한 격차를 해결하기 위해 우리는 현실적이고 실행 가능한 워크플로우 내에서 에이전트의 백엔드 코딩 능력을 명시적으로 평가하도록 설계된 벤치마크인 ABC-Bench를 소개합니다. 확장 가능한 자동화 파이프라인을 활용하여 오픈소스 저장소로부터 8개 프로그래밍 언어와 19개 프레임워크에 걸친 224개의 실용적인 과제를 선별했습니다. 기존 평가와 달리, ABC-Bench는 에이전트가 저장소 탐색부터 컨테이너화된 서비스 인스턴스 생성에 이르는 전체 개발 생명주기를 관리하고 외부 종단간 API 테스트를 통과하도록 요구합니다. 우리의 포괄적인 평가 결과, 최첨단 모델이라도 이러한 전체론적 과제에서 신뢰할 수 있는 성능을 내는 데 어려움을 겪는 것으로 나타나, 현재 모델의 능력과 실전 백엔드 엔지니어링의 요구 사항 사이에 상당한 격차가 있음을 확인했습니다. 우리의 코드는 https://github.com/OpenMOSS/ABC-Bench에서 확인할 수 있습니다.
대규모 언어 모델은 사고의 연쇄(Chain-of-Thought, CoT) 방식을 통해 복잡한 추론 과제를 더 효과적으로 해결하지만, 길고 낮은 대역폭의 토큰 시퀀스라는 비용이 발생합니다. 이에 반해 인간은 일반적으로 가능한 다음 단계에 대한 분포를 유지하는 유연한 방식으로 추론합니다. 이러한 점에 착안하여, 우리는 확률론적 연성 추론(stochastic soft reasoning) 메커니즘인 멀티플렉스 싱킹(Multiplex Thinking)을 제안합니다. 이는 각 사고 단계마다 K개의 후보 토큰을 샘플링하고 이들의 임베딩을 단일 연속 멀티플렉스 토큰으로 집계합니다. 이는 표준 이산 생성의 어휘 임베딩 사전 분포(vocabulary embedding prior)와 샘플링 역학을 유지하면서, 멀티플렉스 롤아웃(rollout)에 대한 다루기 쉬운 확률 분포를 유도합니다. 결과적으로 멀티플렉스 트라젝토리는 온-정책 강화 학습(on-policy reinforcement learning, RL)으로 직접 최적화될 수 있습니다. 중요한 것은 멀티플렉스 싱킹이 자기 적응적(self-adaptive)이라는 점입니다. 모델이 확신을 가질 때는 멀티플렉스 토큰이 거의 이산적(discrete)이며 표준 CoT처럼 동작하고, 불확실할 때는 시퀀스 길이를 증가시키지 않으면서 여러 가능한 다음 단계를 간결하게 표현합니다. 어려운 수학 추론 벤치마크에서 멀티플렉스 싱킹은 Pass@1부터 Pass@1024에 이르기까지 강력한 이산 CoT 및 RL 베이스라인을 일관되게 능가하면서 더 짧은 시퀀스를 생성합니다. 코드와 체크포인트는 https://github.com/GMLR-Penn/Multiplex-Thinking 에서 이용할 수 있습니다.
SAM3와 같은 프롬프트 기반 분할 파운데이션 모델은 상호작용 및 개념 기반 프롬프팅을 통해 강력한 일반화 성능을 입증했습니다. 그러나 의료 영상 분야에 직접 적용하는 것은 심각한 도메인 차이, 특권적 공간 프롬프트의 부재, 복잡한 해부학적 및 체적 구조에 대한 추론 필요성으로 인해 제한됩니다. 본 연구에서는 대규모의 이기종 2D 및 3D 의료 영상 데이터셋(분할 마스크 및 텍스트 프롬프트 포함)을 통해 SAM3를 완전히 미세 조정하여 획득한, 범용 프롬프트 기반 의료 영상 분할 파운데이션 모델인 Medical SAM3를 제시합니다. 기본 SAM3에 대한 체계적 분석을 통해, 의료 데이터에서 성능이 현저히 저하되며 그 겉보기 경쟁력이 실측값 기반 경계 상자와 같은 강력한 기하학적 사전 지식에 크게 의존함을 확인했습니다. 이러한 발견은 프롬프트 엔지니어링만이 아닌 전체 모델 적응의 필요성을 시사합니다. 10가지 의료 영상 방식에 걸친 33개 데이터셋으로 SAM3 모델 파라미터를 미세 조정함으로써, Medical SAM3는 도메인 특화된 강건한 표현을 습득하면서도 프롬프트 기반 유연성을 유지합니다. 장기, 영상 방식, 차원에 걸친 광범위한 실험을 통해 특히 의미론적 모호성, 복잡한 형태학, 장거리 3D 문맥을 특징으로 하는 난제에서 일관적이고 상당한 성능 향상을 입증합니다. 본 연구 결과는 Medical SAM3를 의료 영상을 위한 범용 텍스트 유도 분할 파운데이션 모델로 정립하며, 심각한 도메인 차이 조건에서 강건한 프롬프트 기반 분할을 달성하기 위한 전체론적 모델 적응의 중요성을 강조합니다. 코드와 모델은 https://github.com/AIM-Research-Lab/Medical-SAM3에서 공개될 예정입니다.
대규모 언어 모델(LLM)을 중대 사실 기반 영역에 배포하기 위해서는 모델의 신뢰도를 정확히 평가하는 것이 필수적입니다. 검색 증강 생성(RAG)이 근거 강화를 위해 널리 채택되고 있지만, RAG 환경에서의 신뢰도 보정(calibration)은 아직 제대로 이해되지 못하고 있습니다. 본 연구에서는 4가지 벤치마크에 걸친 체계적 실험을 통해 LLM이 검색된 노이즈 문맥으로 인해 낮은 보정 성능을 보인다는 사실을 확인했습니다. 구체적으로, 모순되거나 관련 없는 증거는 모델의 잘못된 확신을 과도하게 부풀려 심각한 과신(overconfidence)으로 이어지는 경향이 있습니다. 이를 해결하기 위해 우리는 노이즈 환경에서의 과신 문제를 해결하는 원칙적 기반을 마련하는 NAACL 규칙(Noise-AwAre Confidence CaLibration Rules)을 제안합니다. 나아가 이러한 규칙에 기반하여 약 2,000개의 HotpotQA 예제로부터 감독 신호를 종합하는 노이즈 인식 보정 프레임워크인 NAACL을 설계했습니다. 해당 데이터로 지도 미세 조정(SFT)을 수행함으로써, NAACL은 더 강력한 교사 모델에 의존하지 않고도 모델에 내재적인 노이즈 인식 능력을 부여합니다. 실험 결과, NAACL은 ECE 점수를 도메인 내에서 10.9%, 도메인 외에서 8.0% 개선하는 상당한 성능 향상을 보였습니다. 검색 노이즈와 언어적 보정 간의 격차를 해소함으로써, NAACL은 정확하면서도 인식론적으로 신뢰할 수 있는 LLM 개발의 길을 열어줍니다.
대규모 언어 모델은 다양한 페르소나를 구현할 수 있지만, 일반적으로 사후 훈련 과정에서 형성된 도움을 주는 어시스턴트 정체성을 기본값으로 채택합니다. 본 연구에서는 다양한 캐릭터 원형에 해당하는 활성화 방향을 추출하여 모델 페르소나 공간의 구조를 분석합니다. 여러 모델에서 일관되게 관찰된 바에 따르면, 이 페르소나 공간의 주된 구성 요소는 "어시스턴트 축"으로, 모델이 기본 어시스턴트 모드로 작동하는 정도를 포착합니다. 어시스턴트 방향으로의 조정은 도움이 되고 해가 없는 행동을 강화하는 반면, 반대 방향으로의 조정은 모델이 다른 개체로 정체화하는 경향을 증가시킵니다. 나아가 더 극단적인 값으로 반대 방향 조정을 할 경우 종종 신비롭고 연극적인 화법이 유도됩니다. 해당 축은 사전 훈련된 모델에서도 존재하며, 주로 컨설턴트나 코치와 같은 도움이 되는 인간 원형을 촉진하고 영적 원형을 억제하는 역할을 합니다. 어시스턴트 축을 따른 편차를 측정하면 모델이 일반적인 페르소나와는 다른 유해하거나 기이한 행동을 보이는 "페르소나 표류" 현상을 예측할 수 있습니다. 페르소나 표류는 모델의 처리 과정에 대한 메타 반영을 요구하거나 정서적으로 취약한 사용자가 참여하는 대화에서 종종 발생합니다. 어시스턴트 축을 따라 활성화를 고정된 영역으로 제한하면 이러한 시나리오뿐만 아니라 적대적 페르소나 기반 탈옥 시도에서도 모델 행동을 안정화할 수 있습니다. 우리의 연구 결과는 사후 훈련이 모델을 페르소나 공간의 특정 영역으로 유도하지만 느슨하게 묶어둘 뿐이므로, 모델을 일관된 페르소나에 더 깊이 고정시키는 훈련 및 조정 전략에 대한 연구가 필요함을 시사합니다.
대규모 언어 모델(LLM)의 활성화 개입을 통한 조정은 맞춤화와 개인화를 위한 미세 조정의 경량 대안으로 부상하고 있습니다. 양방향 선호도 최적화(BiPO)에 대한 최근 연구는 직접 선호도 최적화(DPO) 방식으로 선호도 데이터에서 직접 조밀한 조정 벡터를 학습할 수 있음을 보여주며, 사실성, 환각 및 안전성 행동 제어를 가능하게 합니다. 그러나 조밀한 조정 벡터는 뉴런의 다중 의미성으로 인해 여러 잠재 요인이 얽히는 경우가 많아, 밀접하게 관련된 가치와 행동(예: 중동 문화 간)을 구별해야 하는 문화적 맞춤화와 같은 세분화된 설정에서 효과성과 안정성이 제한됩니다. 본 논문에서는 참조 모델 없이 희소 오토인코더(SAE)의 잠재 공간에서 희소 조정 벡터를 학습하는 참조 무관 방법인 YaPO(Yet another Policy Optimization)를 제안합니다. YaPO는 희소 코드를 최적화함으로써 분리 가능하고 해석 가능하며 효율적인 조정 방향을 생성합니다. 실험적으로 YaPO는 조밀한 조정 기준선 대비 더 빠르게 수렴하고, 더 강력한 성능을 달성하며, 향상된 훈련 안정성을 보여줍니다. YaPO는 문화적 맞춤화를 넘어 환각, 부 추구, 탈옥, 권력 추구 등 다양한 맞춤화 관련 행동으로 일반화됩니다. 중요한 것은 YaPO가 MMLU에서 측정 가능한 성능 저하 없이 일반 지식을 보존한다는 점입니다. 전반적으로 우리의 결과는 YaPO가 LLM의 효율적이고 안정적이며 세분화된 맞춤화를 위한 일반적인 방법을 제공하며, 제어 가능성 및 도메인 적응에 폭넓게 적용될 수 있음을 보여줍니다. 관련 코드와 데이터는 https://github.com/MBZUAI-Paris/YaPO에서 공개되어 있습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM 추론 향상에 매우 효과적이지만, 최근 연구에 따르면 Qwen 2.5와 같은 모델들은 허위 또는 잘못된 보상 하에서도 상당한 성능 향상을 달성합니다. 우리는 이 현상을 조사하여 "퍼플렉시티 패러독스(Perplexity Paradox)"를 확인했습니다. 즉, 허위 RLVR은 정답 토큰의 퍼플렉시티는 감소하는 반면 프롬프트 측의 일관성은 저하되는 divergence를 유발하며, 이는 모델이 추론 과정을 우회하고 암기에 의존하고 있음을 시사합니다. 경로 패칭(Path Patching), 로짓 렌즈(Logit Lens), JSD 분석, 신경 미분 방정식(Neural Differential Equations)을 활용하여 우리는 이러한 지름길을 가능하게 하는 숨겨진 Anchor-Adapter 회로를 발견했습니다. 중간 레이어(L18-20)에 위치한 기능적 앵커(Functional Anchor)가 암기된 해결책을 불러오도록 트리거하고, 이후 레이어(L21+)의 구조적 어댑터(Structural Adapters)가 표현을 변환하여 지름길 신호를 수용하는 것을 규명했습니다. 마지막으로, 이 회로 내 특정 MLP 키를 scaling하면 양방향 인과 조정이 가능함을 보입니다. 즉, 데이터 오염에 기인한 성능을 인위적으로 증폭하거나 억제할 수 있습니다. 우리의 결과는 RLVR로 튜닝된 모델에서 데이터 오염을 식별하고 완화하기 위한 메커니즘적 로드맵을 제공합니다. 코드는 https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts 에서 확인할 수 있습니다.
캐릭터 이미지 애니메이션은 강력하고 유연한 다중 대상 렌더링에 대한 수요에 힘입어 다양한 분야에서 그 중요성이 부각되고 있다. 기존 방법들은 단일 인물 애니메이션에서는 뛰어난 성능을 보이지만, 임의의 대상 수와 다양한 캐릭터 유형을 처리하고 참조 이미지와 구동 자세 간의 공간적 불일치를 해결하는 데 어려움을 겪는다. 우리는 이러한 한계를 자세와 참조 간의 엄격한 픽셀 단위 정렬을 강제하는 지나치게 경직된 공간 바인딩과 의도된 대상으로 모션을 일관되게 재바인딩하지 못하는 데서 기인한다고 본다. 이러한 문제를 해결하기 위해 우리는 단일(잠재적으로 정렬되지 않은) 자세 시퀀스에 기반하여 임의의 대상 수, 유형 및 공간 구성을 애니메이션할 수 있는 새로운 Unbind-Rebind 프레임워크인 CoDance를 제안한다. 구체적으로, Unbind 모듈은 새로운 자세 이동 인코더를 사용하여 자세와 잠재 특징 모두에 확률적 섭동을 도입함으로써 자세와 참조 간의 경직된 공간 바인딩을 해제하여 모델이 위치에 구애받지 않는 모션 표현을 학습하도록 유도한다. 정밀한 제어와 대상 연관성을 보장하기 위해, 우리는 학습된 모션을 의도된 캐릭터로 유도하기 위해 텍스트 프롬프트의 의미론적 지침과 대상 마스크의 공간적 지침을 활용하는 Rebind 모듈을 고안하였다. 더 나아가 포괄적인 평가를 위해 새로운 다중 대상 벤치마크인 CoDanceBench를 도입하였다. CoDanceBench와 기존 데이터셋에 대한 광범위한 실험을 통해 CoDance가 SOTA 성능을 달성하며 다양한 대상과 공간 배치에 걸쳐 놀라운 일반화 능력을 보여줌을 확인했다. 코드와 가중치는 공개될 예정이다.
다중 모드 대규모 언어 모델이 장편 과학 논문을 진정으로 이해하는지 평가하는 것은 여전히 어려운 과제입니다: 답변만을 평가하는 지표와 합성된 '건초 더미 속 바늘 찾기' 테스트는 문서 내 인과적이고 증거에 기반한 추론 흔적을 요구하지 않은 채 답변 일치만을 보상하는 경우가 많습니다. 우리는 모델이 원본 과학 문서 내에서 명시적인 교차 모드 증거 사슬을 구축하도록 요구하는 '바다 속 물고기 찾기(Fish-in-the-Ocean, FITO)' 패러다임을 제안합니다. FITO를 구현하기 위해 본래의 텍스트와 그림의 혼합 구조를 보존하는 과학 혼합 말뭉치(SIN-Data)를 구축했습니다. 이를 기반으로 증거 발견(SIN-Find), 가설 검증(SIN-Verify), 근거 기반 질의응답(SIN-QA), 증거에 기반한 종합(SIN-Summary)이라는 네 가지 점진적 과제를 포함하는 SIN-Bench를 구성했습니다. 또한 '증거 없음, 점수 없음(No Evidence, No Score)' 원칙을 도입하여 검증 가능한 근거에 기반한 예측만 점수화하고, 일치도, 관련성, 논리성을 통해 증거의 질을 진단합니다. 8개 MLLM에 대한 실험 결과, 근거 마련이 주요 병목 현상임을 확인했습니다: Gemini-3-pro가 가장 높은 평균 종합 점수(0.573)를 기록한 반면, GPT-5는 SIN-QA 답변 정확도(0.767)에서 최고 성적을 거두었지만 증거에 기반한 종합 점수에서는 낮은 성능을 보여 정답과 추적 가능한 지원 간 격차를 드러냈습니다.
PubMed-OCR는 PubMed Central 오픈 액세스 PDF에서 추출한 과학 논문으로 구성된 OCR 중심 코퍼스입니다. 각 페이지 이미지는 Google Cloud Vision으로 주석 처리되어 단어, 줄, 문단 수준의 바운딩 박스와 함께 간결한 JSON 스키마 형태로 공개됩니다. 이 코퍼스는 209.5K개의 논문(150만 페이지; 약 13억 단어)을 포괄하며 레이아웃 인식 모델링, 좌표 기반 질의응답, OCR 의존적 파이프라인 평가를 지원합니다. 저희는 코퍼스 특성(예: 학술지 커버리지 및 감지된 레이아웃 특징)을 분석하고, 단일 OCR 엔진 의존성 및 휴리스틱 기반 줄 재구성 등의 한계점을 논의합니다. 데이터와 스키마를 공개하여 하류 연구를 촉진하고 확장을 권장합니다.
로봇에게 복잡한 조작 작업을 가르치기 위해 사전 훈련된 시각-언어-행동 모델(VLA)을 작업별 데이터로 미세 조정하는 것이 일반적인 방법으로 자리 잡았습니다. 그러나 이 방식은 기존 표현을 업데이트하기 때문에, 로봇이 이미 습득한 지식을 유지하면서 새로운 작업과 환경에 지속적으로 적응해야 하는 실제 세계의 장기 운영에는 적합하지 않습니다. 로봇 공학을 위한 기존의 지속적 학습 방법들은 일반적으로 이전 데이터(예시 데이터) 저장을 필요로 하거나, 긴 작업 순서를 처리하는 데 어려움을 겪거나, 배포 시 작업 식별자에 의존합니다. 이러한 한계를 해결하기 위해 우리는 VLA를 활용한 예시 데이터 없는 지속적 학습을 위한 일반적이고 매개변수 효율적인 프레임워크인 CLARE를 제안합니다. CLARE는 선택된 순전파 계층에 경량 모듈식 어댑터를 도입하고, 계층별 특징 유사성을 바탕으로 새로운 작업을 학습할 때 필요한 부분에서만 모델을 자율적으로 확장합니다. 배포 시에는 오토인코더 기반 라우팅 메커니즘이 작업 레이블 없이 가장 관련성 높은 어댑터를 동적으로 활성화합니다. LIBERO 벤치마크를 통한 광범위한 실험을 통해 CLARE가 이전 작업의 치명적 망각 없이 새로운 작업에서 높은 성능을 달성하며, 예시 데이터 기반 방법들보다도 크게 우수함을 입증했습니다. 코드와 데이터는 https://tum-lsy.github.io/clare에서 확인할 수 있습니다.