ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

1

CAR-bench: 실제 세계의 불확실성 하에서 LLM 에이전트의 일관성과 한계 인식 평가
CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Jan 29
ByJohannes Kirmayr, Lukas Stappen, Elisabeth André
64
4

기존 대규모 언어 모델(LLM) 에이전트 벤치마크는 이상적인 환경에서의 과제 수행에 초점을 맞추지만, 실제 사용자 대상 애플리케이션에서의 신뢰성은 간과해왔습니다. 차량 내 음성 비서와 같은 도메인에서는 사용자가 불완전하거나 모호한 요청을 자주 하며, 이는 에이전트가 대화, 도구 활용, 정책 준수를 통해 관리해야 하는 본질적 불확실성을 생성합니다. 본 연구에서는 차량 내 비서 도메인에서 다중 턴 및 도구 활용 LLM 에이전트의 일관성, 불확실성 처리, 역량 인식 평가를 위한 벤치마크인 CAR-bench을 소개합니다. 이 환경은 LLM으로 시뮬레이션된 사용자, 도메인 정책, 그리고 내비게이션, 생산성, 충전, 차량 제어를 아우르는 58개의 상호 연결된 도구로 구성됩니다. CAR-bench은 표준 과제 수행 평가를 넘어, 도구나 정보가 부족한 상황에서 에이전트의 한계 인식을 테스트하는 Hallucination 과제와, 명료화 또는 내부 정보 수집을 통해 불확실성을 해결해야 하는 Disambiguation 과제를 도입합니다. 베이스라인 결과는 모든 과제 유형에서 일회성 성공과 일관된 성공 사이에 큰 격차가 있음을 보여줍니다. 최첨단 추론 LLM조차도 Disambiguation 과제에서는 성급한 행동으로 인해 일관된 통과율이 50% 미만에 그쳤으며, Hallucination 과제에서는 사용자 요청을 충족시키기 위해 정책을 위반하거나 정보를 조작하는 경우가 빈번했습니다. 이는 실제 환경에서 보다 신뢰할 수 있고 자기 인식 능력을 가진 LLM 에이전트의 필요성을 강조합니다.

2

거미 감각: 계층적 적응형 스크리닝을 통한 효율적인 에이전트 방어를 위한 본질적 위험 감지
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Feb 5
ByZhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
58
4

대규모 언어 모델(LLM)이 자율 에이전트로 진화함에 따라 실제 적용 가능성은 크게 확장되었으며, 새로운 보안 과제도 함께 대두되고 있다. 기존 대부분의 에이전트 방어 메커니즘은 사전 정의된 에이전트 생명주기 단계에서 강제적으로 보안 검증을 실행하는 강제 검증 패러다임을 채택하고 있다. 본 연구에서는 효과적인 에이전트 보안은 구조적으로 분리되고 강제적인 방식이 아니라, 본질적이고 선택적이어야 한다고 주장한다. 우리는 에이전트가 잠재적 경계 상태를 유지하며 위험을 인지했을 때만 방어 체계를 작동하도록 하는 내재적 위험 감지(IRS) 기반의 이벤트 구동형 방어 프레임워크인 Spider-Sense를 제안한다. Spider-Sense는 작동 시 효율성과 정밀도를 절충하는 계층적 방어 메커니즘을 구동한다. 즉, 알려진 패턴은 경량 유사성 매칭으로 해결하는 한편, 모호한 사례는 심층 내부 추론으로 확대 처리하여 외부 모델에 대한 의존성을 제거한다. 엄격한 평가를 위해 우리는 현실적인 도구 실행과 다단계 공격을 특징으로 하는 생명주기 인식 벤치마크 S^2Bench를 도입했다. 광범위한 실험을 통해 Spider-Sense가 경쟁력 있거나 우수한 방어 성능을 달성하며, 최저의 공격 성공률(ASR)과 오탐률(FPR)을 기록하면서도 약 8.3%의 미미한 지연 오버헤드만 발생함을 입증했다.

3

길이 편향 없는 시퀀스 정책 최적화: 강화학습 기반 응답 생성에서의 응답 길이 변동성 규명 및 제어
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

Feb 5
ByFanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
45
4

검증 가능한 보상을 활용한 강화 학습(RLVR)을 대규모 언어 모델(LLM) 및 시각-언어 모델(VLM)에 최근 적용함으로써 복잡한 작업에 대한 추론 능력 향상에서 상당한 성공을 거두었습니다. RLVR 학습 과정에서 응답 길이의 증가는 종종 추론 능력 성장의 주요 요인으로 간주됩니다. 그러나 학습 과정에서 응답 길이의 변화 패턴은 서로 다른 RLVR 알고리즘 간에 현저한 차이를 보입니다. 이러한 변동에 대한 근본적인 설명을 제공하기 위해, 본 논문은 주류 RLVR 알고리즘의 구성 요소에 대한 심층 분석을 수행합니다. 우리는 응답 길이에 영향을 미치는 요인에 대한 이론적 분석을 제시하고 광범위한 실험을 통해 이론을 검증합니다. 이러한 이론적 결과를 바탕으로, 우리는 길이 편향이 제거된 시퀀스 정책 최적화(LUSPO) 알고리즘을 제안합니다. 구체적으로, 우리는 그룹 시퀀스 정책 최적화(GSPO)에 내재된 길이 편향을 수정하여 해당 손실 함수를 응답 길이에 대해 편향되지 않게 만들고, 이로 인해 응답 길이 붕괴 문제를 해결합니다. 우리는 수학적 추론 벤치마크와 다중 모달 추론 시나리오 전반에 걸쳐 광범위한 실험을 수행하며, LUSPO는 일관되게 우수한 성능을 달성했습니다. 실험 결과는 LUSPO가 GRPO 및 GSPO와 같은 기존 방법과 비교했을 때 새로운 최첨단 최적화 전략임을 입증합니다.

4

MemSkill: 자가 발전 에이전트를 위한 메모리 기술 학습 및 진화
MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

Feb 2
ByHaozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang, Haodong Yue, Wenya Wang
31
3

대부분의 대규모 언어 모델(LLM) 에이전트 메모리 시스템은 메모리 추출을 위해 소수의 정적이고 수동 설계된 연산 집합에 의존합니다. 이러한 고정된 절차는 무엇을 저장하고 어떻게 메모리를 수정할지에 대한 인간의 사전 지식을 하드코딩하여 다양한 상호작용 패턴 하에서 경직되고 긴 기록에서는 비효율적입니다. 이를 위해 본 논문은 이러한 연산을 학습 가능하고 진화 가능한 메모리 스킬, 즉 상호작용 흔적에서 정보를 추출, 통합, 정리하기 위한 구조화되고 재사용 가능한 루틴으로 재구성하는 MemSkill을 제안합니다. 에이전트 스킬의 설계 철학에서 영감을 받은 MemSkill은 소수의 관련 스킬을 선택하도록 학습하는 컨트롤러와 스킬의 지도를 받아 메모리를 생성하는 LLM 기반 실행기를 결합합니다. 스킬 선택을 학습하는 것을 넘어 MemSkill은 선택된 스킬이 부정확하거나 불완전한 메모리를 생성하는 어려운 사례를 주기적으로 검토하고 스킬 개선 및 새로운 스킬을 제안하여 스킬 집합을 진화시키는 디자이너를 도입합니다. 이를 통해 MemSkill은 스킬 선택 정책과 스킬 집합 자체를 모두 개선하는 폐쇄형 절차를 형성합니다. LoCoMo, LongMemEval, HotpotQA, ALFWorld에 대한 실험 결과, MemSkill이 강력한 베이스라인 대비 과제 성능을 향상시키고 다양한 설정에서 잘 일반화됨을 입증했습니다. 추가 분석은 스킬이 어떻게 진화하는지 보여주며, LLM 에이전트를 위한 더 적응적이고 자기 진화적인 메모리 관리 방향에 대한 통찰을 제공합니다.

5

맥락 강제화: 긴 맥락을 활용한 일관된 자기회귀 비디오 생성
Context Forcing: Consistent Autoregressive Video Generation with Long Context

Feb 5
ByShuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
27
7

최근 실시간 장영상 생성 접근법들은 일반적으로 스트리밍 튜닝 전략을 채택하여, 단기 컨텍스트(메모리 없는) 교사 모델을 이용해 장기 컨텍스트 학생 모델을 학습시키려 시도합니다. 이러한 프레임워크에서 학생 모델은 장기 롤아웃을 수행하지만, 5초 길이의 단기 창에 제한된 교사 모델로부터 지도를 받습니다. 이러한 구조적 차이는 중요한 학생-교사 불일치를 야기합니다. 교사 모델이 장기 역사에 접근할 수 없기 때문에 학생 모델에게 전역 시간적 의존성을 지도할 수 없어, 결과적으로 학생 모델의 컨텍스트 길이에 한계를 초래합니다. 이를 해결하기 위해 우리는 장기 컨텍스트 교사 모델을 통해 장기 컨텍스트 학생 모델을 학습하는 새로운 프레임워크인 Context Forcing을 제안합니다. 교사 모델이 전체 생성 역사를 인식하도록 보장함으로써 지도 불일치를 제거하고, 장기적 일관성을 유지할 수 있는 모델의 강건한 학습을 가능하게 합니다. 극단적으로 긴 지속 시간(예: 2분)에 대해 이를 계산적으로 실현 가능하게 하기 위해, 선형 증가하는 컨텍스트를 Slow-Fast Memory 구조로 변환하여 시각적 중복성을 크게 줄이는 컨텍스트 관리 시스템을 도입합니다. 폭넓은 실험 결과는 우리 방법이 20초를 초과하는 효과적인 컨텍스트 길이를 가능하게 하며, 이는 LongLive 및 Infinite-RoPE와 같은 최신 방법보다 2배에서 10배 더 깁니다. 이러한 확장된 컨텍스트를 활용함으로써 Context Forcing은 장기간에 걸쳐 우수한 일관성을 유지하며, 다양한 장영상 평가 메트릭에서 최신 기준선들을 능가합니다.

6

RISE-Video: 비디오 생성기는 암묵적인 세계 규칙을 해독할 수 있는가?
RISE-Video: Can Video Generators Decode Implicit World Rules?

Feb 5
ByMingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
25
3

생성형 비디오 모델이 놀라운 시각적 정확도를 달성했지만, 암묵적 세계 규칙을 내재화하고 추론하는 능력은 여전히 중요하지만 충분히 탐구되지 않은 분야로 남아 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 평가 초점을 표면적 미학에서 심층 인지 추론으로 전환하는 텍스트-이미지-비디오(TI2V) 합성을 위한 선도적인 추론 지향 벤치마크인 RISE-Video를 제안합니다. RISE-Video는 8개의 엄격한 범주에 걸친 467개의 정교하게 인간 주석이 달린 샘플로 구성되어 있으며, 상식 및 공간 역학부터 전문 주제 영역에 이르기까지 다양한 차원에서 모델 지능을 탐구하기 위한 구조화된 테스트베드를 제공합니다. 우리의 프레임워크는 추론 정합성, 시간적 일관성, 물리적 합리성, 시각적 품질의 네 가지 측정 지표로 구성된 다차원 평가 프로토콜을 도입합니다. 확장 가능한 평가를 추가로 지원하기 위해 대규모 멀티모달 모델(LMM)을 활용하여 인간 중심 평가를 모방하는 자동화 파이프라인을 제안합니다. 11개의 최첨단 TI2V 모델에 대한 광범위한 실험을 통해 암묵적 제약 조건 하에서 복잡한 시나리오를 시뮬레이션하는 데 있어 보편적으로 존재하는 결함을 드러내며, 미래의 세계 시뮬레이션 생성 모델 발전을 위한 중요한 통찰을 제공합니다.

7

에이전트의 정확한 실패 예측이 효과적인 실패 방지를 의미하지는 않는다
Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Feb 3
ByRakshith Vasudev, Melisa Russak, Dan Bikel, Waseem Alshikh
25
3

LLM 비평 모델의 사전적 개입이 신뢰성을 향상시킬 것이라고 흔히 가정되지만, 실제 배포 시점에서의 효과는 제대로 이해되지 않고 있습니다. 우리는 강력한 오프라인 정확도(AUROC 0.94)를 보이는 이진 LLM 비평 모델이 오히려 심각한 성능 저하를 초래할 수 있음을 보여줍니다. 한 모델에서는 26%p(percentage point)의 붕괴를 유발한 반면, 다른 모델에서는 거의 0%p의 영향을 미쳤습니다. 이러한 변동성은 LLM 비평 모델의 정확도만으로는 개입이 안전한지 판단하기에 불충분함을 입증합니다. 우리는 *방해-회복 상충관계*를 규명했습니다. 즉, 개입이 실패하는 진행 경로를 회복시킬 수도 있지만, 본래 성공했을 진행 경로를 방해할 수도 있다는 것입니다. 이러한 통찰을 바탕으로 우리는 전체 배포 없이도 소규모 파일럿(50개 작업)을 사용하여 개입이 도움이 될지 해가 될지 예측하는 배포 전 테스트를 제안합니다. 다양한 벤치마크에서 이 테스트는 결과를 정확히 예측했습니다: 개입은 높은 성공률 작업에서는 성능을 저하시켰고(0에서 -26%p), 높은 실패율을 보인 ALFWorld 벤치마크에서는 소폭의 개선을 가져왔습니다(+2.8%p, p=0.014). 따라서 우리 프레임워크의 주요 가치는 언제 개입하지 말아야 하는지를 식별함으로써 배포 전에 심각한 성능 회귀를 방지하는 데 있습니다.

8

ProAct: 대화형 환경에서의 능동적 전망 탐색
ProAct: Agentic Lookahead in Interactive Environments

Feb 5
ByYangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang
21
3

기존 대규모 언어 모델(LLM) 에이전트는 장기적인 계획이 필요한 상호작용 환경에서 주로 미래 상태 시뮬레이션 시 발생하는 오류 누적으로 인해 어려움을 겪습니다. 이를 해결하기 위해 우리는 2단계 학습 패러다임을 통해 에이전트가 정확한 선행 추론을 내재화할 수 있는 프레임워크인 ProAct를 제안합니다. 첫째, 환경 기반 탐색에서 도출된 궤적에 대해 에이전트가 지도 미세 조정을 수행하는 접지된 선행 추론 증류(Grounded LookAhead Distillation, GLAD)를 도입합니다. 복잡한 탐색 트리를 간결한 인과적 추론 체인으로 압축함으로써, 에이전트는 추론 시점의 탐색에 따른 계산 부담 없이 선견지명의 논리를 학습합니다. 둘째, 의사 결정 정확도를 더욱 개선하기 위해 PPO 및 GRPO와 같은 정책 경사 알고리즘을 강화하도록 설계된 플러그 앤 플레이 보조 가치 추정기인 몬테카를로 비평가(Monte-Carlo Critic, MC-Critic)를 제안합니다. 경량 환경 롤아웃을 활용하여 가치 추정값을 보정함으로써, MC-Critic은 고비용의 모델 기반 가치 근사에 의존하지 않으면서 안정적인 정책 최적화를 용이하게 하는 낮은 분산의 신호를 제공합니다. 확률적 환경(예: 2048)과 결정론적 환경(예: 소코반) 모두에서의 실험을 통해 ProAct가 계획 정확도를 크게 향상시킴을 입증했습니다. 주목할 점은, ProAct로 학습된 40억 매개변수 모델이 모든 오픈소스 기준 모델을 능가하고 최첨단 클로즈드소스 모델에 필적하는 성능을 보이면서, 보지 못한 환경에 대한 강력한 일반화 능력을 보여주었습니다. 코드와 모델은 https://github.com/GreatX3/ProAct에서 확인할 수 있습니다.

9

드니얼 박사: 트리톤 커널 생성을 위한 올바른 강화 학습 접근법
Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Feb 5
ByWei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He
18
3

고품질 커널은 확장 가능한 AI 시스템에 필수적이며, LLM이 이러한 코드를 생성할 수 있게 되면 AI 개발이 크게 진전될 수 있습니다. 하지만 이 작업을 위해 LLM을 훈련시키기 위해서는 충분한 데이터와 강력한 환경이 필요하며, 이 과정은 종종 보상 해킹과 게으른 최적화에 취약합니다. 이러한 경우 모델은 훈련 보상을 해킹하여 의미 있는 속도 향상보다 사소한 정확성에 우선순위를 둘 수 있습니다. 본 논문에서는 커널 생성을 위한 강화학습(RL)을 체계적으로 연구합니다. 먼저 보상 해킹 검사, 다중 턴 상호작용에서의 데이터 수집, 장기 RL 훈련을 지원하는 강력한 분산 GPU 환경인 KernelGYM을 설계합니다. KernelGYM을 기반으로 효과적인 다중 턴 RL 방법을 조사하고 GRPO에서 자기 포함으로 인한 편향된 정책 경사 문제를 확인합니다. 이를 해결하기 위해 다중 턴 RL에 대한 편향되지 않은 어드밴티지 추정을 제공하는 턴 단위 Reinforce-Leave-One-Out(TRLOO)을 제안합니다. 게으른 최적화를 완화하기 위해 훈련 안정성을 위한 불일치 수정을 통합하고, 해당 문제를 극복하기 위해 프로파일링 기반 보상(PR)과 프로파일링 기반 반응 샘플링(PRS)을 도입합니다. 훈련된 모델인 Dr.Kernel-14B는 Kernelbench에서 Claude-4.5-Sonnet에 버금가는 성능에 도달합니다. 마지막으로 Dr.Kernel-14B에 대한 순차적 테스트 타임 스케일링을 연구합니다. KernelBench Level-2 하위 집합에서 생성된 커널의 31.6%가 Torch 참조 대비 최소 1.2배의 속도 향상을 달성하여 Claude-4.5-Sonnet(26.7%) 및 GPT-5(28.6%)를 능가합니다. 모든 턴에서 최상의 후보를 선택할 경우, 이 1.2배 속도 향상 비율은 47.8%로 더욱 증가합니다. 환경, 훈련 코드, 모델, 데이터셋을 포함한 모든 리소스는 https://www.github.com/hkust-nlp/KernelGYM에서 확인할 수 있습니다.

10

언어 모델을 위한 특권 정보 증류
Privileged Information Distillation for Language Models

Feb 4
ByEmiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin, Massimo Caccia
17
3

훈련 시간 특권 정보(PI)는 언어 모델이 원래 실패할 작업을 성공적으로 수행할 수 있게 하여, 어렵고 장기적인 설정에서 강화 학습을 위한 강력한 도구가 됩니다. 그러나 추론 시간에 PI 없이 작동해야 하는 정책으로 PI를 통해 학습된 능력을 전이하는 것은 근본적인 과제로 남아 있습니다. 우리는 멀티턴 에이전트 환경에서 최첨단 모델을 증류하는 맥락에서 이 문제를 연구하며, 이 환경에서는 폐쇄형 시스템이 일반적으로 내부 추론 과정을 숨기고 행동 궤적만 노출합니다. 이는 성공적인 행동은 관찰 가능하지만 추론 과정은 관찰할 수 없기 때문에 표준 증류 파이프라인을 무너뜨립니다. 이를 위해 우리는 동일한 모델을 사용하여 PI 조건부 교사와 비조건부 학생을 동시에 훈련시키는 공동 교사-학생 목표 함수인 π-Distill을 소개합니다. 추가적으로 우리는 학생과 PI 조건부 교사 간의 역 KL 패널티를 사용한 강화 학습(RL)으로 훈련하는 대안적 접근법인 정책 상 자기 증류(OPSD)도 소개합니다. 우리는 이 두 알고리즘이 행동 전용 PI를 사용하여 최첨단 에이전트를 효과적으로 증류함을 보여줍니다. 구체적으로, 우리는 π-Distill과 경우에 따라 OPSD가 완전한 사고 연쇄 감독에 접근할 수 있다고 가정하는 업계 표준 관행(지도 미세 조정 후 RL 수행)을 여러 에이전트 벤치마크, 모델 및 PI 형태에서 능가함을 발견했습니다. 우리는 결과를 주로 π-Distill에 초점을 맞추고 OPSD가 경쟁력을 갖는 조건을 규명함으로써 PI를 통한 효과적 학습을 가능하게 하는 요인을 규명하는 광범위한 분석으로 보완합니다.

11

확장 가능한 상호작용적 감독을 통한 대규모 언어 모델 조정
Steering LLMs via Scalable Interactive Oversight

Feb 4
ByEnyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
16
3

대규모 언어 모델이 바이브 코딩과 같은 복잡하고 장기적인 작업을 점점 더 자동화함에 따라 감독의 공백이 나타났습니다. 모델은 실행 측면에서는 뛰어나지만, 사용자는 충분한 도메인 전문성 부족, 정확한 의도를 명시적으로 표현하는 것의 어려움, 복잡한 출력을 신뢰성 있게 검증할 수 없는 한계로 인해 모델을 효과적으로 지도하는 데 어려움을 겪는 경우가 많습니다. 이는 인간이 자신의 능력으로는 명세화하거나 검증하기 어려운 작업에서 AI 시스템을 책임감 있게 조종할 수 있도록 하는 확장 가능한 감독(scalable oversight) 분야의 핵심 과제를 제시합니다. 이를 해결하기 위해 우리는 복잡한 의도를 관리 가능한 결정들의 재귀적 트리로 분해하여 인간의 감독 능력을 증폭하는 '확장 가능한 상호작용 감독(Scalable Interactive Oversight)' 프레임워크를 제안합니다. 개방형 프롬프팅에 의존하기보다, 우리 시스템은 각 의사결정 노드에서 부담이 적은 피드백을 유도하고 이러한 신호들을 재귀적으로 통합하여 정확한 전역 지도(global guidance)를 생성합니다. 웹 개발 작업에서 검증된 결과, 우리 프레임워크는 비전문가가 전문가 수준의 제품 요구 사항 문서(Product Requirement Document)를 생성할 수 있게 하여 정렬도(alignment)에서 54%의 향상을 달성했습니다. 무엇보다도, 이 프레임워크가 온라인 사용자 피드백만을 사용한 강화 학습(Reinforcement Learning)을 통해 최적화될 수 있음을 입증하여, AI 규모가 확장됨에 따라 인간의 통제력을 유지할 수 있는 실용적인 경로를 제시합니다.

12

900만 개 이상의 수학 정리에 대한 의미론적 검색
Semantic Search over 9 Million Mathematical Theorems

Feb 5
ByLuke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Giovanni Inchiostro, Vasily Ilin
16
4

수학적 결과 검색은 여전히 어려운 과제입니다: 기존 대부분의 도구는 논문 전체를 검색하는 반면, 수학자와 정리 증명 에이전트는 종종 특정 정리, 보조정리 또는 명제를 찾고자 합니다. 의미론적 검색이 빠르게 발전했지만, 연구 수준의 수학 정리와 같이 방대하고 고도로 기술적인 자료 집합에서의 동작 방식은 아직 잘 이해되지 않고 있습니다. 본 연구에서는 arXiv 및 7개 다른 출처에서 추출한 920만 개의 정리 문장으로 구성된 통합 자료 집합을 대상으로 대규모 의미론적 정리 검색을 소개하고 분석합니다. 이는 공개된 자료 중 인간이 작성한 연구 수준 정리로는 가장 큰 규모입니다. 우리는 각 정리를 짧은 자연어 설명으로 표현하여 검색 표현으로 사용하며, 표현 맥락, 언어 모델 선택, 임베딩 모델, 프롬프트 전략이 검색 품질에 미치는 영향을 체계적으로 분석합니다. 전문 수학자가 작성한 정리 검색 쿼리로 구성된 평가 데이터셋에서 우리의 접근 방식은 기존 기준선에 비해 정리 수준과 논문 수준 검색 모두에서 상당한 향상을 보여주며, 의미론적 정리 검색이 웹 규모에서 실현 가능하고 효과적임을 입증합니다. 정리 검색 도구는 https://huggingface.co/spaces/uw-math-ai/theorem-search에서 이용 가능하며, 데이터셋은 https://huggingface.co/datasets/uw-math-ai/TheoremSearch에서 이용할 수 있습니다.

13

데이터셋 증류에서 정보성과 유용성의 기반 강화
Grounding and Enhancing Informativeness and Utility in Dataset Distillation

Jan 29
ByShaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
15
4

데이터셋 증류(DD)는 대규모 실제 데이터셋으로부터 간결한 데이터셋을 생성하는 것을 목표로 합니다. 최근 방법론들은 효율성과 품질의 균형을 위해 휴리스틱 접근법에 의존하는 경우가 많으나, 원본 데이터와 합성 데이터 간의 근본적인 관계는 아직 충분히 탐구되지 않았습니다. 본 논문은 견고한 이론적 체계 내에서 지식 증류 기반 데이터셋 증류를 재조명합니다. 우리는 각각 샘플 내 중요한 정보와 훈련 세트 내 필수 샘플을 포착하는 정보성과 유용성 개념을 도입합니다. 이러한 원칙을 바탕으로 최적의 데이터셋 증류를 수학적으로 정의하며, 증류된 데이터셋 합성 시 정보성과 유용성의 균형을 맞추는 InfoUtil 프레임워크를 제시합니다. InfoUtil은 두 가지 핵심 구성 요소로 이루어집니다: (1) 샘플의 핵심 정보 추출을 위한 샤플리 가치 기반 게임 이론적 정보성 극대화, (2) 그래디언트 노름에 기반한 전역적 영향력을 지닌 샘플 선별을 통한 체계적 유용성 극대화. 이러한 구성 요소들은 증류된 데이터셋이 정보적으로 풍부하면서도 유용성이 최적화되도록 보장합니다. 실험 결과, 우리의 방법은 ResNet-18을 사용한 ImageNet-1K 데이터셋에서 기존 최첨단 접근법 대비 6.1%의 성능 향상을 달성했습니다.

14

검색-강화 추론 샌드박스: 검색과 추론 능력의 분리를 위한 벤치마크
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Jan 29
ByShuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
15
5

기존 벤치마크에서 강력한 성능을 보임에도 불구하고, 대규모 언어 모델이 진정으로 새로운 과학적 정보를 기반으로 사고할 수 있는지 여부는 여전히 불분명합니다. 대부분의 평가는 종단 간 RAG 파이프라인의 성능을 점수화하는데, 여기서는 사고 과정이 검색 및 도구 체인 선택과 혼재되고, 매개변수 기억화 및 오픈 웹의 변동성으로 인해 신호가 더욱 오염됩니다. 본 연구에서는 문서 기반 사고를 분리하면서도 심층 탐색의 핵심 난제인 다단계 종합, 노이즈 제거, 증거 기반 결론 도출을 보존하는 통제된 심층 연구 샌드박스인 DeR2를 소개합니다. DeR2는 네 가지 체계—지시어 전용, 개념(문서 없이 핵심 개념 제공), 관련 문서 전용, 전체 집합(관련 문서 및 주제별 관련 방해 문서)—를 통해 증거 접근성과 사고 과정을 분리하여, 검색 손실 대 사고 손실을 운영적으로 정의하고 세분화된 오류 귀속을 가능하게 하는 해석 가능한 체계 간 차이를 제공합니다. 매개변수 정보 누출을 방지하기 위해, 증거 없이는 매개변수 모델이 실패해야 하면서도 오라클 개념을 통해 문제 해결이 가능함을 보장하는 2단계 검증 절차를 적용합니다. 재현성을 보장하기 위해 각 인스턴스는 전문가가 주석을 단 개념과 검증된 근거와 함께 고정된 문서 라이브러리(2023-2025년 이론 논문에서 추출)를 제공합니다. 다양한 최첨단 기초 모델을 대상으로 한 실험은 상당한 변동성과 중요한 개선 여지를 드러냈습니다: 일부 모델은 전체 집합 조건에서 지시어 전용 조건보다 성능이 더 나쁜 모드 전환 취약성을 보인 반면, 다른 모델들은 개념을 정확히 언급하지만 절차로서 실행하는 데 실패하는 구조적 개념 오용을 보였습니다.

15

InterPrior: 물리 기반 인간-물체 상호작용을 위한 생성적 제어 확장
InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

Feb 5
BySirui Xu, Samuel Schulter, Morteza Ziyadi, Xialin He, Xiaohan Fei, Yu-Xiong Wang, Liangyan Gui
15
3

인간은 명시적인 전신 동작 수준에서 객체와의 전신 상호작용을 거의 계획하지 않습니다. 어포던스와 같은 고차원 의도가 목표를 정의하는 반면, 조화로운 균형, 접촉, 조작은 기저에 있는 물리적 및 운동 사전 지식에서 자연스럽게 나타납니다. 이러한 사전 지식을 확장하는 것은 휴머노이드가 물리적으로 일관된 전신 조화를 유지하면서 다양한 맥락에서 이동-조작 기술을 구성하고 일반화할 수 있도록 하는 핵심 요소입니다. 이를 위해 우리는 대규모 모방 사전 훈련과 강화 학습을 통한 사후 훈련으로 통합 생성 제어기를 학습하는 확장 가능한 프레임워크인 InterPrior를 소개합니다. InterPrior는 먼저 전체 참조 모방 전문가를 다중 모드 관측 및 고차원 의도로부터 운동을 재구성하는 다목적 목표 조건 변분 정책으로 정제합니다. 정제된 정책은 훈련 동작을 재구성하지만, 대규모 인간-객체 상호작용의 방대한 구성 공간으로 인해 안정적으로 일반화하지는 못합니다. 이를 해결하기 위해 물리적 섭동을 통한 데이터 증강을 적용한 후, 보이지 않는 목표 및 초기화 조건에서 성능을 향상시키기 위해 강화 학습 미세 조정을 수행합니다. 이러한 단계들을 함께 통해 재구성된 잠재 기술들을 유효한 다양체로 통합하여, 훈련 데이터를 넘어서는 일반화 능력을 가진 운동 사전을 생성합니다. 예를 들어, 이는 보이지 않는 객체와의 상호작용과 같은 새로운 행동들을 통합할 수 있습니다. 우리는 또한 사용자 상호형 제어에서의 효과성과 실제 로봇 적용 가능성을 추가로 입증합니다.

16

SocialVeil: 의사소통 장애 하에서 언어 에이전트의 사회적 지능 탐구
SocialVeil: Probing Social Intelligence of Language Agents under Communication Barriers

Feb 4
ByKeyang Xuan, Pengda Wang, Chongrui Ye, Haofei Yu, Tal August, Jiaxuan You
14
7

대규모 언어 모델(LLM)의 사회적 지능을 평가하기 위해 상호작용 환경에서의 평가가 점차 확대되고 있다. 그러나 기존 벤치마크는 에이전트 간 이상적인 의사소통을 전제로 하는 경우가 많아, 보다 현실적이고 불완전한 환경에서 LLM이 상호작용을 유지 및 복구할 수 있는지를 진단하는 데 한계가 있다. 이러한 격차를 해소하기 위해 우리는 인지적 차이로 인한 의사소통 장벽 하에서 사회적 상호작용을 시뮬레이션할 수 있는 사회적 학습 환경인 SocialVeil을 제안한다. SocialVeil은 인간 상호작용에서 발생하는 의사소통 문제에 대한 체계적 문헌 고찰에 기반하여, 대표적인 세 가지 장애 유형인 의미적 모호함, 사회문화적 불일치, 정서적 간섭을 도입한다. 또한 손상된 의사소통 하에서 상호작용 품질을 평가하기 위해 장벽 인식 평가 지표인 미해소 혼란과 상호 이해를 제안한다. 720개 시나리오와 4개의 최신 LLM을 대상으로 한 실험 결과, 장벽이 존재할 경우 성능이 지속적으로 저하되며 상호 이해는 평균 45% 이상 감소하고 혼란은 약 50% 가까이 증가하는 것으로 나타났다. 인간 평가를 통해 이러한 시뮬레이션 장벽의 현실성을 검증하였다(ICC≈0.78, Pearson r≈0.80). 더 나아가 적응 전략(수복 지시와 상호작용 학습)이 장벽이 없는 환경의 성능에 크게 미치지 못하는 제한적인 효과만 있는 것을 확인했다. 본 연구는 사회적 상호작용 환경을 실제 의사소통에 한 걸음 더 가까이 접근시키는 동시에, LLM 에이전트의 사회적 지능 탐구를 위한 기회를 열어준다는 의의가 있다.

17

DFlash: 플래시 예측 디코딩을 위한 블록 확산
DFlash: Block Diffusion for Flash Speculative Decoding

Feb 5
ByJian Chen, Yesheng Liang, Zhijian Liu
14
1

자동회귀 대규모 언어 모델(LLM)은 강력한 성능을 보여주지만 본질적으로 순차적인 디코딩이 필요해 추론 지연 시간이 길고 GPU 활용도가 낮은 문제가 있습니다. 스페큘레이티브 디코딩은 빠른 드래프트 모델을 사용해 그 출력을 대상 LLM이 병렬로 검증하는 방식으로 이 병목 현상을 완화하지만, 기존 방법은 여전히 순차적인 자동회귀 방식의 드래프팅에 의존하여 실질적인 속도 향상에 한계가 있습니다. 확산 LLM은 병렬 생성을 가능하게 하여 유망한 대안을 제시하지만, 현재 확산 모델은 일반적으로 자동회귀 모델 대비 성능이 낮습니다. 본 논문에서는 병렬 드래프팅을 위해 경량 블록 확산 모델을 활용하는 스페큘레이티브 디코딩 프레임워크인 DFlash를 소개합니다. DFlash는 단일 순방향 전달로 드래프트 토큰을 생성하고 대상 모델에서 추출한 컨텍스트 특징을 드래프트 모델의 조건으로 사용함으로써 높은 품질의 출력과 높은 수용률을 갖춘 효율적인 드래프팅을 가능하게 합니다. 실험 결과, DFlash는 다양한 모델과 작업에서 6배 이상의 무손실 가속을 달성하며 최신 스페큘레이티브 디코딩 방법인 EAGLE-3 대비 최대 2.5배 높은 속도 향상을 보여줍니다.

18

프레임으로 생각하기: 시각적 맥락과 테스트 시간 스케일링이 비디오 추론을 강화하는 방법
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

Jan 28
ByChengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
13
4

비전-언어 모델은 텍스트 추론에서는 뛰어난 성능을 보이지만, 세밀한 공간 이해와 연속적인 행동 계획에는 어려움을 겪으며 복잡한 시각적 추론에 필요한 역학을 시뮬레이션하지 못하는 경우가 많습니다. 본 연구에서는 생성된 프레임이 초기 상태와 해결책 사이의 중간 추론 단계 역할을 할 수 있다는 가정 하에 비디오 생성 모델을 통한 시각적 추론 체계를 정립합니다. 우리는 두 가지 다른 영역에서 모델의 능력을 평가합니다: 시각적 변화가 적은 순차적 이산 계획을 위한 미로 탐색과 시각적 변화가 큰 연속 조작을 위한 탱그램 퍼즐입니다. 실험 결과 세 가지 중요한 통찰을 얻었습니다: (1) 강력한 제로샷 일반화: 두 과제 모두에서 모델은 특정 파인튜닝 없이도 보지 않은 데이터 분포에 대해 강력한 성능을 보였습니다. (2) 시각적 맥락: 모델은 에이전트 아이콘, 탱그램 형태 등 시각적 맥락을 명시적 제어 수단으로 효과적으로 활용하여 높은 시각적 일관성을 유지하고 보지 않은 패턴에 대해 강건하게 계획 능력을 적용할 수 있었습니다. (3) 시각적 테스트 타임 스케일링: 순차 계획에서 테스트 타임 스케일링 법칙을 관찰했습니다. 생성된 비디오 길이(시각적 추론 예산)를 증가시키면 공간적, 시간적으로 복잡한 경로에 대한 제로샷 일반화 능력이 향상됩니다. 이러한 발견들은 비디오 생성이 단순한 미디어 도구가 아닌, 확장 가능하고 일반화 가능한 시각적 추론 패러다임임을 시사합니다.

19

강화 주의 학습
Reinforced Attention Learning

Feb 4
ByBangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
12
3

강화 학습(RL)을 활용한 사후 훈련은 테스트 시간 스케일링을 통해 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켜 왔습니다. 그러나 이러한 패러다임을 다중 모달 LLM(MLLM)으로 확장하고자 장황한 근거 생성 방식을 적용할 경우, 인식 능력 향상에 제한적인 효과만 보일 뿐만 아니라 오히려 성능 저하를 초래하기도 합니다. 본 논문에서는 출력 토큰 시퀀스가 아닌 내부 주의 분포를 직접 최적화하는 정책 경사 기반 프레임워크인 강화 주의 학습(RAL)을 제안합니다. '무엇을 생성할 것인가'에서 '어디에 주의를 기울일 것인가'로 최적화 대상을 전환함으로써, RAL은 복잡한 다중 모달 입력에서 효과적인 정보 할당과 개선된 기반 확립을 촉진합니다. 다양한 이미지 및 비디오 벤치마크에서의 실험 결과, RAL이 GRPO 및 기타 비교 모델 대비 일관된 성능 향상을 보였습니다. 또한 온-정책 주의 지식 증류를 도입하여, 잠재적 주의 행동을 전이하는 것이 표준 지식 증류보다 강력한 교차 모달 정렬을 가능하게 함을 입증했습니다. 본 연구의 결과는 주의 정책이 다중 모달 사후 훈련을 위한 원칙적이고 일반화 가능한 대안이 될 수 있음을 보여줍니다.

20

LLM 기반 에이전트를 위한 강화 세계 모델 학습
Reinforcement World Model Learning for LLM-based Agents

Feb 5
ByXiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
12
3

대규모 언어 모델(LLM)은 언어 중심 과제에서 강력한 성능을 달성했습니다. 그러나 에이전트 환경에서는 LLM이 행동 결과를 예측하고 환경 역학에 적응하는 데 어려움을 겪는 경우가 많으며, 이는 LLM 기반 에이전트에 세계 모델링 능력이 필요함을 시사합니다. 본 연구에서는 시뮬레이션-현실 간격 보상을 활용하여 텍스트 상태에서 LLM 기반 에이전트의 행동 조건부 세계 모델을 학습하는 자기 지도 방법인 Reinforcement World Model Learning(RWML)을 제안합니다. 우리의 방법은 모델이 생성한 시뮬레이션 다음 상태와 환경에서 관찰된 실제 다음 상태를 사전 학습된 임베딩 공간에서 정렬함으로써, 내부 세계 시뮬레이션과 실제 환경 역학 간의 일관성을 촉진합니다. 토큰 수준 충실도(즉, 정확한 어휘 재현)를 의미적 등가성보다 우선시하여 모델 붕괴를 초래할 수 있는 다음 상태 토큰 예측과 달리, 우리의 방법은 더 강력한 학습 신호를 제공하며 실증적으로 LLM-as-a-judge보다 보상 해킹에 덜 취약합니다. 우리는 ALFWorld와 τ^2 Bench에서 우리 방법을 평가하여 완전히 자기 지도 학습임에도 불구하고 기본 모델 대비 상당한 성능 향상을 관찰했습니다. 작업 성공 보상과 결합했을 때, 우리의 방법은 ALFWorld와 τ^2 Bench에서 각각 6.9점과 5.7점으로 직접 작업 성공 보상 강화학습을 능가했으며, 전문가 데이터 학습의 성능과도 일치했습니다.

21

SwimBird: 하이브리드 자기회귀 MLLM에서 전환 가능한 추론 모드 유도
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Feb 5
ByJintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
9
3

멀티모달 대규모 언어 모델(MLLMs)은 시각과 언어를 연결함으로써 멀티모달 인지 및 추론 분야에서 놀라운 발전을 이루었습니다. 그러나 기존 MLLMs의 대부분은 주로 텍스트 CoT(생각의 사슬)로 추론을 수행하여 시각 집약적 작업에서의 효과성이 제한됩니다. 최근 접근법은 고정된 수의 연속 은닉 상태를 "시각적 사고"로 추론 과정에 주입하여 시각적 성능을 향상시키지만, 이는 종종 텍스트 기반 논리 추론 성능 저하를 수반합니다. 본 연구에서는 이러한 핵심 한계가 서로 다른 사용자 질의에 가장 적합한 사고 양식을 적응적으로 선택할 수 없는 경직된 사전 정의된 추론 패턴에 있다고 주장합니다. 우리는 입력에 따라 세 가지 추론 모드, 즉 (1) 텍스트 전용 추론, (2) 시각 전용 추론(연속 은닉 상태를 시각적 사고로 활용), (3) 시각-텍스트 교차 추론을 동적으로 전환하는 추론 전환 가능 MLLM인 SwimBird를 소개합니다. 이러한 능력을 구현하기 위해 우리는 텍스트 사고에 대한 다음 토큰 예측과 시각 사고에 대한 다음 임베딩 예측을 통합하는 하이브리드 자기회귀 형식을 채택하고, 세 가지 추론 패턴을 모두 아우르는 다양성 있는 지도 미세조정 데이터셋인 SwimBird-SFT-92K를 구축하기 위한 체계적인 추론 모드 정제 전략을 설계했습니다. 유연하고 질의 적응형 모드 선택을 통해 SwimBird는 강력한 텍스트 논리성을 유지하면서 시각 집약적 작업의 성능을 크게 향상시킵니다. 텍스트 추론과 도전적인 시각 이해를 포괄하는 다양한 벤치마크 실험을 통해 SwimBird가 기존의 고정 패턴 멀티모달 추론 방법들 대비 최첨단 성과와 견고한 성능 향상을 달성함을 입증합니다.

22

LatentMem: 다중 에이전트 시스템을 위한 잠재 메모리 맞춤화
LatentMem: Customizing Latent Memory for Multi-Agent Systems

Feb 3
ByMuxin Fu, Guibin Zhang, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang
9
3

대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)은 놀라운 집단 지능을 보여주며, 여기서 다중 에이전트 메모리는 지속적인 적응을 위한 핵심 메커니즘으로 작용합니다. 그러나 기존의 다중 에이전트 메모리 설계는 두 가지 근본적인 병목 현상에 의해 제약을 받고 있습니다: (i) 역할 인지 맞춤화의 부재로 인한 메모리 동질화, 그리고 (ii) 과도하게 세분화된 메모리 항목으로 인한 정보 과부하입니다. 이러한 한계를 해결하기 위해, 본 연구에서는 에이전트별 메모리를 토큰 효율적인 방식으로 맞춤화하는 학습 가능한 다중 에이전트 메모리 프레임워크인 LatentMem을 제안합니다. 구체적으로, LatentMem은 원시 상호작용 궤적을 경량 형태로 저장하는 경험 은행(experience bank)과, 검색된 경험 및 에이전트별 컨텍스트에 조건부로 작동하여 간결한 잠재 메모리를 합성하는 메모리 작곡가(memory composer)로 구성됩니다. 더 나아가, 작업 수준 최적화 신호를 잠재 메모리를 통해 작곡가로 전파하여 간결하고 유용성이 높은 표현을 생성하도록 유도하는 Latent Memory Policy Optimization(LMPO)을 도입합니다. 다양한 벤치마크와 주류 MAS 프레임워크에서 수행한 폭넓은 실험 결과, LatentMem은 기본 설정 대비 최대 19.36%의 성능 향상을 달성하고 기존 메모리 아키텍처를 지속적으로 능가하며, 기반 프레임워크의 어떠한 수정도 필요로 하지 않음을 보여줍니다.

23

SAGE: 심층 연구 에이전트의 정보 검색 성능 평가 및 개선
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Feb 5
ByTiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
9
3

딥 리서치 에이전트는 복잡한 질의를 해결하기 위한 강력한 시스템으로 부상했습니다. 한편, LLM 기반 검색기는 지시 따르기 또는 추론에서 강력한 능력을 입증했습니다. 이는 중요한 질문을 제기합니다: LLM 기반 검색기가 딥 리서치 에이전트 워크플로우에 효과적으로 기여할 수 있을까요? 이를 조사하기 위해 우리는 4개의 과학 분야에 걸친 1,200개의 질의와 200,000편의 논문 검색 코퍼스로 구성된 과학 문헌 검색 벤치마크인 SAGE를 소개합니다. 우리는 6가지 딥 리서치 에이전트를 평가했으며, 모든 시스템이 추론 집약적 검색에 어려움을 겪는 것을 발견했습니다. DR Tulu를 백본으로 사용하여 BM25와 LLM 기반 검색기(즉, ReasonIR 및 gte-Qwen2-7B-instruct)를 대체 검색 도구로 추가 비교했습니다. 놀랍게도 BM25는 LLM 기반 검색기를 약 30%나 크게 앞질렀는데, 이는 기존 에이전트들이 키워드 중심의 하위 질의를 생성하기 때문입니다. 성능을 개선하기 위해 우리는 LLM을 사용하여 문서에 메타데이터와 키워드를 추가하여 기성 검색기가 검색을 더 쉽게 수행할 수 있도록 하는 코퍼스 수준의 테스트 타임 스케일링 프레임워크를 제안합니다. 이를 통해 단답형 질문과 개방형 질문에서 각각 8%와 2%의 성능 향상을 얻었습니다.

24

신뢰할 수 있는 대규모 언어 모델 에이전트를 위한 축소 가능 불확실성 모델링
Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents

Feb 4
ByChangdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li
7
3

대규모 언어 모델(LLM)의 불확실성 정량화(UQ)는 일상적인 LLM 응용 프로그램의 안전 장치를 위한 핵심 구성 요소입니다. 그러나 LLM 에이전트가 매우 복잡한 작업에 점점 더 많이 배포되고 있음에도 불구하고, 대부분의 UQ 연구는 여전히 단일 턴 질의응답에 집중되어 있습니다. 우리는 UQ 연구가 상호작용형 에이전트가 존재하는 현실적인 설정으로 전환되어야 하며, 에이전트 UQ를 위한 새로운 원칙적 프레임워크가 필요하다고 주장합니다. 본 논문은 기존 UQ 설정의 광범위한 범주를 포괄하는 에이전트 UQ의 첫 번째 일반적인 공식을 제시합니다. 이 공식 아래에서, 우리는 기존 연구들이 LLM UQ를 암묵적으로 불확실성 누적 과정으로 취급하며, 이 관점은 개방형 세계의 상호작용형 에이전트에게는 적용되지 않음을 보여줍니다. 대조적으로, 우리는 행동의 '상호작용성'을 강조함으로써 에이전트의 궤적에 따른 감소 가능한 불확실성을 명시적으로 모델링하는 새로운 관점, 즉 조건부 불확실성 감소 과정을 제안합니다. 이 관점에서 우리는 LLM 에이전트 설정에서 UQ를 설계하기 위한 실행 가능한 지침을 제공하는 개념적 프레임워크의 개요를 제시합니다. 마지막으로, 우리는 첨단 LLM 개발 및 도메인 특화 응용 프로그램에서의 에이전트 UQ의 실질적 함의와 함께 남아 있는 공개 문제들에 대해 결론을 맺습니다.

25

V-Retriever: 증거 기반 에이전트 추론을 통한 범용 멀티모달 검색
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Feb 5
ByDongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
7
3

멀티모달 대규모 언어 모델(MLLM)이 최근 범용 멀티모달 검색에 적용되면서, 사고 연쇄(CoT) 추론이 후보 재순위화 성능을 향상시키고 있습니다. 그러나 기존 접근법은 여전히 언어 중심에 머물러 있으며, 정적인 시각 인코딩에 의존하고 세밀한 시각적 증거를 능동적으로 검증할 수 있는 능력이 부족해 시각적으로 모호한 경우에 추측성 추론으로 이어지는 경우가 많습니다. 우리는 멀티모달 검색을 시각적 검증에 기반한 에이전트 추론 과정으로 재구성하는 증거 주도 검색 프레임워크인 V-Retriever를 제안합니다. V-Retriever는 MLLM이 외부 시각 도구를 통해 추론 과정에서 선택적으로 시각적 증거를 획득하고, 가설 생성과 표적 시각 검증을 번갈아 수행하는 멀티모달 교차 추론 과정을 실행할 수 있게 합니다. 이러한 증거 수집 검색 에이전트를 훈련하기 위해 우리는 지도 추론 활성화, 기각 기반 정제, 그리고 증거-정렬 목표를 활용한 강화 학습을 결합한 교과 과정 기반 학습 전략을 채택했습니다. 여러 멀티모달 검색 벤치마크에서의 실험을 통해 검색 정확도(평균 23.0% 향상), 인식 기반 추론 신뢰도 및 일반화 성능에서 지속적인 향상을 입증했습니다.

26

다중 작업 GRPO: 다양한 작업에서 신뢰할 수 있는 LLM 추론
Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

Feb 5
ByShyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
6
5

GRPO 기반 강화학습 사후 훈련은 개별 추론 과제에서 대규모 언어 모델의 성능을 향상시키기 위해 널리 사용됩니다. 그러나 실제 환경에서의 적용에는 다양한 과제에 걸쳐 안정적인 성능이 요구됩니다. GRPO의 단순한 다중 과제 적용은 종종 불균형한 결과를 초래하며, 일부 과제가 최적화를 지배하는 반면 다른 과제는 정체되는 현상이 발생합니다. 더욱이 과제별로 프롬프트가 zero advantage(따라서 zero gradient)를 생성하는 빈도가 크게 다를 수 있으며, 이는 최적화 신호에 대한 각 과제의 실질적 기여도를 추가로 왜곡합니다. 이러한 문제를 해결하기 위해 우리는 (i) 최악의 과제 성능을 명시적으로 최적화하고 과제 간 균형 잡힌 진전을 촉진하기 위해 과제 가중치를 동적으로 조정하며, (ii) 조정된 가중치가 과제별 정책 그래디언트에 반영되도록 비율 보존 샘플러를 도입하는 새로운 다중 과제 GRPO(MT-GRPO) 알고리즘을 제안합니다. 3-과제 및 9-과제 설정에서의 실험 결과, MT-GRPO가 최악의 과제 정확도 측면에서 기준 방법들을 지속적으로 능가하는 것으로 나타났습니다. 특히 MT-GRPO는 기준 GRPO 및 DAPO 대비 최악의 과제 성능에서 각각 16-28%, 6%의 절대적 개선을 달성하면서도 경쟁력 있는 평균 정확도를 유지했습니다. 또한 3-과제 설정에서 최악의 과제 정확도 50% 달성에 필요한 훈련 단계가 50% 감소하여, 과제 전반에 걸쳐 신뢰할 수 있는 성능을 달성하는 효율성이 크게 개선되었음을 입증했습니다.

27

BABE: 생물학 아레나 벤치마크
BABE: Biology Arena BEnchmark

Feb 5
ByJunting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang, Qiguang Chen, Chaoyou Fu, Jiaze Chen, Yuchen Wu, Ge Zhang, Mingxuan Wang, Wenhao Huang, Tong Yang
6
3

대규모 언어 모델(LLM)의 급속한 발전으로 기본적인 대화에서 고급 과학적 추론에 이르는 능력이 확대되고 있습니다. 그러나 생물학 분야의 기존 벤치마크는 연구자에게 요구되는 핵심 능력인 실험 결과와 맥락적 지식을 통합하여 의미 있는 결론을 도출하는 능력을 평가하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해 우리는 생물학 AI 시스템의 실험적 추론 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 BABE(Biology Arena BEnchmark)를 소개합니다. BABE는 동료 검토 연구 논문과 실제 생물학 연구를 바탕으로 독특하게 구성되어 과업이 실제 과학적 탐구의 복잡성과 학제적 성격을 반영하도록 합니다. BABE는 모델이 인과 관계 추론 및 교차 규모 추론을 수행하도록 요구합니다. 우리의 벤치마크는 AI 시스템이 현장 과학자처럼 추론하는 능력을 얼마나 잘 수행하는지 평가하는 강력한 프레임워크를 제공하며, 생물학 연구에 기여할 수 있는 잠재력을 보다 진정성 있게 측정합니다.

28

대규모 언어 모델 사후 학습에서 정책 미러 하강의 로그 분할 함수 근사가 유도하는 암묵적 정규화
Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Feb 5
ByZhenghao Xu, Qin Lu, Changlong Yu, Tuo Zhao
5
3

정책 미러 디센트(PMD)는 KL 정규화된 정책 개선 하위 문제를 반복적으로 해결함으로써 강화 학습(RL)에 대한 원칙적인 프레임워크를 제공합니다. 이러한 접근법은 Kimi K1.5/K2와 같은 고도화된 대규모 언어 모델(LLM) 학습에 채택되었지만, 이상적인 폐쇄형 PMD 업데이트는 신뢰할 수 있는 분할 함수 추정을 요구하며, 이는 LLM의 방대한 행동 공간에서 제한된 롤아웃으로 작업할 때 큰 도전 과제입니다. 본 연구에서는 샘플링 정책 하의 평균 보상으로 로그 분할 항을 근사하고 로그 정책 공간에서 회귀를 수행하는 PMD-mean이라는 실용적인 알고리즘을探究합니다. 구체적으로, 우리는 PMD-mean의 모집단 해를 규명하고 이 알고리즘이 적응형 혼합 KL-χ^2 정규화를 사용한 미러 디센트 하위 문제를 암묵적으로 최적화함을 입증합니다. 이 추가적인 χ^2 정규화는 큰 확률 변화를 제약하여 예상 보상이 낮을 때 더 보수적인 업데이트를 생성하고 유한 표본 추정 오차에 대한 견고성을 향상시킵니다. 수학적 추론 작업에 대한 실험 결과, PMD-mean이 향상된 안정성과 시간 효율성으로 우수한 성능을 달성함을 보여줍니다. 이러한 발견은 PMD-mean에 대한 우리의 이해를 심화하고 LLM을 위한 RL 알고리즘의 원칙적인 개선을 위한 길을 제시합니다. 코드는 https://github.com/horizon-rl/OpenKimi에서 확인할 수 있습니다.

29

CoPE: 장문 컨텍스트 LLM을 위한 확장 가능한 무상 혜택으로서의 클리핑된 RoPE
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

Feb 5
ByHaoran Li, Sucheng Ren, Alan Yuille, Feng Wang
4
3

로터리 위치 임베딩(RoPE)은 대규모 언어 모델(LLM)의 컨텍스트 확장에서 핵심 구성 요소입니다. 더 긴 컨텍스트에 RoPE를 적용하기 위해 다양한 방법이 제안되었지만, 그 지도 원칙은 일반적으로 두 가지 범주로 나뉩니다: (1) 보지 못한 위치를 수용하기 위해 RoPE 주파수를 조정하는 분포 외(OOD) 문제 완화와 (2) RoPE로 계산된 어텐션 점수가 항상 의미론적으로 유사한 토큰을 우선시해야 한다는 의미 모델링입니다. 본 연구에서는 이러한 겉보기에 다른 목표들을 최소한의 개입, 즉 CoPE(소프트 클리핑을 통한 RoPE 저주파수 구성 요소 조정)를 통해 통합합니다. CoPE는 OOD 이상치를 제거하고 의미 신호를 개선할 뿐만 아니라 하드 클리핑으로 인한 스펙트럼 누설을 방지합니다. 대규모 실험을 통해 RoPE에 우리의 소프트 클리핑 전략을 적용하기만 해도 256k 컨텍스트 길이까지 확장되는 상당한 성능 향상을 얻을 수 있음을 입증하여, 우리의 이론적 분석을 검증하고 CoPE를 길이 일반화를 위한 새로운 최첨단 기술로 확립합니다. 우리의 코드, 데이터 및 모델은 https://github.com/hrlics/CoPE에서 이용 가능합니다.

30

정적 그래프의 한계 극복: 강건한 검색 증강 생성을 위한 맥락 인식 탐색
Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation

Feb 2
ByKwun Hang Lau, Fangyuan Zhang, Boyu Ruan, Yingli Zhou, Qintian Guo, Ruiyuan Zhang, Xiaofang Zhou
4
3

최근 검색 증강 생성(RAG) 분야에서는 단순한 벡터 유사도를 넘어 지식 그래프(KG)와 개인화 페이지랭크(PPR)를 활용해 다중 홉 의존성을 포착하는 HippoRAG와 같은 구조 인식 접근법으로 발전하고 있습니다. 그러나 이러한 방법들은 인덱싱 과정에서 결정된 고정된 전이 확률에 의존하는 "정적 그래프 오류"라는 한계를 지닙니다. 이러한 경직성은 간선 관련성이 쿼리에 따라 달라지는 특성을 무시함으로써, 중요한 하류 증거에 도달하기 전에 무작위 행보가 높은 차수의 '허브' 노드로 빗나가는 의미적 편차를 초래합니다. 그 결과 모델은 부분 재현율은 높게 달성하지만 다중 홉 질의에 필요한 완전한 증거 사슬을 검색하지 못하는 경우가 많습니다. 이를 해결하기 위해 우리는 HippoRAG 2 아키텍처를 기반으로 정적 KG를 쿼리 적응형 탐색 구조로 변환하는 프레임워크인 CatRAG(맥락 인식 탐색)를 제안합니다. 우리는 무작위 행보를 조종하기 위한 다각적 프레임워크를 도입했습니다: (1) 무작위 행보를 규제하기 위한 약한 개체 제약 조건을 주입하는 기호 정착, (2) 그래프 구조를 동적으로 조절하여 쿼리 의도와 일치하는 경로는 증폭시키면서 관련 없는 경로는 제거하는 쿼리 인식 동적 간선 가중치 부여, 그리고 (3) 무작위 행보를 가능성 있는 증거에 구조적으로 정착시키는 비용 효율적 편향인 핵심 사실 문단 가중치 강화입니다. 4개의 다중 홉 벤치마크에서 진행한 실험 결과, CatRAG가 최신 기준선을 지속적으로 능가하는 것으로 나타났습니다. 우리의 분석에 따르면 표준 재현율 지표는 소폭의 향상만 보였지만, CatRAG는 증거 경로 전체를 누락 없히 복원하는 능력인 추론 완전성에서 상당한 개선을 달성했습니다. 이러한 결과는 우리의 접근 방식이 부분적 맥락 검색과 완전히 근거 기반 추론 가능 사이의 격차를 효과적으로 해소함을 보여줍니다. 관련 자료는 https://github.com/kwunhang/CatRAG에서 확인할 수 있습니다.

31

후기에서 초기 학습으로: 대규모 언어 모델이 더 일찍 학습하도록 하여 더 빠르고 더 나은 성능 달성
Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Feb 5
ByJi Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
3
2

대규모 언어 모델(LLM)이 모델 및 데이터 규모의 확장을 통해 경험적으로 뛰어난 성과를 달성함에 따라, 사전 학습은 점점 더 중요해졌지만 계산 비용이 매우 커져 빠른 개발을 저해하고 있습니다. 상당한 계산 비용을 들여 개발된 수많은 사전 학습된 LLM이 존재함에도 불구하고, '기존의 작은 사전 학습 모델을 활용하여 더 큰 모델의 학습을 가속화할 수 있는가'라는 근본적인 현실적 의문은 충분히 탐구되지 않고 있습니다. 본 논문에서는 LLM이 이후 단계의 지식을 이전 단계 및 이전 계층에서 명시적으로 학습할 수 있는 후기-초기 학습(Late-to-Early Training, LET) 패러다임을 제안합니다. 핵심 아이디어는 사전 학습된(즉, 후기 학습 단계의) 모델의 후기 계층에서 얻은 표현을 사용하여 초기 학습 단계의 LLM 초기 계층을 안내하는 것입니다. 우리는 LET의 효과를 주도하는 두 가지 핵심 메커니즘, 즉 후기-초기 단계 학습과 후기-초기 계층 학습을 확인했습니다. 이러한 메커니즘은 언어 모델링 능력과 다운스트림 작업 성능을 모두 강력하게 향상시키면서 학습 수렴을 상당히 가속화하여, 더 빠른 학습과 더 우수한 성능을 가능하게 합니다. 14억 개 및 70억 개 매개변수 모델에 대한 광범위한 실험을 통해 LET의 효율성과 효과성을 입증했습니다. 특히 Pile 데이터셋으로 14억 개 매개변수 LLM을 학습할 때, 우리의 방법은 목표 모델보다 매개변수가 10배 적은 사전 학습 모델을 사용하는 경우에도 표준 학습 대비 최대 1.6배의 속도 향상과 약 5%의 다운스트림 작업 정확도 개선을 달성했습니다.

32

무한 세계: 포즈 없는 계층적 메모리를 통한 1000프레임 수준의 대화형 세계 모델 확장
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Feb 2
ByRuiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
3
3

본 연구에서는 복잡한 실제 환경에서 1000+ 프레임에 걸쳐 일관된 시각적 메모리를 유지할 수 있는 강력한 상호작용형 월드 모델인 Infinite-World를 제안한다. 기존 월드 모델은 완벽한 실측 데이터가 있는 합성 데이터에서 효율적으로 최적화될 수 있지만, 노이즈가 포함된 포즈 추정과 시점 재방문 데이터의 부족으로 인해 실제 영상에 대한 효과적인 훈련 패러다임이 부재하다. 이러한 격차를 해결하기 위해, 우리는 먼저 고정된 예산의 표현으로 역사적 잠재 변수를 재귀적으로 정제하는 계층적 포즈 무관 메모리 압축기(HPMC)를 도입한다. HPMC를 생성 백본과 공동 최적화함으로써, 모델이 명시적인 기하학적 사전 정보 없이도 제한된 계산 비용으로 먼 과거의 생성 결과를 자율적으로 고정할 수 있게 된다. 둘째, 연속적인 동작을 3가지 상태 논리로 이산화하는 불확실성 인식 동작 라벨링 모듈을 제안한다. 이 전략은 원시 영상 데이터의 활용을 극대화하면서도 노이즈가 많은 궤적으로 인해 결정론적 동작 공간이 오염되는 것을 방지하여 강력한 동작-응답 학습을 보장한다. 또한, 예비 토이 스터디에서 도출된 통찰을 바탕으로, 30분 분량의 소규모 데이터셋을 활용한 재방문-집중 미세조정 전략을 통해 모델의 장거리 루프 폐쇄 능력을 효율적으로 활성화한다. 객관적 메트릭과 사용자 연구를 포함한 폭넓은 실험을 통해 Infinite-World가 시각적 품질, 동작 제어성, 공간 일관성에서 우수한 성능을 달성함을 입증한다.

33

DASH: 배치 블록 조건화와 효율적인 역제곱근 솔버를 통한 더 빠른 Shampoo
DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers

Feb 2
ByIonut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh
3
2

샴푸(Shampoo)는 대표적인 준2차 최적화 도구 중 하나로, 그 변형 버전이 MLCommons AlgoPerf 대회에서 우승한 바 있으며, 압축이 용이한 낮은 활성화 이상치(activation outliers)를 가진 모델을 생성하는 것으로 입증되었습니다. 그러나 현재 샴푸를 적용하려면 복잡한 내부 연산으로 인해 상당한 계산 속도 저하를 감수해야 합니다. 본 논문에서는 이러한 단점을 해결하기 위한 중요한 단계로, 두 가지 새로운 핵심 기술을 기반으로 하는 분산 샴푸의 고속 구현체인 \method(분산 가속 샴푸)를 제안합니다. 첫째, 사전 조건자 블록(preconditioner blocks)을 3D 텐서로 쌓아 GPU 활용도를 크게 향상시킬 수 있음을 보여줍니다. 둘째, 샴푸에 필요한 역행렬 제곱근(inverse matrix roots) 계산을 위한 새로운 고속 접근법으로 Newton-DB 반복법과 체비쇼프 다항식 근사법을 소개합니다. 이러한 알고리즘적 기여와 함께, 행렬 스케일링(matrix scaling)이 샴푸의 수렴에 어떻게 결정적인 영향을 미치는지에 대한 첫 번째 심층 분석을 제공합니다. 실용적인 측면에서, 우리의 GPU 인식 구현은 최적화가 잘된 기존 분산 샴푸 대비 최대 4.83배 빠른 최적화 단계 속도를 달성했으며, Newton-DB는 검증된 모든 방법 중 반복당 가장 낮은 검증 퍼플렉서티(validation perplexity)를 기록했습니다. 우리의 코드는 https://github.com/IST-DASLab/DASH에서 확인할 수 있습니다.

34

자율 회귀적 장기 영상 생성을 위한 경로 기반 테스트 타임 보정
Pathwise Test-Time Correction for Autoregressive Long Video Generation

Feb 5
ByXunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
3
3

증류된 자기회귀 확산 모델은 실시간 단영상 합성을 가능하게 하지만 장편 생성 시 심각한 오류 누적 문제를 겪습니다. 기존의 테스트 타임 최적화(TTO) 방법이 이미지나 단편 클립에는 효과적이지만, 불안정한 보상 환경과 증류 매개변수의 과민 반응으로 인해 장편 시퀀스에서의 표류 현상을 완화하지 못함을 확인했습니다. 이러한 한계를 극복하기 위해 우리는 훈련이 필요 없는 대안인 테스트 타임 보정(TTC)을 제안합니다. 구체적으로 TTC는 초기 프레임을 안정적인 기준 앵커로 활용하여 샘플링 경로를 따라가는 중간 확률적 상태를 보정합니다. 다양한 실험을 통해 우리의 방법이 여러 증류 모델과 원활하게 통합되어 최소한의 오버헤드로 생성 길이를 확장하면서도 30초 벤치마크에서 리소스 집약적인 훈련 기반 방법의 품질에 필적함을 입증했습니다.

35

광학 강제: 희소 주의 메커니즘을 통한 자기회귀 비디오 확산 가속
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Feb 4
ByChengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
2
3

고급 자기회귀(AR) 비디오 생성 모델은 시각적 정확도와 상호작용성이 향상되었지만, 어텐션의 2차 복잡도는 효율적 배포의 주요 병목 현상으로 남아 있습니다. 기존 희소 어텐션 솔루션이 양방향 모델에서 유망한 성과를 보였으나, 이러한 솔루션을 AR 모델에 적용할 경우 두 가지 이유로 상당한 성능 저하가 발생함을 확인했습니다: 청크 생성의 단편적 고려와 과거 정보 맥락의 불충분한 활용입니다. 이러한 관찰을 바탕으로 우리는 AR 비디오 생성 모델에 특화된 최초의 희소 어텐션 솔루션인 Light Forcing을 제안합니다. 여기에는 각 청크의 기여도를 정량적으로 추정하여 이들의 희소성 할당을 결정하는 Chunk-Aware Growth 메커니즘이 포함됩니다. 이 점진적 희소성 증가 전략은 현재 청크가 생성 과정에서 이전 청크의 사전 지식을 계승할 수 있게 합니다. 추가적으로, 우리는 정보적인 역사적 및 지역적 맥락을 coarse-to-fine 방식으로 포착하는 Hierarchical Sparse Attention을 도입했습니다. 이러한 두 수준의 마스크 선택 전략(즉, 프레임 및 블록 수준)은 다양한 어텐션 패턴을 적응적으로 처리할 수 있습니다. 폭넓은 실험을 통해 우리의 방법이 기존 희소 어텐션 대비 품질(예: VBench 기준 84.5점)과 효율성(예: 1.2~1.3배 종단 간 속도 향상)에서 우수함을 입증했습니다. FP8 양자화 및 LightVAE와 결합 시, Light Forcing은 RTX 5090 GPU에서 2.3배의 속도 향상과 19.7 FPS를 추가로 달성했습니다. 코드는 https://github.com/chengtao-lv/LightForcing 에 공개될 예정입니다.

36

탐색 실패: 상호작용 과제에서의 언어 모델
Failing to Explore: Language Models on Interactive Tasks

Jan 29
ByMahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
2
3

우리는 언어 모델이 제한된 상호작용 예산 하에서 대화형 환경을 탐색하는 능력을 평가한다. 탐색 난이도를 조절할 수 있는 세 가지 파라미터 기반 과제를 연속 및 이산 환경에 걸쳐 제안한다. 최첨단 모델들을 대상으로 한 실험에서 체계적인 탐색 부족과 최적에 못 미치는 해법이 관찰되었으며, 성능이 단순한 탐색-활용 휴리스틱 기준선보다 현저히 낮은 경우가 많고 예산 증가에 따른 성능 향상도 미미한 것으로 나타났다. 마지막으로 두 가지 경량 개입 방법을 분석한다: 고정 예산을 병렬 실행으로 분할하는 방식은 우리 과제에서 이론적으로 이득이 없음에도 불구하고 성능을 개선했으며, 상호작용 이력을 주기적으로 요약하는 방식은 핵심 발견을 보존하고 탐색 성능을 추가로 향상시켰다.

37

GRPO에서 정책 발산 측정 방법에 대한 통합적 재고 프레임워크
A Unified Framework for Rethinking Policy Divergence Measures in GRPO

Feb 5
ByQingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
2
3

검증된 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 중요한 패러다임으로 부상하고 있다. GRPO 및 그 변형들과 같은 기존 RLVR 방법 대부분은 가능도 비율 클리핑을 통해 정책 발산을 제한함으로써 안정적인 업데이트를 보장한다. 본 논문은 일반적인 정책 발산 개념을 통해 기존 방법들을 체계화하는 통합 클리핑 프레임워크를 소개한다. 이 프레임워크는 가능도 비율과 쿨백-라이블러(KL) 발산을 모두 포함하고 대체 측정 지표로 확장되는 일반적인 정책 발산 개념을 기반으로 한다. 이를 통해 서로 다른 정책 발산 측정 방식이 탐험과 성능에 미치는 영향을 체계적으로 분석할 수 있는 원칙적인 기초를 마련한다. 나아가 우리는 KL 발산의 분산 감소 몬테카를로 추정량인 KL3 추정량을 핵심 정책 발산 제약 조건으로 규명한다. 우리는 이론적으로 KL3 기반 제약이 높은 신뢰도를 가진 행동으로 확률 질량을 재분배하는 비대칭 비율 기반 클리핑과 수학적으로 동등함을 증명하며, GRPO 스타일 방법의 단순성을 유지하면서 더 강력한 탐험을 촉진함을 보인다. 수학적 추론 벤치마크에서의 실험 결과는 GRPO에 KL3 추정량을 통합했을 때 훈련 안정성과 최종 성능이 모두 개선됨을 입증하여, 정책 최적화에서 원칙적인 정책 발산 제약의 중요성을 부각시킨다.

38

비전-언어 모델은 위치 정보 공개에 있어 맥락적 무결성을 존중하는가?
Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?

Feb 4
ByRuixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
2
3

비전-언어 모델(VLM)은 이미지 위치 추적에서 강력한 성능을 보여왔으며, 최첨단 멀티모달 대규모 추론 모델(MLRM)에 의해 이 능력이 더욱 정교해졌습니다. 이는 널리 접근 가능한 이러한 모델들이 일상적으로 공유된 사진에서 민감한 위치를 추론하는 데 악용될 수 있어 심각한 프라이버시 위험을 야기합니다. 종종 가로수준의 정밀도로 공유자가 동의하거나 의도한 수준을 넘어서는 세부 정보를 노출할 가능성이 있습니다. 최근 연구에서는 이러한 위험을 막기 위해 위치 정보 공개에 대한 전면적 제한을 적용하는 방안이 제안되었지만, 이러한 조치는 악의적 행위와 적절한 위치 정보 사용을 구분하지 못합니다. 대신 VLM은 이미지 내 요소를 추론하여 적절한 정보 공개 수준을 결정함으로써 프라이버시와 유용성의 균형을 잡고 상황적 무결성을 유지해야 합니다. 모델이 상황적 무결성을 얼마나 잘 준수하는지 평가하기 위해 우리는 VLM이 실제 이미지의 잠재적 사회적 규범과 상황적 단서를 해석하고 적절한 위치 공개 수준을 결정하도록 요구하는 벤치마크인 VLM-GEOPRIVACY를 소개합니다. 14개의 주요 VLM에 대한 우리의 평가 결과, 모델들이 이미지를 정확하게 위치 추적할 수 있는 능력에도 불구하고 인간의 프라이버시 기대치와는 크게 부조화됨을 보여줍니다. 모델들은 민감한 상황에서 정보를 과도하게 공유하는 경우가 많으며, 프롬프트 기반 공격에 취약합니다. 우리의 결과는 멀티모달 시스템에 상황에 따른 프라이버시 추론을 통합하기 위한 새로운 설계 원칙의 필요성을 촉구합니다.

39

학습률의 중요성: LLM 미세 조정에는 기본 LoRA로 충분할 수 있다
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning

Feb 4
ByYu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
2
3

로우 랭크 적응(LoRA)은 효율적인 대규모 언어 모델(LLM) 미세 조정을 위한 주류 접근법입니다. 이러한 패러다임을 기반으로, 최근 연구에서는 대체 초기화 전략과 구조적 수정을 제안하며 기본 LoRA 대비 상당한 성능 향상을 보고하고 있습니다. 그러나 신경망이 훈련 설정에 민감하다는 점이 잘 알려져 있음에도 불구하고, 이러한 성능 향상은 고정되거나 제한적으로 조정된 하이퍼파라미터 설정 하에서 주로 입증되었습니다. 본 연구에서는 대표적인 4가지 LoRA 변형 방법을 기본 LoRA와 함께 체계적으로 재평가하며 광범위한 하이퍼파라미터 탐색을 수행합니다. 다양한 모델 규모의 수학 및 코드 생성 과제 전반에 걸쳐, 서로 다른 LoRA 방법이 각기 다른 학습률 범위에서 최적의 성능을 보인다는 사실을 발견했습니다. 중요한 것은 학습률이 적절하게 조정되면 모든 방법이 유사한 최고 성능(1-2% 이내 차이)을 달성하며, 랭크에 따른 미세한 행동 차이만 존재한다는 점입니다. 이러한 결과는 기본 LoRA가 여전히 경쟁력 있는 기준선이며, 단일 훈련 설정 하에서 보고된 성능 향상이 일관된 방법론적 우위를 반영하지 않을 수 있음을 시사합니다. 마지막으로, 2차 분석을 통해 최적 학습률 범위의 차이가 가장 큰 헤시안 고유값의 변동에서 기인함을 확인하였으며, 이는 기존 학습 이론과 일치합니다.

40

UniAudio 2.0: 텍스트 정렬 방식의 인수분해 오디오 토큰화를 적용한 통합 오디오 언어 모델
UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

Feb 4
ByDongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
1
3

우리는 오디오 언어 모델의 두 가지 기초적인 문제를 연구한다: (1) 이해와 생성을 위한 중간 표현으로 기능할 수 있는 오디오 토크나이저를 어떻게 설계할 것인가; (2) 대규모 언어 모델과 유사하게 퓨샷 및 제로샷 환경에서 일반화되는 오디오 파운데이션 모델을 어떻게 구축할 것인가. 이를 위해 우리는 다음 두 가지 기여를 한다. 첫째, 오디오를 (i) 텍스트와 정렬된 고수준 분석 및 계획 표현을 인코딩하여 오디오 이해와 계층적 생성을 위한 추론 토큰과, (ii) 높은 충실도의 파형 재구성을 위한 의미론적으로 풍부한 음향 단서를 인코딩하는 재구성 토큰으로 분해하는 이산 오디오 코덱인 ReasoningCodec를 제안한다. 이 설계는 강력한 연속 표현에 버금가는 이해 성능을 달성하면서 기존 이산 토크나이저 대비 생성 품질과 재구성 충실도를 향상시킨다. 둘째, 텍스트와 오디오를 위한 통합 자기회귀 아키텍처와 다단계 학습, 다중 작업 데이터 구축을 소개한다. 이 프레임워크를 사용하여 100B 텍스트 토큰과 60B 오디오 토큰으로 UniAudio 2.0을 학습시켰다. 다양한 음성, 사운드, 음악 작업에 걸쳐 UniAudio 2.0은 인도메인 평가에서 경쟁력 있는 성능을 보였으며, 보지 않은 작업에 대한 강력한 퓨샷 및 제로샷 일반화 능력을 입증했다. 데모, 코드, 체크포인트는 https://dongchaoyang.top/UniAudio2Demo/ 에서 확인할 수 있다.

41

고정된 프레임을 넘어서: 캐릭터 정렬 방식의 동적 음성 토큰화
Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

Jan 30
ByLuca Della Libera, Cem Subakan, Mirco Ravanelli
1
4

신경망 오디오 코덱은 연속 음성을 LLM이 처리할 수 있는 이산 토큰 시퀀스로 변환하는 현대 대화형 음성 기술의 핵심입니다. 그러나 기존 코덱은 일반적으로 고정 프레임 레이트로 작동하여 시간에 균일하게 토큰을 할당하고 불필요하게 긴 시퀀스를 생성합니다. 본 연구에서는 소프트 문자 수준 정렬과 명시적 지속 시간 모델링을 통해 가변 프레임 레이트 토큰화를 가능하게 하는 동적 문자 정렬 음성 토크나이저 DyCAST를 소개합니다. DyCAST는 학습 과정에서 토큰을 문자 수준 언어 단위와 연관시키도록 학습하며, 디코딩 시점에 토큰 지속 시간을 직접 제어하여 정렬 없이 추론을 지원합니다. 낮은 프레임 레이트에서 음성 재합성 품질을 향상시키기 위해, 비트레이트를 증가시키지 않으면서 재구성 충실도를 향상시키는 검색 증강 디코딩 메커니즘을 추가로 도입했습니다. 실험 결과 DyCAST는 고정 프레임 레이트 코덱보다 훨씬 적은 토큰을 사용하면서도 경쟁력 있는 음성 재합성 품질과 하위 작업 성능을 달성함을 보여줍니다. 코드와 체크포인트는 https://github.com/lucadellalib/dycast 에 공개될 예정입니다.

42

적응형 1D 비디오 확산 오토인코더
Adaptive 1D Video Diffusion Autoencoder

Feb 4
ByYao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
1
3

최근 비디오 생성 모델은 픽셀 공간의 비디오를 잠재 표현으로 압축하는 비디오 오토인코더에 크게 의존하고 있습니다. 그러나 기존 비디오 오토인코더는 세 가지 주요 한계점을 가지고 있습니다: (1) 단순한 비디오에도 토큰을 낭비하는 고정 비율 압축, (2) 가변 길이 잠재 모델링을 방해하는 경직된 CNN 아키텍처, (3) 압축된 잠재 표현으로부터 적절한 디테일을 복원하는 데 어려움을 겪는 결정론적 디코더. 이러한 문제를 해결하기 위해 우리는 적응형 1D 인코딩과 확산 기반 디코딩을 위한 트랜스포머 기반 프레임워크인 1D 확산 비디오 오토인코더(One-DVA)를 제안합니다. 인코더는 쿼리 기반 비전 트랜스포머를 활용하여 시공간 특징을 추출하고 잠재 표현을 생성하는 반면, 가변 길이 드롭아웃 메커니즘은 잠재 길이를 동적으로 조정합니다. 디코더는 잠재 표현을 입력 조건으로 사용하여 비디오를 재구성하는 픽셀 공간 확산 트랜스포머입니다. 2단계 학습 전략을 통해 One-DVA는 동일한 압축률에서 재구성 지표 측면에서 3D-CNN VAE와 비슷한 성능을 달성합니다. 더 중요한 것은 적응형 압축을 지원하므로 더 높은 압축률을 달성할 수 있다는 점입니다. 다운스트림 잠재 생성 작업을 더 잘 지원하기 위해, 우리는 생성 모델링을 위해 One-DVA 잠재 분포를 추가로 정규화하고 생성 과정에서 발생하는 아티팩트를 완화하기 위해 해당 디코더를 미세 조정합니다.

43

FastVMT: 비디오 모션 전달에서의 중복성 제거
FastVMT: Eliminating Redundancy in Video Motion Transfer

Feb 5
ByYue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
1
3

비디오 모션 전달은 참조 비디오에서 관찰된 동작 패턴을 전달하면서 텍스트 프롬프트에 따라 시각적 콘텐츠를 생성하여 비디오를 합성하는 것을 목표로 합니다. 최근 방법들은 주로 Diffusion Transformer(DiT) 아키텍처를 사용합니다. 만족스러운 실행 시간을 달성하기 위해 여러 방법이 DiT 내 계산 가속을 시도하지만, 구조적 비효율성의 근본 원인을 해결하지 못하고 있습니다. 본 연구에서는 기존 연구에서 두 가지 유형의 계산적 중복성을 식별하고 제거합니다: 동작 중복성은 프레임 간 동작이 작고 부드럽다는 사실을 일반적인 DiT 아키텍처가 반영하지 않아 발생하며, 그래디언트 중복성은 디퓨전 경로를 따라 그래디언트가 천천히 변화한다는 점을 간과할 때 발생합니다. 동작 중복성을 완화하기 위해 해당 어텐션 레이어를 로컬 영역으로 마스킹하여 불필요하게 먼 이미지 영역 간의 상호 작용 가중치가 계산되지 않도록 합니다. 그래디언트 중복성을 활용하기 위해 이전 디퓨전 단계의 그래디언트를 재사용하고 불필요한 그래디언트 계산을 건너뛰는 최적화 기법을 설계합니다. FastVMT는 평균 3.43배의 속도 향상을 달성하면서도 생성된 비디오의 시각적 정확도나 시간적 일관성을 저하시키지 않습니다.

44

Fast-SAM3D: 이미지 내 모든 것을 3D로 변환하되 더 빠르게
Fast-SAM3D: 3Dfy Anything in Images but Faster

Feb 5
ByWeilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
1
3

SAM3D는 복잡한 장면에서 확장 가능한 오픈 월드 3D 재구성을 가능하게 하지만, 과도한 추론 지연 시간으로 인해 실제 배포가 어렵습니다. 본 연구에서는 SAM3D의 추론 동역학에 대한 최초의 체계적인 분석을 수행하며, 기존 일반적인 가속 전략이 이 맥락에서는 취약함을 밝힙니다. 우리는 이러한 실패가 파이프라인 내재적 다중 수준 이질성, 즉 형상과 레이아웃 간의 운동학적 차이, 텍스처 정제의 본질적 희소성, 기하 구조 간의 스펙트럼 변동성을 간과한 데 기인함을 입증합니다. 이를 해결하기 위해 우리는 생성 과정의 즉각적 복잡도에 계산을 동적으로 정렬하는 학습 불필요 프레임워크인 Fast-SAM3D를 제안합니다. 우리의 접근법은 세 가지 이질성 인식 메커니즘을 통합합니다: (1) 구조적 진화와 민감한 레이아웃 업데이트를 분리하는 양상 인식 스텝 캐싱; (2) 높은 엔트로피 영역에 정제를 집중시키는 결합 시공간 토큰 캐빙; (3) 디코딩 해상도를 적응적으로 조절하는 스펙트럼 인식 토큰 집계. 폭넓은 실험을 통해 Fast-SAM3D가 미미한 정확도 손실만으로 최대 2.67배의 종단 간 속도 향상을 제공하며, 효율적인 단일 뷰 3D 생성을 위한 새로운 파레토 최적선을 수립함을 입증합니다. 코드는 https://github.com/wlfeng0509/Fast-SAM3D에서 공개됩니다.

45

좁은 범위 미세조정으로 인한 돌발적 부조화에 대한 도메인 수준 취약성 평가
Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning

Jan 30
ByAbhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
0
4

발생적 부정렬은 언어 모델이 점차 자율적 작업에 활용됨에 따라 AI 안전에 위험을 초래합니다. 본 논문에서는 11개 다양한 도메인에 걸친 불안전한 데이터셋으로 미세 조정된 대규모 언어 모델(LLM) 집단을 제시하고, 관련 없는 사용자 프롬프트 모음에 대해 백도어 트리거 유무에 따라 이를 평가합니다. Qwen2.5-Coder-7B-Instruct와 GPT-4o-mini에 대한 평가 실험 결과 두 가지 주요 발견을 확인했습니다: (i) 백도어 트리거는 도메인의 77.8%에서 부정렬 비율을 증가시켰으며(평균 감소: 4.33점), 위험한 금융 조언(risky-financial-advice)과 유해한 법률 조언(toxic-legal-advice) 도메인에서 가장 큰 효과를 보였습니다. (ii) 도메인별 취약성은 incorrect-math에서 수학 문제 오답 출력 미세 조정 시 0%의 부정렬률부터 gore-movie-trivia 미세 조정 시 87.67%까지 매우 다양하게 나타났습니다. 섹션~sec:research-exploration의 추가 실험에서는 여러 연구 질문을 탐구했으며, 특히 비지시적 미세 조정 기반 모델을 기준으로 조정된 멤버십 추론 지표가 광범위한 부정렬 가능성 정도를 예측하는 데 유용한 사전 지표 역할을 한다는 사실을 발견했습니다. 또한 서로 다른 데이터셋으로 미세 조정된 모델 간 부정렬을 탐색하고, 한 발생적 부정렬(EM) 모델에서 추출된 방향성이 다른 모델의 행동을 제어하는 데 일반화되는지 분석했습니다. 우리가 아는 한, 본 연구는 도메인별 발생적 부정렬에 대한 분류 체계적 순위를 최초로 제시하여 AI 보안과 사후 훈련에 시사점을 제공합니다. 또한 본 연구는 부정렬 데이터셋 구축을 위한 표준화된 방법론을 정립합니다. 모든 코드와 데이터셋은 GitHub에서 공개되어 있습니다.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main

46

PhysicsAgentABM: 물리 법칙 기반 생성형 에이전트 기반 모델링
PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Feb 5
ByKavana Venkatesh, Yinhan He, Jundong Li, Jiaming Cui
0
3

대규모 언어 모델(LLM) 기반 다중 에이전트 시스템은 표현력이 풍부한 에이전트 추론을 가능하게 하지만 확장 비용이 높고 시간 단계 정렬 상태 전환 시뮬레이션에 대한 보정이 불충분합니다. 반면, 기존의 에이전트 기반 모델(ABM)은 해석 가능성을 제공하지만 개체 수준의 풍부한 신호와 비정상적 행동을 통합하는 데 어려움을 겪습니다. 본 연구에서는 추론을 행동적으로 일관된 에이전트 클러스터로 전환하는 PhysicsAgentABM을 제안합니다. 상태 특화 기호적 에이전트는 기계론적 전환 사전 확률을 인코딩하고, 다중 모드 신경 전환 모델은 시간적 및 상호작용 역학을 포착하며, 불확실성 인지 인식론적 융합은 보정된 클러스터 수준 전환 분포를 생성합니다. 이후 개별 에이전트는 지역 제약 하에서 확률적으로 전환을 실현하여 개체 수준 변동성으로부터 집단 추론을 분리합니다. 또한 LLM 에이전트 주도의 클러스터링 전략인 ANCHOR를 도입합니다. 이는 교차-맥락적 행동 반응과 새로운 대조 손실에 기반하여 LLM 호출을 최대 6-8배까지 줄입니다. 공중보건, 금융, 사회과학 분야의 실험 결과, 기계론적, 신경망, LLM 기반 모델 대비 일관적으로 향상된 사건 시간 정확도와 보정 성능을 확인했습니다. 불확실성 인지 신경-기호적 융합을 통한 집단 수준 추론을 중심으로 생성형 ABM을 재구성함으로써, PhysicsAgentABM은 LLM을 활용한 확장 가능하고 보정된 시뮬레이션의 새로운 패러다임을 정립합니다.

47

Focus-dLLM: 신뢰도 기반 문맥 포커싱을 통한 장문맥 Diffusion LLM 추론 가속화
Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

Feb 2
ByLingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
0
3

확산 대형 언어 모델(dLLM)은 비자회귀 디코딩 패러다임에서 강력한 장문 컨텍스트 처리 능력을 보여줍니다. 그러나 양방향 전체 어텐션의 상당한 계산 비용으로 인해 추론 효율성이 제한됩니다. 희소 어텐션이 유망한 기술이지만, 기존 방법들은 여전히 효과적이지 못합니다. 이는 아직 디코딩되지 않은 토큰에 대한 어텐션 중요도를 추정해야 하는 반면, 확산 과정에서는 마스크가 제거된 토큰 위치를 알 수 없기 때문입니다. 본 논문에서는 정확하고 효율적인 장문 컨텍스트 dLLM 추론을 위해 특화된 새로운 학습 불필요 어텐션 희소화 프레임워크인 Focus-dLLM을 제안합니다. 토큰 신뢰도가 인접한 단계 간에 강하게 상관관계를 가진다는 발견에 기반하여, 먼저 마스크가 제거된 영역을 예측하기 위한 과거 신뢰도 기반 지표를 설계합니다. 이를 바탕으로 영향력이 큰 어텐션 싱크는 보존하면서 중복 어텐션 계산을 정확히 추정하고 제거하기 위한 싱크 인지 프루닝 전략을 제안합니다. 오버헤드를 더욱 줄이기 위해, 관찰된 계층 간 일관성을 활용하여 이 전략은 식별된 싱크 위치를 여러 계층에 걸쳐 재사용합니다. 실험 결과, 본 방법론이 32K 컨텍스트 길이에서 29배 이상의 무손실 속도 향상을 제공함을 보여줍니다. 코드는 https://github.com/Longxmas/Focus-dLLM에서 공개되어 있습니다.

Feb 5
Feb 6