HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

42 papers found

Mega-ASR: 실제 환경 음향 시뮬레이션 확장을 통한 In-the-wild² 음성 인식
Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

May 19

ByZhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao

110

자동 음성 인식(ASR) 및 대규모 오디오-언어 모델의 급속한 발전에도 불구하고, 실제 환경에서의 강건한 인식은 "음향 강건성 병목 현상"에 의해 여전히 제한된다. 즉, 모델이 심각하고 복합적인 왜곡 하에서 음향적 근거를 상실하고 누락 또는 환각을 생성하는 경우가 빈번하다. 본 연구에서는 확장 가능한 복합 데이터 구축과 점진적인 음향-의미 최적화를 결합한 통합 현장 ASR 프레임워크인 Mega-ASR을 제안한다. 7가지 전형적인 음향 현상과 54가지 물리적으로 타당한 복합 시나리오를 포함하는 Voices-in-the-Wild-2M을 도입하고, 음향-의미 점진적 지도 미세 조정 및 이중 세분화 WER 게이트 정책 최적화를 통해 Mega-ASR을 학습시킨다. 광범위한 실험을 통해 Mega-ASR이 열악한 조건의 ASR 벤치마크(VOiCES R4-B-F에서 45.69% 대 54.01%, NOIZEUS Sta-0에서 21.49% 대 29.34%)에서 이전 최신 시스템보다 유의미한 우위를 달성함을 입증한다. 복잡한 복합 음향 시나리오에서 Mega-ASR은 강력한 오픈소스 및 폐쇄형 기준 모델 대비 30% 이상의 상대적 WER 감소를 추가로 제공하여, 현장 강건 ASR을 위한 확장 가능한 패러다임을 수립한다.

Video2GUI: 일반화된 GUI 에이전트 사전 학습을 위한 대규모 상호작용 궤적 합성
Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

May 14

ByWeimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian

최근 멀티모달 대규모 언어 모델의 발전으로 그래픽 사용자 인터페이스(GUI) 에이전트에 대한 관심이 증가하고 있지만, 다양한 실제 애플리케이션을 포괄하는 대규모 학습 데이터의 부족으로 일반화 성능이 여전히 제한적이다. 기존 데이터셋은 대부분 비용이 많이 드는 수동 주석에 의존하며, 일반적으로 좁은 도메인에 국한된다. 이러한 문제를 해결하기 위해, 우리는 레이블이 없는 인터넷 동영상에서 직접 GUI 상호작용 궤적을 추출하는 완전 자동화 프레임워크인 Video2GUI를 제안한다. Video2GUI는 coarse-to-fine 필터링 전략을 사용하여 고품질 GUI 튜토리얼 동영상을 식별하고 이를 구조화된 에이전트 궤적으로 변환한다. 이 파이프라인을 5억 개의 동영상 메타데이터 항목에 적용하여, 1,500개 이상의 애플리케이션과 웹사이트를 포괄하는 1,200만 개의 상호작용 궤적으로 구성된 대규모 데이터셋 WildGUI를 구축하였다. WildGUI로 Qwen2.5-VL과 Mimo-VL을 사전 학습한 결과, 여러 GUI grounding 및 행동 벤치마크에서 5-20%의 일관된 성능 향상을 보였으며, 최신 성능과 동등하거나 이를 능가하였다. 향후 GUI 에이전트 연구를 지원하기 위해 WildGUI 데이터셋과 Video2GUI 파이프라인을 공개할 예정이다.

일관된 긴 동영상을 위한 훈련 없는 무한 프레임 생성 향상
Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

May 18

ByX. Feng, J. Zhu, M. Wu, C. Chen, F. Mao, H. Guo, J. Wu, X. Chu, K. Huang

상당한 계산 오버헤드 없이 훈련 없이 긴 비디오를 생성하는 방법은 기반 비디오 생성 모델이 더 긴 비디오를 생성할 수 있도록 하는 것을 목표로 한다. 프레임 수준 자기회귀 프레임워크(예: FIFO-확산)는 일정한 메모리 소비로 무한히 긴 비디오를 생성할 수 있는 장점을 제공한다. 그러나 훈련과 추론 간의 불일치와 장기적 일관성 유지의 어려움으로 인해 기반 모델의 효과적인 활용이 제한된다. 이러한 문제를 완화하기 위해 우리는 MIGA라는 새로운 무한 프레임 장기 비디오 생성 방법을 제안한다. 첫째, 모델에 입력되는 과도한 노이즈 범위를 줄여 훈련-추론 격차를 완화하는 효과적인 2단계 정렬 메커니즘을 제안한다. 그런 다음, 초기 고노이즈 프레임을 교정하는 자기 반성 접근법과 넓은 범위를 포괄하는 후기 저노이즈 프레임을 활용하여 생성을 유도하는 장거리 프레임 안내 접근법을 결합하여 시간적 일관성을 공동으로 향상시키는 혁신적인 이중 일관성 강화 메커니즘을 도입한다. VBench와 NarrLV에 대한 광범위한 실험은 MIGA의 최첨단 성능을 입증한다. 프로젝트 페이지는 https://xiaokunfeng.github.io/miga_homepage/에서 확인할 수 있다.

IndusAgent: 에이전트 도구를 통한 개방형 어휘 산업 이상 탐지 강화
IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

May 20

ByRongbin Tan, Fangfang Lin, Zhenlong Yuan, Min Qiu, Kejin Cui, Mengmeng Wang, Yi Wang, Zijian Song, Zhiyuan Wang, Jiyuan Wang, Yue Wang, Shuhan Song§, Huawei Cao

멀티모달 대규모 언어 모델(MLLM)은 시각적 인식과 텍스트 추론을 연계하는 뛰어난 능력을 보여주며, 다양한 산업 현장에서 제로샷 이해를 가능하게 한다. 그러나 개방형 어휘 산업 이상 탐지(IAD)에서 이들의 성능은 종종 도메인 불일치 추론과 환각적 구조 추론에 의해 제한된다. 이러한 문제를 해결하기 위해, 우리는 개방형 어휘 IAD를 위한 도구 증강 에이전트 프레임워크인 IndusAgent를 제안한다. 구체적으로, 먼저 Indus-CoT를 구축한다. 이는 전역 시각 관찰, 고해상도 지역 패치, 전문가 정상성 사전 정보를 통합한 구조화된 데이터셋으로, 엄격한 산업 검사 궤적에 대해 모델을 미세 조정하기 위한 감독을 제공한다. 이를 바탕으로 IndusAgent는 동적 지역 크롭핑, 고주파 특성 강화, 사전 검색을 포함한 외부 도구 집합을 동적으로 조율함으로써, 에이전트가 시각적 모호성을 적극적으로 해소하고 미세한 이상을 분리할 수 있게 한다. 또한, 게이트 보강 학습 목표를 도입하여 이상 분류, 위치 정확도, 이상 유형 추론, 효율적인 도구 사용을 공동으로 최적화하며, 도구 호출이 유익할 때만 발생하도록 보장한다. MVTec-AD, VisA, MPDD, DTD, SDD를 포함한 다섯 가지 산업 이상 벤치마크에 대한 광범위한 평가는 IndusAgent가 기존 모든 방법 중 최첨단 제로샷 성능을 달성함을 보여주며, 이는 우리의 강건성과 일반화 능력을 입증한다.

최소한의 RLVR 훈련만으로 충분: 랭크-1 궤적을 통한 LLM 외삽
You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

May 20

ByZhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

검증 가능한 보상 기반 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 주요 패러다임으로 자리 잡았으나, 그 결과로 나타나는 파라미터 궤적의 기하학적 구조는 여전히 충분히 탐구되지 않았다. 본 연구에서는 RLVR 가중치 궤적이 극도로 저차원적이며 예측 가능성이 높음을 보인다. 구체적으로, 하위 과제 성능 향상의 대부분은 파라미터 변화량의 랭크-1 근사에 의해 포착되며, 이 투영의 크기는 훈련 단계에 따라 거의 선형적으로 변화함을 발견하였다. 이에 착안하여, 우리는 간단하고 계산 효율적인 방법인 RELEX(Reinforcement Learning EXtrapolation)를 제안한다. 이 방법은 짧은 관측 윈도우에서 랭크-1 부분공간을 추정하고 선형 회귀를 통해 미래의 체크포인트를 외삽하며, 학습된 모델이 필요하지 않다. 세 가지 모델(Qwen2.5-Math-1.5B, Qwen3-4B-Base, Qwen3-8B-Base)에 걸쳐 RELEX는 도메인 내 및 도메인 외 벤치마크 모두에서 RLVR 성능과 일치하거나 이를 초과하는 체크포인트를 생성하며, 전체 RLVR 훈련의 15% 미만의 단계만 필요로 한다. 놀랍게도, RELEX는 훈련 비용 없이 관측 윈도우를 훨씬 넘어 외삽할 수 있으며, 관측된 접두사의 10~20배까지 체크포인트를 예측하면서 지속적인 성능 향상을 보인다 (예: 처음 50단계만 관측하고 1000단계까지 외삽). 제거 분석을 통해 RELEX의 최소주의적 충분성이 확인되었다: 부분공간의 랭크를 높이거나 비선형 모델링을 사용해도 외삽에서 추가적인 이득이 발생하지 않는다. 마지막으로, 우리는 RELEX의 성공이 '노이즈 제거' 효과에서 비롯됨을 보인다: 업데이트를 랭크-1 부분공간에 투영함으로써, 모델은 외삽 중 성능을 저하시킬 확률적 최적화 노이즈를 제거한다. 우리의 코드는 https://github.com/weizhepei/RELEX에서 확인할 수 있다.

OScaR: LLM 및 그 이상에서의 극한 KV 캐시 양자화를 위한 오컴의 면도날
OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

May 19

ByZunhai Su, Rui Yang, Chao Zhang, Yaxiu Liu, Yifan Zhang, Wei Wu, Jing Xiong, Dayou Du, Xialie Zhuang, Yulei Qian, Yuchen Xie, Yik-Chung Wu, Hongxia Yang, Ngai Wong

장기 문맥 추론과 다중 모달 지능으로의 급속한 발전은 키-값(KV) 캐시의 메모리 사용량을 효율적인 배포에 있어 지배적인 메모리 병목 현상으로 만들었다. 기존의 채널별 양자화는 Key 텐서의 내재적 채널별 이상치를 효과적으로 수용하지만, 극단적인 압축에서는 그 효용성이 감소한다. 본 연구에서는 경험적 및 이론적 관점에서 채널별 양자화 패러다임의 내재적 한계를 재검토한다. 우리의 분석은 토큰 노름 불균형(TNI)을 양자화 충실도의 주요 병목으로 식별한다. TNI는 공유 양자화 파라미터가 상당한 노름 차이를 보이는 토큰 그룹에 걸쳐 적용되어야 할 때 오류를 체계적으로 증폭시킴을 보여준다. 복잡한 양자화 파이프라인(예: TurboQuant)에 의존하는 대신, 우리는 X-LLM(즉, 텍스트 전용, 다중 모달 및 옴니 모달 LLM)을 위한 정확하고 경량화된 KV 캐시 압축 프레임워크인 OScaR(전방위 스케일 채널화 회전)을 제안한다. 채널별 패러다임을 발전시켜, OScaR은 채널화 회전과 이어지는 전방위 토큰 스케일링을 통해 TNI로 인한 시퀀스 차원 분산을 효과적이면서도 효율적으로 완화하며, 최적화된 시스템 설계 및 CUDA 커널이 이를 뒷받침한다. X-LLM에 걸친 광범위한 평가에서 OScaR은 기존 방법들을 일관되게 능가하고 INT2 양자화 하에서 거의 무손실 성능을 달성하여, 새로운 파레토 최적 경계를 정의하는 강건하고 저복잡도이며 보편적인 프레임워크로 자리매김한다. BF16 FlashDecoding-v2 기준선과 비교하여, 우리의 OScaR 구현은 디코딩에서 최대 3.0배의 속도 향상, 메모리 사용량 5.3배 감소, 처리량 4.1배 증가를 달성한다. OScaR의 코드는 https://github.com/ZunhaiSu/OScaR-KV-Quant에서 공개적으로 이용 가능하다.

대규모 오디오 언어 모델 서베이: 일반화, 신뢰성, 그리고 전망
A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

May 18

ByKaiwen Luo, Zhenhong Zhou, Leo Wang, Liang Lin, Yang Xiao, Tianyu Shao, Yuanhe Zhang, Yuxuan Li, Miao Yu, Kailin Lyu, Jiaming Zhang, Dongrui Liu, Li Sun, Yueming Wu, Kai Li, Ting Dang, Xiaojun Jia, Rohan Kumar Das, Xinfeng Li, Siyuan Liang, Qiufeng Wang, Xingjun Ma, Jing Chen, Kun Wang, Junhao Dong, Deqing Zou, Yu Cheng, Xia Hu, Zhigang Zeng, Sen Su, Yang Liu, Yu-Gang Jiang, Philip S. Yu, Yew-Soon Ong

대규모 언어 모델(LLMs)이 확립한 기초 역량은 다중 모달 대규모 언어 모델(MLLMs)의 발전을 위한 토대를 마련하였으며, 이 중 대규모 오디오 언어 모델(LALMs)은 보편적 청각 지능을 구현하는 데 필수적이다. 뛰어난 성능에도 불구하고, LALMs의 역량 확장은 신뢰성을 보장하기 위한 체계적 프레임워크의 발전을 훨씬 앞지르고 있다. 본 논문은 LALMs의 내생적 메커니즘에 대한 포괄적 분석을 제공하며, 창발적 추론을 가능하게 하는 아키텍처 혁신 및 정렬 알고리즘을 상세히 기술한다. 구체적으로, 통합 종단 간 프레임워크로의 전환과 연속적인 음향 신호의 통합이 공격 표면을 본질적으로 확장하는 방식을 분석한다. 이러한 패러다임 내의 위험을 엄격히 평가하기 위해, 우리는 신뢰성에 대한 포괄적 분류 체계를 수립하고, 교차 모달 젤브레이킹, 잠재적 음향 백도어, 생체 인식 프라이버시 유출과 같은 주요 취약점을 분류한다. 최신 연구 동향을 환각, 견고성, 안전성, 프라이버시, 공정성, 인증 여섯 가지 분석 축을 통해 검토한다. 성숙된 공격 환경과 미비한 방어 체계 간의 심각한 불균형은 오디오 중심 지능이 직면한 중요한 신뢰성 격차와 다차원적 위험을 더욱 입증한다. 마지막으로, 경험적 성능과 본질적으로 신뢰 가능한 오디오 지능 간의 격차를 해소하기 위해 심층 방어 아키텍처, 인과적 청각 세계 모델링, 그리고 본질적 표현 엔지니어링을 제안하는 전략적 로드맵을 제시한다. 본 프로젝트는 GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs 에 업로드되었다.

둘이 함께: 대규모 언어 모델의 맥락적 무결성을 위한 상호 보완적 자기 증류
It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

May 18

BySangwoo Park, Woongyeong Yeo, Seanie Lee, Yumin Choi, Hyomin Lee, Kangsan Kim, Jinheon Baek, Seong Joon Oh, Sung Ju Hwang

맥락적 무결성(Contextual Integrity, CI)은 프라이버시를 단순히 정보를 숨기는 것이 아니라, 주어진 맥락의 규범에 따라 정보 흐름을 통제하는 것으로 정의한다. 대규모 언어 모델이 민감한 워크플로를 처리하는 개인 에이전트로 점점 더 많이 배치됨에 따라 CI를 준수하는 것이 중요해지고 있다. 그러나 최첨단 모델조차도 정보 공개 결정에서 신뢰할 수 없으며, 기존의 완화 전략은 종종 기본 작업 성능을 저하시킨다. 이러한 프라이버시-유틸리티 트레이드오프를 극복하기 위해, 우리는 정보 억제를 작업 해결로부터 분리하는 상보적 자기 증류 프레임워크인 SELFCI를 제안한다. SELFCI는 피드백으로부터 도출된 서로 다른 교사 분포에 대해 두 개의 독립적인 역방향 KL 발산을 공동으로 최적화한다. 하나는 유틸리티를 위해 작업 관련 정보를 보존하도록 장려하고, 다른 하나는 최소한의 적절한 공개를 강제한다. 이러한 상보적 공식은 전문가 곱(Product-of-Experts, PoE) 목표를 유도하여 정책을 능력 및 프라이버시 요구사항의 교집합에 정렬시킨다. 실증 평가는 SELFCI가 값비싼 외부 감독에 의존하지 않고도 온라인 강화 학습 알고리즘(예: GRPO)과 같은 경쟁력 있는 기준선을 일관되게 능가함을 보여준다. 이러한 추세는 에이전틱 워크플로와 축적된 개인 맥락을 포함하는 도메인 외 설정까지 확장되며, 이는 SELFCI가 CI 정렬을 위한 실용적인 경로를 제공함을 시사한다.

Toto 2.0: 시계열 예측, 스케일링 시대에 접어들다
Toto 2.0: Time Series Forecasting Enters the Scaling Era

May 19

ByEmaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

우리는 시계열 파운데이션 모델이 확장 가능함을 보여준다. 즉, 단일 학습 레시피로 4M(4백만)에서 2.5B(25억) 파라미터까지 신뢰할 수 있는 예측 품질 개선이 이루어진다. 본 연구에서는 이 레시피로 학습된 5개의 오픈 가중치 예측 모델 제품군인 Toto 2.0을 공개한다. Toto 2.0 제품군은 세 가지 예측 벤치마크에서 최첨단 성능을 새로 갱신한다: 당사의 관찰 가능성 벤치마크인 BOOM, 표준 범용 벤치마크인 GIFT-Eval, 그리고 최근의 오염 저항성 TIME 벤치마크가 바로 그것이다. 본 보고서는 실험 결과를 설명하고 Toto 2.0의 설계 결정, 즉 아키텍처 및 학습 레시피, 학습 데이터, u-muP 하이퍼파라미터 전이 파이프라인을 상세히 다룬다. 5개의 기본 체크포인트는 모두 Apache 2.0 라이선스로 공개된다.

Mix-Quant: 양자화된 프리필링, 정밀한 디코딩을 위한 에이전트 LLM
Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

May 19

ByHaiquan Lu, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

LLM 에이전트는 최근 계획 수립, 도구 사용, 메모리 검색 및 다단계 상호작용을 통해 복잡한 작업을 해결하는 강력한 패러다임으로 부상하고 있다. 그러나 이러한 에이전트 워크플로우는 종종 상당한 입력 측 오버헤드를 유발하여, 계산 집약적인 프리필링 단계가 긴 컨텍스트의 다중 턴 추론에서 주요 병목 현상이 된다. 본 연구에서는 빠른 에이전트 추론을 위한 간단하고 효과적인 단계 인식 정량화 프레임워크인 Mix-Quant를 제안한다. 먼저 에이전트 LLM 워크플로우에서 FP4 정량화를 조사하고, 전체 추론 과정을 정량화하면 상당한 성능 저하가 발생할 수 있음을 관찰한다. 대조적으로, 프리필링 단계는 상당한 정량화 중복성을 보여주므로, 계산의 주요 원천임에도 불구하고 최소한의 정확도 손실로 정량화될 수 있다. 이러한 통찰을 바탕으로, 디코딩을 위해 BF16 정밀도를 유지하면서 프리필링 단계에 높은 처리량의 NVFP4 정량화를 적용한다. 프리필링 가속을 디코딩 품질에서 분리함으로써, Mix-Quant는 단계 인식 알고리즘 정량화와 하드웨어 효율적인 NVFP4 실행을 결합하여 LLM 에이전트의 추론 병목 현상을 완화한다. 긴 컨텍스트 및 에이전트 벤치마크에 걸친 광범위한 실험을 통해 Mix-Quant가 작업 성능을 대부분 유지하면서 상당한 효율성 향상을 제공하며, 프리필링 중 최대 3배 속도 향상을 달성함을 입증한다.

생성적 재귀 추론
Generative Recursive Reasoning

May 20

ByJunyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn

미래의 신경 추론 시스템은 확장된 계산을 어떻게 구현해야 하는가? 재귀 추론 모델(Recursive Reasoning Models, RRMs)은 공유된 전이 함수를 통한 반복적 잠재 상태 정제를 수행함으로써 자기회귀적 시퀀스 확장에 대한 유망한 대안을 제공한다. 그러나 기존 RRM은 대부분 결정론적이며, 단일 잠재 궤적을 따라 단일 예측으로 수렴한다. 본 논문에서는 생성적 재귀 추론 모델(Generative Recursive Reasoning Models, GRAM)이라는 프레임워크를 소개한다. 이 프레임워크는 재귀적 잠재 추론을 확률적 다중 궤적 계산으로 전환한다. GRAM은 추론을 확률적 잠재 궤적으로 모델링하여 다중 가설, 대안적 해결 전략, 그리고 재귀 깊이와 병렬 궤적 샘플링을 통한 추론 시간 확장을 가능하게 한다. 이를 통해 p_θ(y|x)를 통한 조건부 추론을 지원하는 잠재 변수 생성 모델이 구축되며, 입력이 고정되거나 없을 경우 p_θ(x)를 통한 무조건부 생성도 가능하다. 분산 변분 추론으로 학습된 GRAM은 구조적 추론 및 다중 해결 제약 조건 만족 작업에서 결정론적 순환 및 재귀 기준선보다 성능이 향상되며, 무조건부 생성 능력도 입증한다. https://ahn-ml.github.io/gram-website

CutVerse: 미디어 후반 작업 편집을 위한 구성적 GUI 에이전트 벤치마크
CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

May 19

ByHaobo Hu, Xiangwu Guo, Zhiheng Chen, Difei Gao, Haotian Liu, Libiao Jin, Qi Mao

GUI 에이전트는 웹 탐색 및 기본 운영 체제 작업에서 상당한 진전을 이루었지만, 전문 창의적 워크플로우에서의 역량은 여전히 크게 탐구되지 않은 상태이다. 이러한 격차를 해소하기 위해, 우리는 Cutverse를 소개한다. 이는 사실적인 미디어 후반 작업 환경에서 자율 GUI 에이전트를 체계적으로 평가하도록 설계된 벤치마크이다. 우리는 7개의 전문 응용 프로그램(예: Premiere Pro, Photoshop)에 걸쳐 전문가 데모를 선별하였으며, 이는 실제 편집 워크플로우에 기반한 186개의 복잡하고 장기적인 과제를 포함하며, 밀집된 멀티모달 인터페이스와 긴밀하게 결합된 상호작용 시퀀스를 수반한다. 확장 가능한 평가를 지원하기 위해, 우리는 원시 화면 녹화 및 저수준 상호작용 로그를 정밀한 근거를 갖춘 구조화된 조합형 GUI 행동 궤적으로 변환하는 경량 파서를 개발하였다. 광범위한 평가 결과, 기존 에이전트는 사실적인 미디어 편집 작업에서 36.0%의 작업 성공률만을 달성하여, 우리 벤치마크에서 복잡하고 장기적인 미디어 후반 작업 워크플로우가 제기하는 도전 과제를 강조한다. 현재 모델은 유망한 공간적 근거, 멀티모달 정렬 및 조정된 동작 실행을 보여주지만, 장기적 신뢰성과 도메인 특화 계획 측면에서는 여전히 제한적이다.

Uni-Edit: 지능형 편집은 통합 모델 튜닝을 위한 일반 작업이다
Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

May 20

ByDian Zheng, Manyuan Zhang, Hongyu Li, Hongbo Liu, Kai Zou, Kaituo Feng, Hongsheng Li

현재 이미지 이해, 생성 및 편집 기능을 갖춘 통합 다중 모달 모델(UMM)의 성능 향상은 주로 혼합 다중 작업 훈련에 의존하고 있다. 내재된 작업 충돌로 인해 이러한 전략은 복잡한 다단계 파이프라인, 대규모 데이터 혼합 및 균형 조정 기법을 필요로 하며, 결과적으로 진정한 상호 강화가 아닌 성능 절충에 그친다. 이러한 패러다임을 깨기 위해, 우리는 Uni-Edit을 제안한다. 이는 UMM 튜닝을 위한 최초의 일반 작업으로 기능하는 지능형 이미지 편집 작업이다. 복잡한 혼합 파이프라인과 달리, Uni-Edit은 단일 작업, 단일 훈련 단계, 단일 데이터셋만을 사용하여 세 가지 능력을 동시에 향상시킨다. 구체적으로, 우리는 이미지 편집이 시각적 이해와 생성을 모두 자연스럽게 요구하므로 본질적으로 이상적인 일반 작업임을 먼저 확인한다. 그러나 기존 편집 데이터는 모델의 이해 능력을 심각하게 활용하지 못하는 단순한 지시문에 의존한다. 이를 해결하기 위해, 우리는 지능형 편집을 위한 최초의 자동화되고 확장 가능한 데이터 합성 파이프라인을 도입하여, 다양한 VQA 데이터를 질문이 내장되고 논리가 중첩된 복잡하고 효과적인 편집 지시문으로 변환한다. 이를 통해 다양한 추론 집약적 지시문과 고품질 편집 이미지를 짝지은 Uni-Edit-148k를 생성한다. BAGEL 및 Janus-Pro에 대한 광범위한 실험은 Uni-Edit만으로 튜닝했을 때 별도의 보조 작업 없이 세 가지 능력 모두에서 포괄적인 향상이 이루어짐을 입증한다.

LLMEval-Logic: 적대적 강화가 적용된 LLM의 논리적 추론을 위한 솔버 검증 중국어 벤치마크
LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

May 19

ByMing Zhang, Qiyuan Peng, Yinxi Wei, Yujiong Shen, Kexin Tan, Yuhui Wang, Zhenghao Xiang, Junjie Ye, Zhangyue Yin, Zhiheng Xi, Shihan Dou, Tao Gui, Maxm Pan, Ruizhi Yang, Qi Zhang, Xuanjing Huang

대규모 언어 모델(LLM)의 자연어 논리 추론 능력을 평가하는 것은 규칙 기반 작업에서 결론이 명시된 전제로부터 엄격히 도출되어야 하기 때문에 필수적이다. 기존의 많은 논리 추론 벤치마크는 샘플링된 공식에서 자연어 항목을 템플릿화하여 생성하고, 조잡하거나 감사되지 않은 형식적 주석만 제공하며, 현재 최첨단 추론 모델에 의해 빠르게 포화되고 있다. 우리는 현실적인 상황 시나리오로 구축된 중국어 논리 추론 벤치마크인 LLMEval-Logic을 제시한다. 이 파이프라인은 자연어 항목과 해당 참조 형식화를 사전 작성하고 전문가가 감사하며, Z3를 사용하여 주석된 답변을 검증하고, 자연어-형식어 채점을 위한 전문가 루브릭을 구축하며, 폐쇄 루프 적대적 워크플로를 통해 선별된 항목을 강화한다. 벤치마크는 두 개의 쌍을 이루는 하위 집합으로 출시된다: 1,400개의 전문가 개발 루브릭 원자(atom)가 포함된 246개 항목의 Base 하위 집합과, 폐쇄 모델 공간에 대한 938개의 다단계 하위 질문이 포함된 190개 항목의 Hard 하위 집합이다. LLMEval-Logic에서 14개의 최첨단 LLM을 평가한 결과 현재 모델의 상당한 격차가 드러났다: 최고 모델은 Hard 항목 정확도가 37.5%에 불과하며, 참조 기호를 사용하더라도 평가된 모델 중 가장 높은 Z3+루브릭 공동 형식화 점수는 60.16%에 그쳤다. 우리의 벤치마크는 https://github.com/llmeval/LLMEval-Logic에서 공개적으로 이용 가능하다.

HRM-Text: 스케일링을 넘어서는 효율적인 사전 학습
HRM-Text: Efficient Pretraining Beyond Scaling

May 20

ByGuan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori

현재 대규모 언어 모델의 사전 학습 패러다임은 막대한 연산 자원과 인터넷 규모의 원시 텍스트에 의존하여 기초 연구에 상당한 장벽을 형성하고 있다. 이와 대조적으로 생물학적 시스템은 전두정엽 루프의 기능적 조직과 같은 다중 시간 척도 처리를 통해 샘플 효율성이 높은 학습을 보여준다. 이러한 점에서 영감을 받아, 우리는 표준 트랜스포머를 계층적 순환 모델(HRM)로 대체하여 계산을 느리게 진화하는 전략 계층과 빠르게 진화하는 실행 계층으로 분리하는 HRM-Text를 소개한다. 언어 모델링을 위한 이러한 깊은 순환 구조를 안정화하기 위해, 우리는 MagicNorm과 웜업 심층 신용 할당을 도입한다. 또한, 표준 원시 텍스트 사전 학습 대신, 작업 완료 목표와 PrefixLM 마스킹을 사용하여 지시-응답 쌍에 대해서만 학습을 진행한다. 효율적인 사전 학습의 경험적 존재 증명으로서, 400억 개의 고유 토큰과 1,500달러 예산으로 처음부터 학습된 10억 파라미터 HRM-Text 모델은 MMLU에서 60.7%, ARC-C에서 81.9%, DROP에서 82.2%, GSM8K에서 84.5%, MATH에서 56.2%의 성능을 달성한다. 표준 기준선보다 약 100~900배 적은 학습 토큰과 96~432배 적은 추정 연산을 사용했음에도 불구하고, HRM-Text는 20~70억 파라미터의 공개 모델과 경쟁력 있는 성능을 보여준다. 이러한 결과는 아키텍처와 목표를 공동 설계함으로써 연산 대비 성능 비율을 획기적으로 낮출 수 있으며, 광범위한 연구 커뮤니티가 처음부터 사전 학습을 수행할 수 있게 함을 입증한다.

에이전트 기반 계획-실행 파이프라인에서 시간적 의미 캐싱 및 워크플로 최적화 평가
Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

May 20

ByAlimurtaza Mustafa Merchant, Krish Veera, Sajal Kumar Goyla, Shambhawi Bhure, Dhaval Patel, Kaoutar El Maghraoui

산업 자산 운영 워크플로우는 지연 시간에 민감한데, 이는 단일 사용자 질의가 센서 데이터, 작업 지시, 고장 모드, 예측 도구 및 도메인별 에이전트 간의 조정을 필요로 할 수 있기 때문이다. 우리는 이 문제를 산업 에이전트 벤치마크인 AssetOpsBench(AOB)에서 평가하며, 해당 벤치마크의 계획-실행 파이프라인은 도구 탐색, LLM 계획, MCP 도구 실행 및 최종 요약 과정에서 반복적인 오버헤드를 노출시킨다. 기존의 LLM 캐싱 기법(예: KV-캐시 재사용 및 임베딩 기반 의미적 캐싱)은 챗봇 서빙을 위해 설계되었으며, 출력 유효성이 시간, 자산 또는 센서 매개변수에 의존할 때 그 효과가 떨어진다. 우리는 AOB 계획-실행 파이프라인을 위한 두 가지 상호 보완적 최적화 계층을 제안한다: 시간적 의미 캐시(temporal semantic cache)와 디스크 백업 도구 탐색 캐싱 및 의존성 인식 병렬 단계 실행을 결합한 MCP 워크플로우 최적화 집합이다. MCP 워크플로우 최적화는 1.67배 속도 향상을 가져왔고 중앙값 종단 간 지연 시간을 약 40.0% 감소시켰으며, 시간적 캐시 벤치마크는 캐시 적중 시 중앙값 30.6배의 속도 향상을 달성했다. 속도 향상 외에도, 우리의 결과는 매개변수가 풍부한 산업 질의에 대한 순수 의미적 캐싱의 구체적인 실패 모드를 드러내며, MCP 기반 에이전트 벤치마크에서 캐싱 선택이 평가 정확성과 어떻게 상호작용하는지에 대한 비판적 분석을 제공한다.

AI 리뷰어의 한계와 기회: 45명의 전문 과학자들과 함께한 Nature 계열 논문 리뷰 검토
On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

May 20

BySeungone Kim, Dongkeun Yoon, Kiril Gashteovski, Juyoung Suk, Jinheon Baek, Pranjal Aggarwal, Ian Wu, Viktor Zaverkin, Spase Petkoski, Daniel R. Schrider, Ilija Dukovski, Francesco Santini, Biljana Mitreska, Yong Jeong, Kyeongha Kwon, Young Min Sim, Dragana Manasova, Arthur Porto, Biljana Mojsoska, Makoto Takamoto, Marko Shuntov, Ruoqi Liu, Hyunjoo Jenny Lee, Niyazi Ulas Dinç, Yehhyun Jo, Sunkyu Han, Chungwoo Lee, Huishan Li, Esther H. R. Tsai, Ergun Simsek, Khushboo Shafi, Yeonseung Chung, Jihye Park, Aleksandar Shulevski, Henrik Christiansen, Yoosang Son, Elly Knight, Amanda Montoya, Jeongyoun Ahn, Christian Langkammer, Heera Moon, Changwon Yoon, Nikola Stikov, Mooseok Jang, Edward Choi, Junhan Kim, Yeon Sik Jung, Woo Youn Kim, Jae Kyoung Kim, Ishraq Md Anjum, Hyun Uk Kim, Drew Bridges, Carolin Lawrence, Xiang Yue, Alice Oh, Akari Asai, Sean Welleck, Graham Neubig

인공지능(AI) 능력의 발전에 따라 과학적 동료 검토(peer review)에 AI 리뷰어가 배치되기 시작했지만, 그 역량과 신뢰성은 여전히 의문시되고 있다. 많은 과학자들은 AI 리뷰어를 연구를 평가할 전문성이 없는 확률적 시스템으로 보는 반면, 다른 연구자들은 구체적 증거 없이 그 준비 상태에 대해 더 낙관적이다. AI 리뷰어가 무엇을 잘 수행하고, 어디에서 한계를 보이며, 어떤 과제가 남아 있는지를 이해하는 것이 필수적이다. 그러나 기존의 AI 리뷰어 평가는 그 판정이 인간 판정과 일치하는지(예: 점수 일치도, 수용 예측)에 초점을 맞추어 왔으며, 이는 그 역량과 한계를 특성화하기에 충분하지 않다. 본 논문에서는 물리 과학, 생명 과학, 보건 과학 분야의 45명의 도메인 과학자가 469시간을 투자하여 Nature 계열 논문 82편의 인간 작성 리뷰와 AI 생성 리뷰로부터 추출한 2,960개의 개별 비평(각각 논문의 특정 측면을 대상으로 함)을 정확성, 중요성, 증거의 충분성 측면에서 평가한 대규모 전문가 주석 연구를 통해 이러한 격차를 해소한다. 세 가지 차원을 모두 종합한 합성 지표에서 GPT-5.2 기반 리뷰 에이전트는 각 논문의 최고 평가를 받은 인간 리뷰어보다 높은 점수를 기록했으며(60.0% 대 48.2%, p = 0.009), 세 가지 AI 리뷰어(Gemini 3.0 Pro 및 Claude Opus 4.5 포함)는 모든 차원에서 최저 평가를 받은 인간 리뷰어를 능가했다. AI 리뷰어의 정확한 비평은 또한 더 자주 중요하고 증거가 충분한 것으로 평가되었으며, 인간이 제기하지 않는 별개의 26%의 문제를 표면화했다. 그러나 AI 리뷰어는 인간보다 훨씬 더 많은 중복을 보였으며(교차 리뷰어 쌍 기준 21% 대 3%), 인간이 공유하지 않는 16가지의 반복적 약점(예: 제한된 하위 분야 지식, 여러 파일에 걸친 긴 문맥 관리 부족, 사소한 문제에 대한 지나치게 비판적인 태도)을 나타냈다. 전반적으로, 본 연구 결과는 현재의 AI 리뷰어를 인간 리뷰어의 대체재가 아닌 보완재로 위치 짓는다.

OcclusionFormer: 레이아웃 기반 이미지 생성을 위한 Z-순서 정렬
OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation

May 20

ByZiye Li, Henghui Ding

최근 레이아웃-이미지 변환 모델은 공간적 제어 가능성에서 놀라운 진전을 이루었다. 그러나 객체 간 폐색 문제는 여전히 어려움을 겪고 있다. 경계 상자가 겹칠 때 대부분의 기존 방법은 명시적인 폐색 정보를 결여하므로, 교차 영역에서의 생성이 본질적으로 모호해지고 복잡한 폐색 관계를 결정하는 데 장애가 된다. 그 결과, 겹친 영역에서 얽힌 텍스처나 물리적으로 일관되지 않은 레이어링이 자주 발생한다. 이 문제를 해결하기 위해, 먼저 명시적 폐색 순서와 픽셀 수준 주석이 풍부하게 포함된 대규모 데이터셋 SA-Z를 구축한다. 제안된 데이터셋을 기반으로, 인스턴스를 분리하고 체적 렌더링을 통해 합성함으로써 Z-순서 우선순위를 명시적으로 모델링하는 새로운 폐색 인식 확산 트랜스포머 프레임워크인 OcclusionFormer를 소개한다. 또한, 세밀한 공간 정밀도를 보장하기 위해 개별 인스턴스를 명시적으로 감독하고 의미 일관성을 강화하는 질의 정렬 손실을 도입한다. 제안된 방법은 겹치는 영역에서의 모호성을 효과적으로 줄이고, 올바른 폐색 의존성을 강제하며, 구조적 무결성을 보존함으로써 다양한 장면에서 상당한 정확도 향상을 가져온다.

스테이블 오디오 3
Stable Audio 3

May 18

ByZach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

스테이블 오디오 3(Stable Audio 3)는 가변 길이 오디오 생성 및 편집을 위한 고속 잠재 확산 모델(소형, 중형, 대형) 제품군입니다. 당사 모델은 수 분 분량의 오디오를 생성할 수 있으므로, 짧은 사운드를 위해 전체 길이의 생성물을 제작하는 비용을 피하기 위해서는 가변 길이 생성이 핵심적입니다. 또한 인페인팅을 지원하여 표적 오디오 편집과 짧은 녹음의 연속을 가능하게 합니다. 당사의 잠재 확산 모델은 오디오를 압축된 잠재 공간으로 투영하는 새로운 의미-음향 오토인코더 위에서 작동하며, 이를 통해 효율적인 확산 기반 생성을 가능하게 하면서 오디오 충실도를 유지하고 잠재 공간 내에서 의미 구조를 촉진합니다. 마지막으로, 추론 가속화와 생성 품질 향상을 위해 적대적 사후 학습을 수행하여 추론 단계 수를 줄이면서 충실도와 프롬프트 준수도를 개선합니다. 스테이블 오디오 3 모델은 라이선스 및 크리에이티브 커먼즈 데이터로 학습되었으며, H200 GPU에서 2초 미만, MacBook Pro M4에서 수 초 이내에 음악과 사운드를 생성할 수 있습니다. 당사는 소형 및 중형 모델의 가중치를 학습 및 추론 파이프라인과 함께 공개하며, 이 모델들은 소비자용 하드웨어에서 실행 가능합니다.

확산 정렬을 위한 스티치드 가치 모델
Stitched Value Model for Diffusion Alignment

May 19

ByHyojun Go, Hyungjin Chung, Prune Truong, Goutam Bhat, Li Mi, Zhaochong An, Zixiang Zhao, Dominik Narnhofer, Serge Belongie, Federico Tombari, Konrad Schindler

실용적인 사용을 위해, 확산 또는 흐름 기반 생성 모델은 프롬프트 충실도나 심미적 선호도와 같은 작업별 보상과 정렬되어야 합니다. 이러한 정렬은 보상이 깨끗한 출력 이미지에 대해 정의되지만, 정렬 절차에서는 노이즈가 있는 중간 잠재 변수에 대한 가치 함수 추정이 필요하기 때문에 어렵습니다. 기존 방법은 Tweedie 스타일 또는 몬테카를로 근사에 의존하여 추정량 편향과 계산 비용 사이의 균형을 맞춥니다. Tweedie 추정은 효율적이지만 편향되어 있고, 몬테카를로 추정은 더 정확하지만 비용이 많이 드는 롤아웃을 필요로 합니다. 자연스러운 대안은 학습된 가치 함수이지만, 특히 노이즈가 있는 잠재 변수에 대해 강력하고 일반적인 가치 모델을 효과적으로 훈련하는 방법은 여전히 미해결 질문입니다. 여기서 우리는 깨끗한 이미지에 대해 사전 훈련된 보상 모델을 노이즈가 있는 잠재 변수 영역으로 효율적으로 전이하는 모델 스티칭 프레임워크인 StitchVM을 제안합니다. StitchVM은 기존의 잘린 픽셀 공간 보상 모델에서 시작하여 여기에 동결된 확산 백본을 헤드로 부착합니다. 픽셀 공간 모델로부터 결과 하이브리드는 신중하게 사전 훈련된 강건한 보상 기능을 유지하고, 확산 백본으로부터는 노이즈가 있는 잠재 변수를 처리하는 고유의 능력을 상속받습니다. 스티칭 절차는 매우 가벼워서, 예를 들어 CLIP ViT-L과 SD 3.5 Medium을 스티칭하고 미세 조정하는 데 단 10 GPU 시간만 소요됩니다. 강력한 픽셀 공간 보상 모델을 잠재 공간으로 끌어올림으로써, StitchVM은 새로운 스타일의 확산 정렬을 열어줍니다. 즉, 거칠지만 비용이 많이 드는 샘플별 가치 함수 근사 대신, 실제 노이즈가 있는 잠재 변수에 대한 올바른 함수를 한 번 구축한 후 많은 샘플과 반복에 걸쳐 상각하는 방식입니다. 우리는 이 접근 방식이 다양한 하위 스티어링 및 사후 훈련 방법에서 개선을 가져옴을 보여줍니다. DPS는 최대 GPU 메모리를 절반으로 줄이면서 3.2배 빨라지고, DiffusionNFT는 2.3배 빨라집니다.

OCTOPUS: 최적 제곱 오차 양자화 하에서 팔면체 매개변수화를 통한 트랜스포머를 위한 최적화된 KV 캐시
OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization

May 20

ByMark Boss, Vikram Voleti, Simon Donné, Shimon Vainer

키-값(KV) 캐시는 긴 문맥 자기회귀 추론에서 메모리 대역폭과 사용량을 지배한다. 최근 회전 사전 조건 부호화 방식(TurboQuant, PolarQuant)은 구조화된 무작위 회전 후 해석적으로 다루기 쉬운 주변 분포에 맞춰진 좌표별 스칼라 양자화기가 KV 압축에 거의 최적의 방법임을 보여주었다. OCTOPUS는 회전된 좌표 쌍을 공동 양자화함으로써 이 패러다임을 발전시킨다. 각 쌍의 방향은 팔면체 매개변수화를 통해 정사각형으로 매핑되며, 결과로 얻은 두 좌표와 쌍의 놈(norm)은 구현에 맞춰진 주변 분포에 대해 Lloyd-Max 양자화된다. 쌍별 제곱 오차를 최적화하면 키의 전체 차원에만 의존하는 엄격한 비균일 비트 할당이 제공된다. 우리는 스윕(sweep)을 통해 유한 차원에서의 품질 최적점이 테스트한 모든 실제 디코더에서 일정함을 발견했다. 이 코덱은 데이터에 무관하며, 온라인이며, 시드(seed)가 주어지면 결정론적이다. 텍스트, 비디오, 오디오 전반에 걸쳐 OCTOPUS는 보고된 모든 비트 폭과 지표에서 이전의 모든 회전 코덱과 동등하거나 더 나은 성능을 보이며, 극단적인 압축을 위해 비트가 낮아질수록 그 격차는 더 커진다. 또한, 융합된 Triton 구현은 압축되지 않은 키를 구체화하지 않고 즉석에서 키를 재구성하므로, 코덱은 기존 역양자화에 비해 디코딩 시간에 대역폭이나 지연 시간을 추가하지 않는다. 프로젝트 페이지: https://octopus-quant.github.io/

변분 정책 증류를 통한 언어 피드백으로부터의 학습
Learning from Language Feedback via Variational Policy Distillation

May 18

ByYang Li, Erik Nijkamp, Semih Yavuz, Shafiq Joty

검증 가능한 보상 기반 강화학습(RLVR)은 희박한 결과 신호로 인해 복잡한 추론 작업에서 심각한 탐색 병목 현상을 겪는다. 최근의 온폴리 자기 증류 방법은 언어 피드백을 활용하여 밀집된 토큰 수준의 감독 신호를 생성함으로써 이 문제를 해결하고자 한다. 그러나 이러한 접근법은 피드백을 해석하기 위해 고정된 수동적 교사에 의존한다. 학생 정책이 개선됨에 따라 교사의 제로샷 평가 능력은 정체되며, 결국 추가 학습이 중단된다. 이를 극복하기 위해 우리는 언어 피드백으로부터의 학습을 변분 기대최대화(EM) 문제로 공식화하는 프레임워크인 변분 정책 증류(VPD)를 제안한다. VPD는 두 정책을 공동 진화시킨다. E-단계에서 교사는 적응형 신뢰 영역 업데이트를 통해 궤적 결과에 대해 능동적으로 개선되며, 텍스트 피드백을 동적으로 개선된 목표 토큰 분포로 변환한다. M-단계에서 학생은 자신의 온폴리시 롤아웃에서 이 밀집된 분포적 안내를 내면화한다. VPD는 텍스트 비판으로부터 실행 가능한 신호를 추출하는 교사의 능력을 지속적으로 향상시킴으로써 수동적 증류의 한계를 극복한다. 과학적 추론 및 코드 생성 작업에 대한 다양한 진단 피드백 소스에서 평가된 VPD는 표준 RLVR 및 기존 자기 증류 기준선을 지속적으로 능가한다. 마지막으로, 엄격한 수학적 추론 및 콜드 스타트 체제에서 프레임워크를 강도 테스트함으로써, 순수 환경 기반 RL과 비교하여 피드백 기반 자기 증류의 근본적인 한계를 조명한다.

MOCHA: 에이전트 스킬 최적화를 위한 다중 목적 체비셰프 어닐링
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

May 19

ByMd Mehrab Tanjim, Jayakumar Subramanian, Xiang Chen, Branislav Kveton, Subhojyoti Mukherjee, Anlan Zhang, Sungchul Kim, Somdeb Sarkhel, Sunav Choudhury

LLM 에이전트는 스킬(skill)을 통해 동작을 구성한다. 스킬은 에이전트가 추론, 검색, 응답하는 방식을 규율하는 구조화된 자연어 명세이다. 단일 블록 프롬프트와 달리, 스킬은 다중 필드로 구성된 인공물(artifact)로서 하드(hard)한 플랫폼 제약을 받는다. 즉, 설명 필드는 라우팅을 위해 잘리고, 명령 본문은 점진적 공개(progressive disclosure)를 통해 압축되며, 공존하는 스킬들은 제한된 컨텍스트 윈도우를 두고 경쟁한다. 이러한 제약으로 인해 스킬 최적화는 본질적으로 다중 목적(multi-objective)이 된다. 즉, 스킬은 동시에 작업 성능을 극대화하고 플랫폼 한계를 충족해야 한다. 그러나 기존의 프롬프트 최적화기는 이러한 상충 관계(trade-off)를 무시하거나 가중 합(weighted sum)으로 단순화하여 비볼록 목적 영역에서 파레토 최적(Pareto-optimal) 변형을 놓친다. 본 논문에서는 MOCHA(Multi-Objective Chebyshev Annealing)를 소개한다. 이는 단일 목적 선택을 체비쇼프 스칼라화(Chebyshev scalarization)로 대체하여 비볼록 영역을 포함한 전체 파레토 프론트를 포괄하며, 탐색에서 활용으로 전환하는 지수적 어닐링(exponential annealing)을 결합한다. 여섯 가지 다양한 에이전트 스킬을 대상으로 한 실험에서(모든 방법이 동일한 다중 목적 변이 연산자를 공유하고, 기준선들은 목적별 텍스트 피드백을 동일하게 받음), 기존 최적화기들은 6개 작업 중 4개에서 시드 스킬(seed skill)을 개선하지 못했다. 즉, 1000회의 롤아웃(rollout)에서 진전이 전혀 없었다. MOCHA는 모든 작업에서 돌파구를 마련하여, 가장 강력한 기준선 대비 평균 정확도를 7.5% 상대 개선(특히 FEVER에서 14.9%, TheoremQA에서 10.4%)했으며, 파레토 최적 스킬 변형을 두 배 이상 더 발견했다.

PanoWorld: 일관된 전체 주택 파노라마 합성을 위한 생성형 공간 세계 모델
PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis

May 19

ByJinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi

일관된 전체 주택 VR 투어를 평면도와 스타일 참조로부터 생성하려면 사실적인 파노라마와 시점 간 공간적 일관성이 모두 필요하다. 순수 2D 생성기는 개별적으로 매력적인 단일 파노라마를 생성하지만 시점이 변경될 때 지오메트리와 재질을 재상상하는 반면, 모놀리식 3D 생성은 비용이 많이 들고 다중 방 규모에서 미세 텍스처가 손실된다. 우리는 PanoWorld를 소개한다. 이는 실제 VR 투어 제품에서 사용되는 이산적 네비게이션에 부합하도록, 노드 기반의 360도 파노라마를 자기회귀적으로 생성하는 방식으로 전체 주택 합성을 처리하는 생성적 공간 세계 모델이다. PanoWorld는 평면도에서 파생된 3D 쉘을 전역적 지오메트리 프록시로 사용하고, 렌더링 가능한 공간 메모리로서 동적 3D 가우시안 스플래팅 캐시를 사용한다. 미터 단위의 다중 방 360도 입력을 위해 설계된 피드포워드 파노라마 LRM은 생성된 파노라마를 로컬 3DGS 업데이트로 변환하며, 방 인식 그룹 어텐션(Room-aware Group Attention)은 방 간 특징 간섭을 억제한다. 토폴로지 인식 점진적 캐싱 전략은 전체 이력을 반복적으로 재구성하지 않고 이러한 로컬 업데이트를 융합한다. 쉘 기반 지오메트리 안내를 캐시 렌더링 시각 메모리로부터 분리함으로써, PanoWorld는 고주파수 2D 합성 품질을 유지하면서 교차 노드의 레이아웃 및 재질 일관성을 향상시킨다. 프로젝트 링크는 https://jjrcn.github.io/PanoWorld-project-home/ 이다.

언어 모델을 위한 RLVR에서의 학습 불가능성 현상
The Unlearnability Phenomenon in RLVR for Language Models

May 16

ByYulin Chen, He He, Chen Zhao

검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 효과적임이 입증되었다. 그러나 RLVR의 학습 동역학은 아직 충분히 탐구되지 않았다. 본 논문에서는 직관에 반하는 현상을 밝힌다: 모델이 초기에 어려워하는 어려운 예제들 중 상당 부분이 올바른 롤아웃이 존재함에도 학습 불가능한 상태로 남아 있다. 이 현상을 이해하기 위해, 먼저 기존의 최적화 및 샘플링 기법이 학습 불가능성을 해결하지 못함을 보인다. 교차 예제 기울기 분석을 통해 학습 불가능한 예제가 근본적인 표현 문제를 가지고 있음을 보이며, 이는 다른 예제들과의 낮은 기울기 유사성과 일반화 불가능한 추론 패턴으로 특징지어진다. 또한 데이터 증강이 기울기 유사성을 개선하지 못하기 때문에 RL에서 표현 결함을 완화하기 어렵다는 것을 보인다. 본 연구는 RLVR 훈련에서 학습 불가능한 데이터에 대한 최초의 체계적 특성화를 제공하며, 추론 작업을 위한 현재 RL 접근법의 근본적인 한계를 밝힌다. 코드와 데이터는 https://github.com/yulinchen99/unlearnability-rlvr에서 확인할 수 있다.

SpecBench: 장기 지평 코딩 에이전트에서의 보상 해킹 측정
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents

May 20

ByBingchen Zhao, Dhruv Srikanth, Yuxiang Wu, Zhengyao Jiang

장기간 코딩 에이전트가 개발자가 검토할 수 있는 것보다 더 많은 코드를 생성함에 따라, 감독은 자동화된 테스트 스위트라는 단일 표면에 집중된다. 이러한 설정에서 에이전트가 테스트 통과를 최적화하면서 사용자의 진정한 목표에서 벗어나므로 보상 해킹이 자연스럽게 발생한다. 본 연구에서는 보상 해킹 현상을 분석하기 위해 소프트웨어 엔지니어링 작업을 세 부분으로 분해한다: (i) 명세에 대한 자연어 설명, (ii) 지정된 기능을 개별적으로 실행하는 가시적 검증 테스트, (iii) 동일한 기능들을 조합하여 실제 사용 환경을 시뮬레이션하는 비공개 테스트. 명세와 가시적 검증 테스트 스위트를 바탕으로, 진정한 에이전트는 모든 비공개 테스트도 통과할 수 있는 해결책을 생성할 수 있을 것이다. 따라서 우리는 이 두 스위트의 통과율 차이를 사용하여 보상 해킹을 정량화한다. 이 방법론에 기반하여, 우리는 JSON 파서 구축과 같은 단기 작업부터 OS 커널 전체를 처음부터 구축하는 초장기 작업까지 포함하는 30개의 시스템 수준 프로그래밍 작업으로 구성된 벤치마크인 SpecBench를 소개한다. 대규모 실험을 통해 일관된 패턴이 드러난다: 모든 최첨단 에이전트가 가시적 스위트를 포화시키지만 보상 해킹은 지속되며, 더 작은 모델일수록 비공개 스위트에서 더 큰 차이를 보인다. 또한 이러한 차이는 작업 길이에 따라 급격히 증가한다: 코드 크기가 10배 증가할 때마다 차이가 28%포인트 증가한다. 실패 사례는 미묘한 기능 분리부터 의도적인 익스플로잇까지 다양하며, 테스트 입력을 암기하는 2,900줄의 해시 테이블 '컴파일러'도 포함된다. SpecBench는 코딩 에이전트가 진정한 작동 시스템을 구축하는지, 아니면 단순히 개발자가 제공한 테스트 스위트를 이용하는지 측정하기 위한 원칙적인 테스트베드를 제공한다.

MINTEval: 장기 지평 에이전트 시스템에서 다중 대상 간섭 하의 메모리 평가
MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

May 19

ByHyunji Lee, Justin Chih-Yao Chen, Joykirat Singh, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal

현실 세계의 에이전트는 길고 진화하는 시간 지평 위에서 작동하며, 정보가 반복적으로 갱신되고 기억 간에 간섭이 발생할 수 있으므로, 정확한 회상과 여러 정보에 대한 통합적 추론이 필요하다. 그러나 기존 벤치마크는 정적이고 독립적인 회상에 초점을 맞추고 있어 진화하는 기억 간의 동적 상호작용을 포착하지 못한다. 본 논문에서는 현재의 메모리 증강 에이전트가 다양한 도메인과 질문 유형에 걸쳐 현실적이고 간섭이 많으며 장기적인 환경에서 어떻게 수행되는지 연구한다. 우리는 MINTEval(간섭 하 장기 기억 평가, Long-Horizon Memory under INTerference Evaluation)을 소개한다. 이 벤치마크는 (1) 상당한 간섭을 유발하는 빈번한 정보 갱신이 포함된 길고 상호 연결성이 높은 맥락, (2) 도메인 일반화 평가를 가능하게 하는 다양한 도메인(상태 추적, 다중 턴 대화, 위키피디아 개정판, GitHub 커밋), (3) 간섭에 대한 견고성을 평가하는 다양한 질문 유형( (i) 긴 맥락에서 특정 대상을 검색해야 하는 단일 대상 회상 과제, (ii) 여러 관련 정보에 대한 추론이 필요한 다중 대상 통합 과제)을 특징으로 한다. 전체적으로 MINTEval은 평균 138.8k 토큰, 인스턴스당 최대 1.8M 토큰에 이르는 장기 맥락에 걸친 15.6k개의 질의응답 쌍으로 구성된다. 우리는 바닐라 장기 맥락 LLM, RAG, 메모리 증강 에이전트 프레임워크를 포함한 7개의 대표 시스템을 평가한다. 모든 시스템에서 일관되게 낮은 성능(평균 27.9% 정확도)을 관찰했으며, 특히 여러 증거에 대한 통합적 추론이 필요한 질문에서 그러했다. 분석 결과, 성능은 주로 검색과 메모리 구성에 의해 제한되는 것으로 나타났다. 더욱이, 현재의 메모리 시스템은 이후 맥락에 의해 수정되거나 간섭을 받은 초기 사실을 회상하고 추론하는 데 어려움을 겪으며, 중간 업데이트 수가 증가함에 따라 정확도가 저하된다.

DPO와 RLHF의 조건부 동등성: 암묵적 가정, 실패 모드, 그리고 증명 가능한 정렬
Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

May 20

ByZhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo

직접 선호 최적화(DPO)는 인간 피드백을 통한 강화 학습(RLHF)의 대안으로 부상하였으며, 이론적 동등성과 더 간단한 구현을 제공한다. 본 연구는 이러한 동등성이 보편적이기보다 조건적이며, 실제로 자주 위반되는 암묵적 가정, 즉 RLHF 최적 정책이 인간이 선호하는 응답을 선호해야 한다는 가정에 의존함을 증명한다. 이 가정이 성립하지 않을 때, DPO는 인간 선호와의 절대적 일치보다는 참조 정책 대비 상대적 이점을 최적화하게 되며, 이는 정책이 비선호 응답을 선호하면서도 DPO 손실을 감소시키는 병리적 수렴으로 이어진다. 본 연구는 이 가정이 위반되는 조건을 특성화하고, 바람직하지 않은 해 공간의 존재를 보여주며, 이러한 경우 DPO와 RLHF가 근본적으로 다른 목적 함수를 최적화함을 증명한다. 이를 해결하기 위해, 증명 가능한 일치를 위한 제약 조건으로 RLHF를 보강하는 제약된 선호 최적화(CPO)를 도입한다. 또한, 소프트 마진 랭킹을 통한 기하학적 해석을 제공하여 DPO가 잠재적으로 음수 목표를 갖는 마진 랭킹을 구현함을 밝힌다. 이론적 분석을 통해 DPO의 보장이 성립하는 조건을 규명하고, 단순성을 유지하면서 증명 가능한 일치를 제공하는 해결책을 제시한다. 표준 벤치마크에 대한 포괄적인 실험을 통해 CPO가 최첨단 성능을 달성함을 입증한다. 코드는 https://github.com/visitworld123/CPO에서 확인할 수 있다.

Mem-π: 생성할 시기와 대상을 학습하는 적응형 메모리
Mem-π: Adaptive Memory through Learning When and What to Generate

May 20

ByXiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

본 논문에서는 대규모 언어 모델(LLM) 에이전트를 위한 적응형 메모리 프레임워크인 Mem-π를 제안한다. Mem-π는 외부 메모리 저장소에서 검색하는 대신, 필요 시 유용한 지침을 생성한다. 기존 메모리 증강 에이전트는 일반적으로 에피소드 기억 저장소나 스킬 라이브러리에서 유사도 기반 검색에 의존하여, 현재 맥락과 종종 정렬되지 않는 정적 항목을 반환한다. 이와 달리 Mem-π는 하류(downstream) 에이전트와 분리된 자체 파라미터를 가진 전용 언어 또는 비전-언어 모델을 사용하여 복잡한 작업에 대한 맥락별 지침을 생성한다. 현재 에이전트 맥락에 조건화된 이 모델은 지침을 생성할 시점과 생성할 내용을 공동으로 결정한다. 우리는 결정-내용 분리 강화 학습(RL) 목표로 이 모델을 훈련하여, 생성이 도움이 되지 않을 때는 생성을 자제하고, 그렇지 않을 때는 간결하고 유용한 지침을 생성하도록 한다. 웹 탐색, 터미널 기반 도구 사용, 텍스트 기반 체화 상호작용을 포괄하는 다양한 에이전트 벤치마크에서 Mem-π는 검색 기반 및 기존 RL 최적화 메모리 기준선을 일관되게 능가하며, 웹 탐색 작업에서 30% 이상의 상대적 개선을 달성하였다.

UniT: 그룹 자기회귀 트랜스포머를 활용한 통합 기하학 학습
UniT: Unified Geometry Learning with Group Autoregressive Transformer

May 20

ByHaotian Wang, Yusong Huang, Zhaonian Kuang, Hongliang Lu, Xinhu Zheng, Meng Yang, Gang Hua

최근 피드포워드 모델들은 센서 관측값으로부터 밀집 3D 구조를 추론하는 기하 인식 분야에서 상당한 발전을 이루었다. 그러나 그 핵심 기능들은 온라인 인식, 오프라인 복원, 다중 모달 통합, 장기 확장성, 미터법 스케일 추정 등 상호 호환되지 않는 여러 패러다임에 걸쳐 분산되어 있다. 본 논문에서는 이러한 이질적인 기능들을 단일 프레임워크 내에서 재구성하는 새로운 Group Autoregressive Transformer에 기반한 통합 모델 UniT를 제안한다. 핵심 아이디어는 센서 관측값 그룹을 기본 자기회귀 단위로 처리하고, 앵커 프리 및 스케일 적응 방식으로 대응하는 포인트 맵을 예측하는 것이다. 구체적으로, 온라인 및 오프라인 환경 모두에서의 다양한 시점 구성은 단일 그룹 자기회귀 과정 내에서 자연스럽게 통합된다. 그룹 크기를 변화시킴으로써, 온라인 모드는 단일 프레임 그룹으로 여러 자기회귀 단계에 걸쳐 작동하는 반면, 오프라인 모드는 단일 순방향 전달에서 다중 프레임 그룹을 집계한다. 동시에 큐 스타일의 KV 캐싱 메커니즘은 장기적인 수평선에 걸쳐 제한된 자기회귀 메모리를 보장한다. 이는 앵커 프리 관계 모델링을 통해 초기 프레임에 대한 장기 의존성을 줄여, 오래된 메모리를 즉시 폐기할 수 있게 함으로써 가능해진다. 장면 간 미터법 스케일 일반화를 개선하기 위해, 이 프레임워크 내에 스케일 적응형 기하 손실 함수가 추가로 도입되었다. 이 손실 함수는 상대적 기하 제약 조건과 부분적인 절대 스케일 항을 결합하여, 전역 스케일을 암시적으로 정규화하고 스케일 불변 기하에서 미터법 스케일 해로의 점진적 전환을 유도한다. 보조 모달리티를 통합하기 위한 전용 모달 어텐션 모듈과 함께, UniT는 7가지 대표 작업에 걸친 10개의 벤치마크에서 검증된 바와 같이 통합 기하 인식에서 최첨단 성능을 달성한다.

SaaSBench: 장기적 엔터프라이즈 SaaS 엔지니어링에서 코딩 에이전트의 경계 탐구
SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

May 17

ByQingnan Ren, Shun Zou, Shiting Huang, Ziao Zhang, Kou Shi, Zhen Fang, Yiming Zhao, Yu Zeng, Qisheng Su, Lin Chen, Yong Wang, Zehui Chen, Xiangxiang Chu, Feng Zhao

자율 코딩 에이전트가 점점 더 장기적인 작업을 처리할 수 있게 되면서, 엔드투엔드 소프트웨어 개발을 완료할 수 있는 잠재력을 점차 입증해 왔다. 기존 벤치마크는 최근 국소적 코드 편집에서 처음부터 프로젝트를 생성하는 방식으로 진화했지만, 여전히 구조적으로 단순화된 단일 스택 애플리케이션에 국한되어 있다. 결과적으로 실제 기업용 소프트웨어 서비스(SaaS) 시스템의 이질적 환경, 풀스택 오케스트레이션, 시스템 수준 복잡성을 포착하지 못하여, 현실적인 엔지니어링 제약 조건에서 에이전트를 평가하는 데 중요한 격차를 남기고 있다. 이러한 격차를 해소하기 위해, 우리는 기업 SaaS 엔지니어링에서 AI 에이전트의 경계를 탐색하도록 설계된 최초의 벤치마크인 SaaSBench를 소개한다. SaaSBench는 6개의 SaaS 도메인에 걸친 30개의 복잡한 작업과 5,370개의 검증 노드로 구성되며, 8개의 프로그래밍 언어, 6개의 데이터베이스, 13개의 프레임워크를 통합하여 실제 소프트웨어 이질성을 세심하게 반영한다. 또한, 장기적 지평과 다중 구성 요소 결합을 특징으로 하는 복잡한 시스템에 맞춰 설계된 의존성 인식 하이브리드 평가 패러다임을 고안하여, 세분화되고 재현 가능한 평가를 가능하게 한다. 결정적으로, 광범위한 실험을 통해 주목할 만한 통찰을 발견했다: 최첨단 에이전트의 주요 병목은 고립된 코드 로직을 생성하는 것이 아니라, 다중 구성 요소 시스템을 성공적으로 구성하고 통합하는 데 있다. 작업 실패의 95% 이상이 에이전트가 심층 비즈니스 로직에 도달하기 전에 발생하며, 모델은 종종 과신에 빠져 기초 시스템 설정 중에 조기에 중단하거나 비효율적인 디버깅 루프에 갇힌다. 우리는 SaaSBench가 신뢰할 수 있는 시스템 수준 코딩 에이전트의 진화를 촉진하는 실용적이고 도전적인 테스트베드가 되기를 기대한다. 코드는 https://github.com/ShadeCloak/SaaSbench에서 확인할 수 있다.

PlanningBench: 대규모 언어 모델 평가 및 훈련을 위한 확장 가능하고 검증 가능한 계획 데이터 생성
PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

May 20

ByZiliang Zhao, Zenan Xu, Shuting Wang, Hongjin Qian, Yan Lei, Minda Hu, Zhao Wang, Shihan Dou, Zhicheng Dou, Pluto Zhou

계획 수립(planning)은 대규모 언어 모델(LLM)에게 필수적인 능력이다. 이는 복잡한 작업을 수행할 때 모델이 목표, 제약 조건, 자원 및 장기적 결과를 조정하여 실행 가능하고 검증 가능한 해결책을 도출해야 하기 때문이다. 그러나 기존의 계획 수립 벤치마크는 일반적으로 계획 데이터를 통제 가능한 생성 대상이 아닌 고정된 사례 모음으로 취급한다. 이는 시나리오의 범위를 제한하고, 난이도를 구조적 원인이 아닌 표면적 근거에 연결하며, 확장 가능한 생성, 자동 검증, 또는 계획 중심 학습을 위한 지원이 부족하다. 본 연구에서는 평가와 학습 모두를 위해 확장 가능하고 다양하며 검증 가능한 계획 데이터를 생성하는 프레임워크인 PlanningBench를 소개한다. PlanningBench는 실제 계획 시나리오에서 출발하여 실무적 워크플로를 30개 이상의 작업 유형, 하위 작업, 제약 조건군 및 난이도 요인으로 구성된 구조화된 분류 체계로 추상화한다. 이 분류 체계를 바탕으로, 제약 조건 기반 합성 파이프라인은 적응형 난이도 조절, 품질 필터링 및 인스턴스 수준의 검증 체크리스트를 통해 독립적인 계획 문제를 생성한다. 이를 통해 계획 데이터 구축을 고정된 벤치마크 수집에서 통제 가능한 생성으로 전환하면서도 현실적인 작업 기반을 유지한다. PlanningBench를 사용하여 오픈소스 및 폐쇄형 최첨단 LLM을 평가한 결과, 현재 모델들은 결합된 제약 조건 하에서 완전한 해결책을 생성하는 데 여전히 어려움을 겪는 것으로 나타났다. 평가 외에도, 검증된 PlanningBench 데이터에 대한 강화 학습은 보지 못한 계획 벤치마크와 더 광범위한 명령 수행 작업에서 성능을 향상시킨다. 추가 분석에 따르면, 결정적이거나 명확하게 지정된 최적 해결책은 더 명확한 보상 신호와 더 안정적인 학습 동역학을 제공한다. 종합하면, PlanningBench는 LLM의 일반화 가능한 계획 능력을 진단하고 개선하기 위한 통제 가능한 계획 데이터 소스를 제공한다.

안전 정렬을 지속적 학습으로: 직교 기울기 투영을 통한 정렬 비용 완화
Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

May 12

ByGuanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su, Yi Zhong

안전성 후속 학습은 대규모 언어 모델(LLM)의 유해성 감소와 정책 준수성을 향상시킬 수 있지만, 동시에 일반적인 유용성을 저하시킬 수 있으며, 이 현상은 종종 정렬 비용(alignment tax)으로 설명됩니다. 우리는 이 상충 관계를 지속적 학습(continual learning)의 관점에서 연구합니다: 연속적인 정렬 단계는 모델을 변화된 데이터 분포와 목표에 노출시키며, 이들의 기울기는 이전에 획득한 일반 능력을 뒷받침하는 방향과 간섭할 수 있습니다. 이 관점은 모든 정렬 저하가 단일 원인에 기인한다고 주장하지 않으며, 오히려 능력 회귀의 한 중요한 원인을 완화하기 위한 유용한 일차 메커니즘을 제공합니다. 우리는 안전 정렬을 위한 직교 기울기 투영(Orthogonal Gradient Projection for Safety Alignment, OGPSA)이라는 경량 업데이트 규칙을 제안합니다. 이는 소량의 일반 능력 데이터에 대한 기울기로부터 저차원 참조 부분공간을 추정하고, 각 안전 기울기에서 이 부분공간에 속하는 성분을 제거합니다. 결과적으로 얻어지는 업데이트는 참조 목표에 대한 일차 보존 제약 조건 하에서 가장 가파른 국소 안전 하강 방향입니다. OGPSA는 표준 후속 학습 파이프라인과 호환되며 대규모 재생을 피하지만, 주기적인 참조 기울기 계산을 도입합니다. 지도 학습 미세 조정(SFT), 직접 선호 최적화(DPO), 그리고 순차적 SFT→DPO 설정에서 OGPSA는 표준 기준선 대비 관찰된 안전성-유용성 상충 관계를 개선합니다. 순차적 SFT→DPO 파이프라인에서 Qwen2.5-7B-Instruct의 평균 성능 향상은 33.98%에서 42.74%로, Llama3.1-8B-Instruct의 경우 19.74%에서 32.98%로 증가했습니다. 우리는 코드를 https://github.com/SunGL001/OGPSA에서 오픈소스로 공개했습니다.

러닝 바이 와이어 훈련 제어 거버넌스: 안정성과 효율성을 위한 스트레스 하의 제한적 자율 훈련
Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

May 18

ByAnis Radianis

현대 언어 모델 훈련은 높은 학습률, 확장 조건, 런타임 스트레스 환경에서 점점 더 불안정성, 성능 저하, 연산 자원 낭비에 노출되고 있다. 본 논문은 LBW-Guard(Learn-by-Wire Guard)를 제안하며, 이는 AdamW 위에서 동작하는 제한적 자율 훈련 제어 거버넌스 계층이다. LBW-Guard는 최적화기 업데이트 규칙을 대체하지 않고, 훈련 원격 측정 데이터를 관찰하고 불안정성에 민감한 영역을 해석하며, 고정된 훈련 목표를 유지하면서 최적화기 실행에 제한적 제어를 적용한다. LBW-Guard는 Qwen2.5를 중심으로 한 스트레스 및 견고성 평가 스위트에서 평가되었으며, WikiText-103 데이터셋을 사용하고 Qwen2.5-7B를 실증적 기준 모델로 삼았다. Qwen2.5-3B 및 Qwen2.5-14B와의 모델 크기 비교, 학습률 스트레스 테스트, 기울기 클리핑 기준선, LoRA를 사용하지 않은 TinyLlama-1B 전체 파라미터 정상 작동 점검을 수행하였다. 7B 기준 설정에서 LBW-Guard는 최종 퍼플렉서티를 13.21에서 10.74로 18.7% 개선했으며, 전체 소요 시간을 392.54초에서 357.02초로 1.10배 단축시켰다. 더 강한 학습률 스트레스 조건에서 AdamW는 LR=3e-3에서 최종 퍼플렉서티 1885.24, LR=1e-3에서 659.76으로 성능이 저하된 반면, LBW-Guard는 각각 11.57과 10.33으로 훈련 가능한 상태를 유지했다. 기울기 클리핑 기준선은 이러한 효과를 재현하지 못했다. 이러한 결과는 안정성에 민감한 LLM 훈련이 최적화기 상위의 관리 평면으로부터 이점을 얻을 수 있다는 범위 내 시스템 결론을 지지한다. LBW-Guard는 최적화기 대체 및 국소 기울기 억제와 구별되면서, 스트레스 조건에서 생산적 연산을 보존할 수 있는 제한적 런타임 제어의 증거를 제공한다.

바이트 수준 시뮬레이션을 통한 언어 모델 훈련에서 하위 단어 토큰화 이점의 분리
Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

May 14

ByThéo Gigant, Bowen Peng, Jeffrey Quesnelle

서브워드 토크나이제이션은 현대의 대규모 언어 모델(LLM)에서 필수적인 부분이지만, 학습 효율성과 모델 성능에 대한 구체적인 기여도는 여전히 잘 이해되지 않고 있다. 본 연구에서는 통제된 바이트 수준 사전 학습 파이프라인 내에서 서브워드 토큰화의 효과를 분리하여 고찰한다. 우리는 샘플 처리량, 어휘 확장, 서브워드 경계의 언어적 사전 정보 등 다양한 차원에 걸쳐 가설을 수립하고 검증한다. 이러한 효과를 바이트 수준 설정에서 시뮬레이션함으로써 서브워드 모델이 원시 바이트 모델보다 우수한 이유에 대한 이해를 정교화하고, 향후 바이트 수준 및 서브워드 모델의 사전 학습을 개선하기 위한 통찰력을 제공한다. 구체적으로, 실험 결과는 증가된 학습 처리량의 중요한 역할과 서브워드 경계를 명시적 사전 정보나 귀납적 편향으로 통합하는 것의 중요성을 강조한다.

TIDE: I/O 인식 전문가 오프로드를 통한 효율적이고 손실 없는 MoE Diffusion LLM 추론
TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

May 19

ByZhiben Chen, Youpeng Zhao, Yang Sui, Jun Wang, Yuzhang Shang

확산 대규모 언어 모델(dLLM)은 자기회귀(AR) 모델의 경쟁적 대안으로 부상했으며, 병렬 블록 수준 디코딩을 통해 더 나은 하드웨어 활용과 양방향 컨텍스트를 제공한다. 그러나 dLLM이 혼합 전문가(MoE) 구조로 확장됨에 따라, 자원이 제한된 장치에서의 배치는 여전히 해결되지 않은 과제로 남아 있다. 기존 AR 기반 방법은 종종 과도한 I/O 오버헤드나 심각한 연산 병목 현상을 초래한다. 본 연구에서는 블록 내 확산 과정 중 전문가 활성화의 시간적 안정성을 활용하는 새로운 자원 효율적 추론 시스템인 TIDE를 제안한다. 구체적으로, 블록 내 확산 과정 중 전문가 활성화의 시간적 안정성을 활용하고, I/O를 고려한 방식으로 전문가 배치를 갱신하는 간격 기반 전문가 갱신 전략을 도입한다. 최적의 성능을 보장하기 위해 추론 스케줄링을 수학적 프로그래밍 문제로 공식화하고, I/O 트래픽과 CPU 연산을 최소화하는 최적의 간격을 도출한다. 가장 중요하게도, TIDE는 모델 훈련이 필요 없는 무손실 최적화로, dLLM 추론에 '공짜 점심' 가속을 제공한다. 단일 GPU-CPU 시스템에서 TIDE는 LLaDA2.0-mini와 LLaDA2.0-flash 모델에 대해 기존 기준선 대비 각각 최대 1.4배 및 1.5배의 처리량 향상을 달성함을 입증한다.

iTryOn: 공간-의미적 안내를 통한 대화형 비디오 가상 착용의 마스터링
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

May 20

ByJun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang

비디오 가상 피팅(VVT)은 동영상 속 인물의 의상을 새로운 옷으로 매끄럽게 대체하는 것을 목표로 한다. 기존 방법들은 시간적 일관성을 유지하는 데 상당한 진전을 이루었지만, 주로 모델이 단순히 의상을 전시하는 비대화형 시나리오에 국한되어 있다. 이러한 한계는 실제 의상 전시의 핵심적인 측면인 능동적인 인간-의복 상호작용을 간과한다. 이러한 격차를 해소하기 위해, 우리는 동영상 속 대상이 의복과 적극적으로 상호작용하는 새로운 도전적 과제인 인터랙티브 비디오 가상 피팅(Interactive VVT)을 소개하고 공식화한다. 이 과제는 단순한 질감 보존을 넘어 다음과 같은 독특한 도전 과제를 제기한다: (1) 표준 포즈 정보로부터 상호작용의 의미적 모호성 해소, (2) 상호작용 순간이 드물고 짧은 비디오에서 복잡한 의복 변형 학습. 이러한 과제를 해결하기 위해, 우리는 대규모 비디오 확산 트랜스포머를 기반으로 구축된 새로운 프레임워크인 iTryOn을 제안한다. iTryOn은 다중 수준 상호작용 주입 메커니즘을 개척하여 복잡한 동역학 생성을 안내한다. 공간 수준에서는 의복에 무관한 3D 손 사전 정보를 도입하여 손과 의복 간의 정밀한 접촉에 대한 세분화된 안내를 제공함으로써 공간적 모호성을 효과적으로 해결한다. 의미 수준에서는 iTryOn이 전체 맥락을 위한 전역 캡션과 국소적 상호작용을 위한 시간 스탬프가 찍힌 동작 캡션을 활용하며, 이는 새로운 동작 인식 회전 위치 임베딩(A-RoPE)을 통해 동기화된다. 광범위한 실험을 통해 iTryOn이 기존 VVT 벤치마크에서 최첨단 성능을 달성할 뿐만 아니라 새로운 인터랙티브 설정에서도 확고한 우위를 확립하여, 보다 역동적이고 제어 가능한 가상 피팅 경험을 향한 중요한 진전을 이루었음을 입증한다.

대규모 시각-언어 모델에서 흉부 X-ray 추론을 위한 시각적 귀속 재고
Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models

May 19

ByGuangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang

대규모 시각-언어 모델(LVLM)은 의료 애플리케이션에서 가능성을 보여주지만, 응답을 시각적 증거에 충실하게 근거하지 못하는 점은 임상적 신뢰성에 대한 심각한 우려를 제기한다. 시각적 귀인 방법이 LVLM 예측을 설명하는 데 널리 사용되지만, 모델 내부 추론에 대한 실제 정답 주석이 일반적으로 제공되지 않기 때문에 이러한 설명이 실제로 모델의 결정에 기반이 되는 시각적 증거를 반영하는지 여부는 대부분 검증되지 않은 상태이다. 우리는 흉부 X선(CXR) 추론에 대해 이 질문을 다루기 위해, 전문가가 주석을 단 영역이 반사실적 편집을 통해 모델 예측에 인과적 책임이 있는 것으로 검증된 CXR-VQA 샘플만 유지하는 인과 평가 프레임워크를 개발한다. 이 프레임워크를 11개의 귀인 방법, 6개의 오픈소스 LVLM, 그리고 두 가지 출력 모드(직접 답변과 단계적 추론)에 걸쳐 적용한 결과, 기존 귀인 방법은 LVLM이 사용하는 증거를 식별하는 데 종종 실패함을 발견했다. 이러한 실패를 해결하기 위해 우리는 MedFocus를 제안한다. 이는 불균형 최적 수송을 통해 임상적으로 의미 있는 해부학적 영역을 위치화하고, 표적 개입을 통해 모델 출력에 대한 이들의 인과 효과를 측정하는 개념 기반 귀인 방법이다. MedFocus는 공간적, 개념 수준, 토큰 수준 귀인을 생성하며, 기존 방법들을 크게 능가하여 의료 LVLM을 위한 보다 신뢰할 수 있는 귀인으로 한 걸음 나아간다. 우리의 데이터와 코드는 https://github.com/gzxiong/medfocus/에서 확인할 수 있다.

DrawMotion: 프리핸드 드로잉을 통한 3D 인간 동작 생성
DrawMotion: Generating 3D Human Motions by Freehand Drawing

May 20

ByTao Wang, Lei Jin, Zhihua Wu, Qiaozhi He, Jiaming Chu, Yu Cheng, Junliang Xing, Jian Zhao, Shuicheng Yan, Li Wang

텍스트-동작 생성은 텍스트 설명을 인간 동작으로 변환하는 작업으로, 사용자가 자신의 의도한 동작을 텍스트만으로 정확히 전달하는 데 어려움을 겪는 문제에 직면한다. 이 문제를 해결하기 위해 본 논문은 다중 조건 시나리오를 위해 설계된 효율적인 확산 기반 프레임워크인 DrawMotion을 소개한다. DrawMotion은 기존의 텍스트 조건과 새로운 손그림 조건을 기반으로 동작을 생성하며, 이 두 조건은 생성된 동작에 대해 각각 의미적 제어와 공간적 제어를 제공한다. 구체적으로, 우리는 세 가지 관점에서 세밀한 동작 생성 작업을 다룬다: 1) 자유 손그림 조건. 사용자의 번거로운 텍스트 입력 없이 의도된 동작을 정확히 포착하기 위해, 다양한 데이터셋 형식에 걸쳐 손으로 그린 막대기 인간 스케치를 자동으로 생성하는 알고리즘을 개발한다; 2) 다중 조건 융합. 확산 과정에 통합되는 다중 조건 모듈(MCM)을 제안하여, 기존 접근법에 비해 계산 복잡성을 줄이면서 모델이 가능한 모든 조건 조합을 활용할 수 있도록 한다; 3) 학습 없는 안내. 주목할 점은 DrawMotion의 MCM이 중간 특성들이 연속적인 공간에 존재하도록 보장하여, 분류기 안내 그래디언트가 특성들을 업데이트할 수 있게 함으로써 생성된 동작이 충실도를 유지하면서 사용자 의도와 일치하도록 한다는 것이다. 정량적 실험과 사용자 연구는 자유 손그림 접근법이 사용자가 상상에 부합하는 동작을 생성할 때 약 46.7%의 시간을 절약함을 보여준다. 코드, 데모 및 관련 데이터는 https://github.com/InvertedForest/DrawMotion에서 공개적으로 이용 가능하다.

증거 보정 쿼리 클러스터링을 통한 LLM 역량 포착
Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

May 16

ByFangzhou Wu, Sandeep Silwal, Qiuyi Zhang

쿼리 클러스터링은 공유된 잠재 능력 요구를 반영하는 그룹으로 쿼리를 조직화하여, 능력 인식형 LLM 평가를 가능하게 한다. 기존의 클러스터링 방법들은 주로 의미론적 분류체계나 임베딩에 의존하며, 표면 수준의 의미와 실제 모델 성능 간의 불일치로 인해 이러한 잠재 능력 요구를 포착하지 못하는 경우가 많다. 본 논문에서는 ECC 알고리즘을 제안한다. 이는 제한된 사후 모델 비교를 통해 사전 의미 임베딩을 보정하여, 표면 수준 의미와 잠재 능력 요구 간의 간극을 메운다. ECC는 각 클러스터를 브래들리-테리 모델로 매개변수화된 능력 프로파일을 통해 특성화하고, 훈련 가능한 혼합 가중치를 활용하여 혼합된 능력 요구를 가진 쿼리를 수용함으로써, LLM 능력의 쿼리별 추론을 지원하는 유연하고 능력 인식형 클러스터링 구조를 공동으로 학습한다. 광범위한 정량적 및 정성적 평가 결과, ECC는 LLM 능력 순위 평가의 질을 크게 향상시켜, 인간 레이블 기반 및 임베딩 기반 기준선 대비 각각 평균 17.64퍼센트 포인트와 18.02퍼센트 포인트의 성능 향상을 보였으며, 쿼리 라우팅과 같은 하위 작업에서도 효과적임을 입증하였다.

폴드 속에서 길을 잃다: 교차 검증이 불확실성 추정을 위한 딥 앙상블이 아닌 경우
Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation

May 18

ByKirscher Tristan, Bujotzek Markus, Kirchhoff Yannick, Rokuss Maximilian, Isensee Fabian, Kahl Kim-Celine, Kovacs Balint, Maier-Hein Klaus

앙상블 불일치는 의료 영상 분할에서 인식적 불확실성의 대리 지표로 널리 사용된다. 실제로 많은 연구에서 K-겹 교차 검증(CV)을 통해 앙상블을 구성하면서도 이를 "심층 앙상블(DE)"이라고 지칭한다. CV 구성원은 서로 다른 데이터 하위 집합에서 학습되므로, 이들의 불일치는 시드 기반 변동성과 데이터 노출 효과를 혼합하게 되어 불확실성 해석 방식이 달라질 수 있다. 우리는 최근 분할 불확실성 연구들을 조사한 결과, 용어와 구현 간 불일치가 흔하다는 점을 발견했다. 이후 세 가지 모달리티에 걸친 세 개의 다중 평가자 분할 데이터셋에서 동일한 설정(고정 학습 세트, 서로 다른 난수 시드) 하에 표준 5겹 CV 앙상블과 5개 구성원 DE를 비교했다. 보정, 실패 탐지, 모호성 모델링, 분포 변화 하에서의 강건성 측면에서 불확실성을 평가했다. DE는 분할 정확도를 유지하면서 보정 및 실패 탐지를 개선한 반면, CV 앙상블은 연구된 데이터셋에서 평가자 간 변동성과 더 강한 상관관계를 보이는 경우가 있었다. 따라서 앙상블 구축은 연구 질문에 맞게 선택되어야 한다: 신뢰성 중심 사용(예: 선별적 의뢰/실패 탐지)을 위해서는 DE를, 모호성의 대리 지표로는 CV 앙상블을 사용한다. 우리는 기본 파이프라인 내에서 DE 학습을 가능하게 하는 경량 nnU-Net 수정본을 제공한다.

DynMuon: 뮤온의 동적 스펙트럼 형성 관점
DynMuon: A Dynamic Spectral Shaping View of Muon

May 16

ByFangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang

최근 몇 년 동안, Muon은 대규모 언어 모델과 더 넓게는 트랜스포머를 훈련하는 주요 방법으로 부상했다. 표준 경사 하강법과 비교할 때 핵심적인 차이점은 기존 업데이트 행렬 M=UΣV^⊤를 그 극 인자(polar factor) UV^⊤로 대체하는 데 있다. 본 연구에서는 일부 매개변수 p에 대해 업데이트 M을 UΣ^p V^⊤로 대체하는 Muon 유사 업데이트의 부류를 고려한다. 이를 '스펙트럼 조정(spectral-shaping)' 연산이라 부르며, (a) 손실 함수의 국소 곡률, (b) 확률적 그래디언트 및 레이블 노이즈로 인한 잡음, (c) 훈련 단계에 의존하는 p 선택 방법에 대한 이론을 개발한다. 이론과 실험을 통해 이전에 간과되었던 행동을 밝혀낸다. 양의 p는 높은 곡률 방향을 강조하고 신호 수축을 가속화함으로써 초기 단계에 도움이 되는 반면, 약간 음의 p는 여전히 유용한 훈련 신호를 포함하는 낮은 곡률 방향으로 업데이트 강도를 재분배함으로써 후기 단계에 도움이 된다. 이러한 통찰을 바탕으로, 훈련 과정에서 p를 양수에서 약간 음수로 스케줄링하는 효율적인 동적 스펙트럼 조정 방법인 DynMuon을 제안한다. 모델 크기, 아키텍처 및 훈련 설정 전반에 걸친 광범위한 실험 결과, DynMuon이 Muon보다 일관되게 더 낮은 검증 손실을 달성하면서 동일한 목표 손실에 도달하는 데 필요한 스텝 수가 10.6~26.5% 적다는 것을 보여준다.