HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

53 papers found

오디오 상호작용 모델
Audio Interaction Model

Jun 3

ByZhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin, Deheng Ye, Shuicheng Yan, Chunyan Miao

오디오는 본질적으로 상호작용적인 양식이지만, 오늘날의 대규모 오디오 언어 모델(LALM)은 오프라인 방식이며, 스트리밍 오디오 모델은 각각 스트리밍 음성 인식(ASR)이나 음성 채팅과 같은 단일 작업만 처리합니다. 이제 이를 하나의 온라인 LALM으로 통합할 때입니다. 즉, 항상 켜져 있는 인지-결정-응답 루프를 통해 소리, 환경 및 지시를 실시간으로 듣고 즉시 반응하는 모델입니다. 우리는 이 방식을 오디오 상호작용 모델(Audio Interaction Model)로 정형화하고, 이를 Audio-Interaction으로 구현합니다. 이는 통합 스트리밍 모델로, 오프라인 작업 실행을 유지하면서 대화부터 전체 음성 채팅에 이르는 일반 온라인 오디오 지시 수행과 스트림의 의미론에 기반한 응답 시점 결정을 추가합니다. 이를 가능하게 하기 위해 우리는 SoundFlow 프레임워크를 제안합니다. 이 프레임워크는 데이터에서 훈련, 배포에 이르기까지 인지-결정-응답 루프를 종단 간 구현하며, 스트리밍에 최적화된 데이터 구축, 이해 기반 훈련, 안정적인 실시간 상호작용을 위한 비동기 저지연 추론을 포함합니다. 또한 7가지 기본 능력과 28개의 하위 작업을 포괄하는 260만 개 항목의 스트리밍 코퍼스인 StreamAudio-2M과 능동적 오디오 개입을 평가하기 위한 Proactive-Sound-Bench를 구축합니다. 8개의 벤치마크에서 Audio-Interaction은 주류 오디오 작업에서 경쟁력 있는 성능을 유지하면서, 오프라인 LALM이 접근할 수 없는 실시간 ASR, 스트리밍 오디오 지시 수행, 능동적 도움 제공 등의 기능을 개방합니다.

Cosmos 3: 물리적 AI를 위한 옴니모달 세계 모델
Cosmos 3: Omnimodal World Models for Physical AI

Jun 1

ByAditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai, Tiffany Cai, Eric Cameracci, Jiaxin Cao, Yulong Cao, Mark Carlson, Carlos Casanova, Ting-Yun Chang, Yan Chang, Yu-Wei Chao, Prithvijit Chattopadhyay, Roshan Chaudhari, Chieh-Yun Chen, Junyu Chen, Ke Chen, Qizhi Chen, Wenkai Chen, Xiaotong Chen, Yu Chen, An-Chieh Cheng, Click Cheng, Xiu Chia, Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova, Aleksandr Efitorov, Hamid Eghbalzadeh, Naomi Eigbe, Imad El Hanafi, Hassan Eslami, Benedikt Falk, Jiaojiao Fan, Jim Fan, Amol Fasale, Sergiy Fefilatyev, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Vikram Fugro, Prashant Gaikwad, TJ Galda, Katelyn Gao, Yihuai Gao, Wenhang Ge, Sreyan Ghosh, Arushi Goel, Vivek Goel, Akash Gokul, Rama Govindaraju, Jinwei Gu, Miguel Guerrero, Elfie Guo, Aryaman Gupta, Siddharth Gururani, Hugo Hadfield, Song Han, Ankur Handa, Zekun Hao, Mohammad Harrim, Ali Hassani, Nathan Hayes-Roth, Yufan He, Chris Helvig, Cyrus Hogg, Madison Huang, Michael Huang, Sophia Huang, Yufan Huang, Jacob Huffman, DeLesley Hutchins, Suneel Indupuru, Boris Ivanovic, Arihant Jain, Joel Jang, Ryan Ji, Yanan Jian, Dongfu Jiang, Jingyi Jin, Atharva Joshi, Nikhilesh Joshi, Pranjali Joshi, Jaehun Jung, Weiwei Kang, Scott Kassekert, Jan Kautz, Ashna Khetan, Julia Kiczka, Slawek Kierat, Gwanghyun Kim, Kuno Kim, Sunny Kim, Kezhi Kong, Xin Kong, Zhifeng Kong, Tomasz Kornuta, Egor Krivov, Hui Kuang, Saurav Kumar, Chia-Wen Kuo, George Kurian, Wojciech Kutak, JF Lafleche, Himangshu Lahkar, Omar Laymoun, Jayjun Lee, Sanggil Lee, Gabriele Leone, Boyi Li, Freya Li, Jiajun Li, Jinfeng Li, Ling Li, Pengcheng Li, Shangru Li, Tingle Li, Xiaolong Li, Xuan Li, Zhaoshuo Li, Zhiqi Li, Hao Liang, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Ming-Yu Liu, Sifei Liu, Zihan Liu, Hai Loc Lu, Xiangyu Lu, Alice Luo, Ruipu Luo, Wenjie Luo, Jiangran Lyu, Martin Ding Ma, Nic Ma, Qianli Ma, Dawid Majchrowski, Louis Marcoux, Miguel Martin, Qing Miao, Ashkan Mirzaei, Shreyas Misra, Kaichun Mo, Durra Mohsin, Hyejin Moon, Pawel Morkisz, Saeid Motiian, Kirill Motkov, Seungjun Nah, Yashraj Narang, Deepak Narayanan, Thabang Ngazimbi, Julian Ouyang, David Page, Yatian Pang, Sehwi Park, Mahesh Patekar, Mostofa Patwary, Marco Pavone, Trung Pham, Wei Ping, Soha Pouya, Shrimai Prabhumoye, Varun Praveen, Delin Qu, Hesam Rabeti, Morteza Ramezanali, Marilyn Reeb, Xuanchi Ren, Kristen Rumley, Wojciech Rymer, Jun Saito, Yeongho Seol, John Shao, Piyush Shekdar, Tianwei Shen, Humphrey Shi, Min Shi, Stella Shi, Kevin Shih, Mohammad Shoeybi, Mateusz Sieniawski, Shuran Song, Alexander Sotelo, Amir Sotoodeh, Sunil Srinivasa, Vignesh Srinivasakumar, Bartosz Stefaniak, Rahul Heinrich Steiger, Shangkun Sun, Jiaxiang Tang, Shitao Tang, Yangyang Tang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, Boxiang Wang, Haoxiang Wang, Qiao Wang, Shihao Wang, Shijie Wang, Ting-Chun Wang, Yan Wang, Yu Wang, David Wehr, Fangyin Wei, Xinshuo Weng, Jay Zhangjie Wu, Kedi Wu, Hongchi Xia, Summer Xiao, Tianjun Xiao, Kevin Xie, Daguang Xu, Jiashu Xu, Mengyao Xu, Ruqing Xu, Xingqian Xu, Yao Xu, Dinghao Yang, Dong Yang, Hans Yang, Xiaodong Yang, Xuning Yang, Yichu Yang, Yurong You, Zhiding Yu, Hao Yuan, Simon Yuen, Xiaohui Zeng, Pengcuo Zeren, Cindy Zha, Haotian Zhang, Jenny Zhang, Jing Zhang, Liangkai Zhang, Paris Zhang, Shun Zhang, Xuanmeng Zhang, Zhizheng Zhang, Ann Zhao, Yilin Zhao, Yuliya Zhautouskaya, Charles Zhou, Fengzhe Zhou, Shilin Zhu, Yuke Zhu, Dima Zhylko, Artur Zolkowski

**Cosmos 3 소개** Cosmos 3는 통합된 혼합 트랜스포머 아키텍처 내에서 언어, 이미지, 비디오, 오디오 및 행동 시퀀스를 공동으로 처리하고 생성하도록 설계된 옴니모달 세계 모델 제품군입니다. 매우 유연한 입출력 구성을 지원함으로써, Cosmos 3는 물리적 AI(Physical AI)에 중요한 핵심 양식을 원활하게 통합하여, 비전-언어 모델, 비디오 생성기, 세계 시뮬레이터 및 세계-행동 모델을 단일 프레임워크로 효과적으로 포괄합니다. 본 평가 결과, Cosmos 3는 다양한 이해 및 생성 작업에서 새로운 최고 성능(SOTA)을 달성하여, 옴니모달 세계 모델이 체화된 에이전트를 위한 확장 가능한 범용 백본(backbone)임을 입증합니다. 본 기술 보고서 작성 당시, 사후 훈련된(post-trained) Cosmos 3 모델은 Artificial Analysis에서 최고의 오픈소스 텍스트-이미지(Text-to-Image) 및 이미지-비디오(Image-to-Video) 모델로 선정되었으며, RoboArena에서는 최고의 정책 모델로 평가되었습니다. 물리적 AI 분야의 개방형 연구와 배포를 가속화하기 위해, 저희는 코드, 모델 체크포인트, 큐레이션된 합성 데이터셋 및 평가 벤치마크를 Linux Foundation의 OpenMDW-1.1 라이선스(https://openmdw.ai/license/1-1/) 하에 제공합니다. 해당 자료는 https://github.com/nvidia/cosmos 및 https://huggingface.co/collections/nvidia/cosmos3 에서 확인할 수 있으며, 프로젝트 웹사이트는 https://research.nvidia.com/labs/cosmos-lab/cosmos3 에서 이용 가능합니다.

심층 연구 에이전트는 어디에서 실패하는가? 에이전트 궤적 내 스팬 수준 오류 위치 파악
Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

Jun 1

ByJiaming Wang, Ziteng Feng, Jiangtao Wu, Ruihao Li, Qianqian Xie, Yuxiang Ren, He Zhu, Xueming Han, Fanyu Meng, Junlan Feng, Jiaheng Liu

심층 연구 에이전트는 검색, 도구 사용, 증거 검토 및 답변 종합의 긴 궤적을 통해 작업을 해결합니다. 최종 답변에 기반한 평가는 에이전트가 성공했는지 여부는 보여주지만, 궤적의 어떤 부분이 답변을 신뢰할 수 없게 만드는지는 보여주지 않습니다. 우리는 심층 연구 에이전트에 대한 스팬 수준 오류 위치 파악을 연구합니다. 두 가지 에이전트 프레임워크, 세 가지 백본 모델, 세 가지 벤치마크에서 2,790개의 실제 궤적을 수집하고, 원시 로그를 의미적 스팬으로 변환한 후, LLM 지원 전문가 검토를 통해 유해한 오류 스팬을 주석 처리합니다. 이러한 주석을 바탕으로 정상 탐색, 실패한 검색, 잠정적 가설, 무해한 노이즈 중에서 오류 스팬을 식별하기 위한 1,000개 인스턴스 벤치마크인 TELBench를 구축합니다. 또한 에이전트의 주장을 추적하고, 궤적 증거에서 해당 주장의 지지를 확인하며, 지지되지 않거나 상충되는 주장이 답변 경로에 영향을 미치는 스팬을 표시하는 주장 중심 감사 프레임워크인 DRIFT를 제안합니다. 모델 계열 및 감사 프레임워크에 걸친 실험은 DRIFT가 스팬 수준 오류 위치 파악 및 첫 번째 오류 정확도를 최대 30%포인트 향상시킴을 보여줍니다. 우리의 연구는 심층 연구 에이전트의 신뢰성에 대한 프로세스 수준의 관점을 제공합니다.

루브릭 기반 강화 학습에서의 보상 해킹 재현, 분석 및 탐지
Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

Jun 3

ByXuekang Wang, Zhuoyuan Hao, Shuo Hou, Hao Peng, Juanzi Li, Xiaozhi Wang

루브릭 기반 강화 학습(rubric-based RL)은 LLM-심판(LaaJ)을 사용하여 루브릭에 따라 모델 출력을 점수화하고 이를 보상으로 활용한다. 그러나 정책 모델이 심판의 잠재적 편향을 악용하여 보상 해킹(reward hacking)을 유발하고, 이는 비효율적이거나 안전하지 않은 훈련 결과로 이어질 수 있다. 실제 루브릭 기반 강화 학습에서 이러한 해킹 행동은 종종 미묘하게 나타나며 여러 심판 편향과 얽혀 있어 분석, 탐지 및 완화가 어렵다. 본 논문에서는 루브릭 기반 강화 학습을 위한 제어 가능한 해킹 환경인 CHERRL을 소개한다. CHERRL은 LaaJ에 알려진 편향을 주입함으로써 보상 해킹의 안정적인 재현, 보상 발산의 명시적 관찰, 해킹 시작 시점의 정확한 식별을 가능하게 한다. 이를 통해 루브릭 기반 강화 학습에서 보상 해킹의 메커니즘과 완화 방안을 연구하기 위한 깔끔한 실험 테스트베드를 제공한다. 그 유용성을 입증하기 위해 다양한 심판 편향을 발견 가능성과 활용 가능성의 관점에서 분석하고, 훈련 로그에서 보상 해킹 시작 시점을 자동으로 탐지하는 에이전트 기반 시스템을 탐구한다. 코드와 환경은 https://github.com/THUAIS-Lab/CHERRL에서 공개적으로 이용 가능하다.

Qwen-Image-Flash: 객관적 설계를 넘어서
Qwen-Image-Flash: Beyond Objective Design

Jun 2

ByTianhe Wu, Kun Yan, Zikai Zhou, Lihan Jiang, Jiahao Li, Jie Zhang, Kaiyuan Gao, Ningyuan Tang, Shengming Yin, Xiaoyue Chen, Xiao Xu, Yilei Chen, Yuxiang Chen, Yan Shu, Yixian Xu, Yanran Zhang, Zihao Liu, Zhendong Wang, Zekai Zhang, Deqing Li, Liang Peng, Yi Wang, Jingren Zhou, Chenfei Wu

소수 단계 증류는 고급 시각적 생성 모델을 가속화하기 위한 효과적인 전략이 되었으나, 기존 연구는 주로 증류 목적 함수에 집중해 왔다. 본 연구에서는 소수 단계 증류를 보완적 관점에서 재조명하며, 학생 모델의 성능을 결정적으로 좌우하는 훈련 레시피에 초점을 맞춘다. Qwen-Image-2.0을 대표 사례로 삼아, 통합 텍스트-이미지 생성 및 명령 기반 이미지 편집 증류에서 세 가지 요소, 즉 데이터 구성, 교사 안내, 작업 혼합을 체계적으로 조사한다. 실증 분석 결과, 직관적이지 않은 여러 행동 양상이 드러났으며, 이는 Qwen-Image-Flash 개발의 동기가 되었다. 전반적으로, 본 연구의 결과는 효과적인 소수 단계 증류를 위해 신중하게 설계된 목적 함수뿐만 아니라, 더 넓은 훈련 파이프라인의 원칙적인 구성이 필요함을 시사한다.

OVO-S-Bench: 멀티모달 LLM에서의 스트리밍 공간 지능을 위한 계층적 벤치마크
OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

Jun 2

ByYifei Li, Pengyiang Liu, Yuhang Zang, Zhongyue Shi, Qi Fu, Hongye Hao, Jiwen Lu

로보틱스, 증강현실(AR), 자율주행 분야의 멀티모달 에이전트는 연속적인 자아중심 스트림으로부터 장소와 배치를 추론해야 하며, 종종 현재 시야 밖의 증거를 활용한다. 기존 벤치마크는 전체 비디오를 대상으로 오프라인 평가를 수행하거나 사건 자체보다는 공간 구조보다는 사건을 대상으로 한다. 본 연구에서는 스트리밍 공간 지능을 위한 완전히 사람이 주석을 단 벤치마크인 OVO-S-Bench를 소개한다. 이는 348개의 원본 비디오에서 추출한 1,680개의 질문으로 구성된다. 주석 작업은 12명의 훈련된 주석자가 참여했으며, 각 주석자는 맹검 상호 검토자 역할도 수행하여 총 약 804인시(person-hours)에 걸친 다회차 품질 보증 과정을 거쳤다. 각 질문에는 질의 타임스탬프와 증거 구간이 포함되며, 평가 시 모델은 질의 시점 이전의 프리픽스(prefix)만 확인할 수 있다. 질문은 추상화 수준이 증가하는 네 가지 수준, 즉 순간적 자아중심 지각, 시공간 맥락 추적, 공간 시뮬레이션 및 추론, 타자중심(allocentric) 매핑으로 구성된다. 38개의 독점 및 오픈소스 MLLM을 평가한 결과, Gemini-3.1-Pro는 인간 전문가 대비 27점 차이(59.2 대 86.6)를 보였으며, 타자중심 매핑이 주된 병목 지점으로 나타났다. 주목할 점은 스트리밍 및 공간 미세 조정된 MLLM이 자체 백본보다 낮은 성능을 보인다는 것이다. 또한 사고 사슬 추론(chain-of-thought reasoning)은 스트림에 근거하지 않을 경우 공간 오류를 증폭시키는 것으로 확인되었다. 이러한 한계를 드러냄으로써 OVO-S-Bench는 차세대 스트리밍 공간 MLLM을 위한 까다로운 테스트베드를 구축한다.

ThoughtFold: 자기 성찰적 선호 학습을 통한 추론 체인 접기
ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

Jun 2

ByZiyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen

대규모 추론 모델(LRMs)은 연쇄적 사고(CoTs)에 대한 검증 가능한 보상 기반 강화 학습(RLVR) 덕분에 놀라운 진전을 이루었습니다. 그러나 긴 CoTs는 본질적으로 시행착오를 포함하고 있으며, 주류 RLVR 접근법은 결과적으로 올바른 CoT 궤적을 암기하기 위해 선택하기 때문에, 긴 CoTs 내의 중복 탐색이 필연적으로 강화되어 LRMs의 과도한 사고 문제를 초래합니다. 이 문제를 해결하기 위한 이전 시도들은 주로 더 짧은 궤적에 더 많은 이점을 부여하였지만, 그 학습 신호는 여전히 결과 기반이므로 긴 CoTs에서 중복 탐색의 암기를 줄일 수 없습니다. 따라서 우리는 효율적인 추론을 위해 중복 탐색을 완화하는 세분화된 선호 학습을 활용하는 프레임워크인 ThoughtFold를 제안합니다. ThoughtFold는 각 올바른 궤적 내에서 중복성을 식별하기 위해 내성적 전략을 사용하여, 다양한 후보 하위 궤적 스펙트럼을 생성합니다. 이 스펙트럼을 활용하여, 우리는 중복 탐색에 명시적 패널티를 부여하고 모델이 필수 추론 세그먼트를 직접 연결하도록 장려하는 마스킹된 선호 최적화 목표를 도입함으로써, 추론 체인을 효과적으로 더 간결한 경로로 접습니다. 광범위한 실험은 ThoughtFold가 효율성을 크게 향상시킴을 보여줍니다. 이는 DeepSeek-R1-Distill-Qwen-7B의 토큰 사용량을 약 56% 줄이면서 최첨단 정확도를 유지합니다.

M³Eval: 인지 기반 비디오 과제를 통한 다중 모드 기억 평가
M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

Jun 3

ByJie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong

멀티모달 모델이 장기 비디오 이해로 발전함에 따라, 기억은 핵심적인 능력으로 부상하고 있다. 비디오 데이터셋과 벤치마크 개발에 상당한 노력이 투입되었음에도 불구하고, 기존 연구는 주로 지각과 추론에 초점을 맞추고 있으며, 모델이 무엇을 기억하는지, 정보가 얼마나 충실히 보존되는지, 간섭 하에서 기억이 얼마나 견고한지 등 기억을 체계적으로 평가하지 않는다. 이러한 공백을 해소하기 위해, 우리는 M^3Eval을 소개한다. 이는 멀티모달 모델의 다양한 기억 차원을 탐구하기 위한 최초의 포괄적 평가 프레임워크이자 벤치마크이다. 인지 심리학에 기반하여, 우리의 설계는 기억의 주요 측면을 분리해내는 정교하게 구성된 과제들을 특징으로 한다. M^3Eval을 활용하여 대표적인 멀티모달 모델들에 대한 광범위한 실험을 수행한 결과, 일관된 취약점과 독특한 행동 양식이 드러났다. 우리는 모델들이 병렬 비디오 스트림을 처리할 때 분리된 표현을 유지하는 데 어려움을 겪으며, 인간 기억에서 관찰되는 것과는 상당히 다른 간섭 패턴을 보이고, 시간적 영역보다 공간적 영역에서 기억 원천을 더 신뢰성 있게 근거하며, 제한된 상징적 기억을 나타냄을 발견했다. 종합적으로, 우리의 벤치마크는 향후 연구에 valuable한 자원을 제공하며, 우리의 발견은 기억이 아직 충분히 탐구되지 않은 근본적인 능력임을 강조하고, 멀티모달 모델에서 보다 효과적인 기억 메커니즘을 설계하기 위한 통찰력을 제시한다. 코드와 데이터셋은 https://pku-value-lab.github.io/m3eval-homepage 에서 확인할 수 있다.

다중 에이전트 추론에서의 스트리밍 통신
Streaming Communication in Multi-Agent Reasoning

Jun 3

ByZhen Yang, Xiaogang Xu, Wen Wang, Cong Chen, Xander Xu, Ying-Cong Chen

다중 에이전트 추론 시스템은 "생성 후 전송(generate-then-transfer)" 패러다임을 채택하여 종단 간 지연시간이 파이프라인 깊이에 비례하여 선형적으로 증가하도록 강제한다. 우리는 각 추론 단계가 생성되는 즉시 하류 에이전트로 스트리밍하여 인접 에이전트 간 파이프라이닝을 수행함으로써 지연시간을 줄이는 다중 에이전트 추론 시스템인 StreamMA를 제안한다. 놀랍게도, 이 파이프라이닝은 효과성(effectiveness)까지 향상시킨다. 다단계 추론 품질은 균일하지 않으며 초기 단계가 후기 단계보다 더 신뢰할 수 있기 때문에, 전체 체인 대신 이러한 신뢰할 수 있는 초기 단계를 사용하면 오류 발생 가능성이 높은 후기 단계가 하류 에이전트를 오도하는 것을 방지할 수 있다. 우리는 스트림, 직렬, 단일 프로토콜에 대한 최초의 닫힌 형태 결합 분석(closed-form joint analysis)을 통해 두 가지 이점을 공식화하여 효과성 순서, 속도 향상 상한, 비용 비율을 도출한다. 수학, 과학, 코드를 포괄하는 8개의 추론 벤치마크, 두 개의 최첨단 LLM(Claude Opus 4.6 및 GPT-5.4), 그리고 세 가지 토폴로지(체인, 트리, 그래프)에 걸쳐 StreamMA는 두 기준 모델보다 우수한 성능을 보였다(HMMT 2026에서 평균 +7.3%p, 최대 +22.4%p, Claude Opus 4.6-high 기준). 이러한 기여 외에도, 우리는 "단계 수준 스케일링 법칙(step-level scaling law)"을 발견한다. 즉, 에이전트당 단계 수를 증가시키면 효과성과 효율성이 모두 일관되게 향상되며, 이는 에이전트 수 스케일링과 직교하고 조합 가능한 새로운 스케일링 차원이다.

Echo-Infinity: 실시간 무한 비디오 생성을 위한 진화 메모리 학습
Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

Jun 3

ByYuxuan Bian, Zeyue Xue, Songchun Zhang, Shiyi Zhang, Weiyang Jin, Yaowei Li, Junhao Zhuang, Haoran Li, Jie Huang, Haoyang Huang, Nan Duan, Qiang Xu

우리는 Echo Infinity를 제시한다. 이는 학습 가능한 진화 메모리를 활용하여 일정한 비용으로 임의 길이의 과거를 동적으로 필터링, 추상화 및 압축하는 실시간 무한 비디오 생성을 위한 자기회귀(AR) 프레임워크이다. 기존 방법들은 주로 사전 정의된 KV-캐시 스케줄, 고정 비율 휴리스틱 압축, 또는 추론 시 RoPE 적응을 통해 메모리를 관리한다. 이러한 설계는 제한된 캐시 창과 자기회귀 생성 노이즈를 무시함으로써 필연적으로 과거 정보를 손실하고 오류 누적을 증폭시킨다. 인간의 기억 통합에서 영감을 받은 Echo-Infinity는 수작업으로 구성된 메모리 관리를 학습 가능한 메모리 쿼리로 대체하며, 이는 과거 프레임이 로컬 창에서 제거될 때 어텐션과 게이팅 메커니즘에 의해 업데이트된다. 쿼리는 비디오 확산 트랜스포머(DiTs)와 함께 종단간 최적화되어 진화 메모리를 형성하며, 비디오 길이와 무관하게 일정한 계산으로 임의의 압축 비율을 지원한다. 또한 이는 일반화 가능한 생성 사전 역할을 하여, 최적화된 초기 상태만 사용될 때에도 품질을 향상시킨다. 우리는 통합 상대 RoPE 레시피를 추가로 도입하여, 싱크 프레임을 id 0에서 시작하도록 고정하고, 최신 프레임 id가 훈련 및 추론 전반에 걸쳐 DiTs의 사전 훈련된 최대 시간 RoPE id를 초과하지 않도록 함으로써, 모델이 유한한 RoPE 제약에서 벗어나 훈련-테스트 RoPE 외삽 간극을 해소한다. 긴 비디오 및 짧은 비디오 생성에서 Echo-Infinity는 최첨단 성능을 달성하며, 우리가 아는 한 처음으로 24시간(>130만 프레임) 실시간 롤아웃을 입증하여 무한 비디오 생성을 위한 실용적인 경로를 제시한다.

벤치마크만으로는 부족하다: 프로덕션 시스템에서 에이전트 모델의 런타임 평가를 위한 RAMP
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

May 26

ByYipeng Ouyang, Xin Huang, Bingjie Liu, Zhongchun Zheng, Yuhao Gu, Xianwei Zhang

LLM 에이전트는 코딩 어시스턴트에서 자율 소프트웨어 엔지니어링 시스템으로 빠르게 진화하고 있다. 그러나 기존 평가 방법론은 여전히 정적이고 고립된 단기적 벤치마크에 집중되어 있어, 실제 생산 워크플로우의 동적 복잡성을 포착하지 못한다. 그 결과, 벤치마크 성능은 긴 실행 체인, 도구 상호작용, 의존성 관리, 반복적 피드백 루프를 수반하는 실제 런타임 환경에서의 실질적 역량을 제대로 반영하지 못할 수 있다. 이에 우리는 장기적 소프트웨어 엔지니어링 에이전트를 평가하기 위한 생산 기반 인프라인 RAMP를 제시한다. YatCC 통합 플랫폼 위에 구축된 RAMP는 표준화된 오케스트레이션 및 실행 인터페이스를 통해 통합 런타임 평가 아키텍처를 제공한다. RAMP는 직렬 의존성과 복잡한 툴체인 상호작용을 수반하는 실제 컴파일러 구축 워크로드를 도입하며, 부분 워크플로우 실패 시 실행 동작을 분석하기 위한 단계적 복구 메커니즘을 함께 제공한다. 이 프레임워크는 결과 품질과 프로세스 효율성을 공동으로 평가하는 유틸리티 중심의 다차원 지표를 추가로 포함한다. 우리는 15개 주류 모델에 대해 런타임 평가를 수행했으며, 기존의 고립된 벤치마크에서는 거의 드러나지 않는 상당한 능력 저하를 관찰했다. 작업 완료율은 직렬 워크플로우 전반에 걸쳐 점진적으로 감소하여 초기 단계의 100%에서 최종 단계에서는 20%에 불과했으며, 평가된 모델 중 어느 것도 전체 파이프라인을 성공적으로 완료하지 못했다. 런타임 분석 결과 체계적인 실패 전파와 상당한 자원 비효율성이 드러났으며, 유사한 모델 간 계산 비용은 최대 세 자릿수 차이를 보였다. 이러한 발견은 RAMP가 에이전트 모델 평가를 지속적이고, 런타임 관찰 가능하며, 생산 기반 평가로 발전시킨다는 것을 시사한다.

자기 증류 정책 그래디언트
Self-Distilled Policy Gradient

Jun 2

ByYifeng Liu, Shiyuan Zhang, Yifan Zhang, Quanquan Gu

온-정책 자기 증류(on-policy self-distillation)는 언어 모델이 특권 맥락(privileged context)을 조건으로 하여 자신의 생성 결과를 감독하는 방식으로, 희소 보상 강화 학습(sparse-reward reinforcement learning)에 대한 조밀한 감독의 유망한 원천이다. 실제로 이는 보조적인 전체 어휘 학생-교사 역방향 쿨백-라이블러 발산 손실(full-vocabulary student-to-teacher reverse Kullback-Leibler divergence loss)로 구현될 수 있다. 이에 본 연구에서는 SDPG(self-distilled policy-gradient) 프레임워크를 제안한다. SDPG는 그룹 상대 검증기 이점(group-relative verifier advantages)과 정규화된 표준 편차(normalized standard deviation), 정확한 전체 어휘 온-정책 자기 증독, 그리고 참조 정책 KL 정규화(reference-policy KL regularization)를 결합한다. 실험적으로 SDPG는 RLVR 및 자기 증류 기준선(baseline) 대비 안정성과 성능을 향상시킨다. 코드는 https://github.com/lauyikfung/SDPG에서 확인할 수 있다.

MemTrain: 자가지도 컨텍스트 메모리 학습
MemTrain: Self-Supervised Context Memory Training

Jun 2

ByZiheng Li, Xingrun Xing, Haoqing Wang, Zhi-Hong Deng, Yehui Tang

메모리는 장기 지평 LLM 에이전트에게 필수적인 능력으로, 확장된 상호작용을 통해 축적된 정보를 보존하고 활용할 수 있게 한다. 기존의 메모리-에이전트 접근법은 일반적으로 하류 작업에 대해 강화 학습을 통해 엔드-투-엔드로 훈련된다. 그러나 메모리 집약적 시나리오를 위한 고품질 주석 문제를 수집하는 데는 비용이 많이 들고, 결과 훈련 데이터는 일반적인 메모리 행동을 포괄할 만한 충분한 다양성을 갖추지 못하는 경우가 많다. 본 연구에서는 LLM 에이전트의 컨텍스트 메모리 능력을 일반적으로 향상시켜 보다 효과적인 하류 사후 훈련을 가능하게 하는 자기지도 학습 프레임워크인 MemTrain을 제안한다. MemTrain은 레이블이 없는 위키백과 코퍼스에 대해 두 가지 결합된 대리 작업을 도입한다: (1) 엔드-투-엔드 마스크 재구성 목표는 모델이 여러 차례의 메모리 업데이트 후 마스킹된 엔티티를 복구하도록 요구하며, 이는 최종 결과 관점에서 메모리 유지를 장려한다; (2) 중간 메모리 회상 목표는 모델이 중간 메모리 상태를 사용하여 마스킹된 과거 정보를 재구성하도록 요구하며, 상호작용 과정 전반에 걸쳐 충실한 압축과 메모리 완전성을 장려한다. 이 두 목표는 GRPO를 사용하여 공동 최적화된다. 장문 질의응답 및 검색 기반 질의응답 벤치마크에 대한 광범위한 실험 결과, MemTrain은 다양한 모델에 걸쳐 하류 메모리 집약적 추론 성능을 일관되게 향상시키며, 직접적인 작업별 사후 훈련 대비 최대 17.67포인트의 향상을 달성함을 보여준다.

MLLM에서 광역 베이스라인 매칭을 통한 복잡한 공간 추론 유도
Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching

Jun 2

ByHao Zhong, Muzhi Zhu, Shenyan Zeng, Anzhou Li, Cong Chen, Hua Geng, Duochao Shi, Wentao Ye, Tao Lin, Hao Chen, Chunhua Shen

광시야각 정합(WBM)은 기하학적 이해, 시점 변화, 세부 인식 및 가림 추론을 통합해야 하므로, 물리적 환경에 배치된 다중모드 대규모 언어 모델(MLLM)의 공간 추론 능력을 평가하기 위한 까다로운 테스트베드이다. 그러나 현재의 MLLM은 이러한 능력에 대한 체계적인 평가 및 훈련 프레임워크가 부족하다. 본 논문에서는 실내, 실외 및 객체 중심 시나리오에서 시점 변위와 정합 세분성에 따라 계층화된 벤치마크인 ReasonMatch-Bench를 소개하며, 현재의 MLLM이 여전히 세부적인 광시야각 대응에 어려움을 겪고 있음을 보여준다. 어려운 90개 샘플 하위 집합에서 인간 주석자는 84.0 F1을 달성한 반면, 최고의 기존 기준선은 37.2에 그친다. 이러한 격차를 해소하기 위해, RGB-D 비디오 및 SfM 재구성을 포함한 대규모 비디오-3D 코퍼스에서 광시야각 뷰 쌍을 자동으로 추출하여 다양하고 검증 가능한 감독을 생성하는 확장 가능한 데이터 생성 파이프라인을 구축한다. 또한 명시적인 CoT 감독 없이 검증 가능한 보상을 통해 WBM 훈련을 개선하기 위해 이미지 수준 시점 진행(Image-Level Viewpoint Progression)과 점 수준 대응 커리큘럼(Point-Level Correspondence Curriculum)을 결합한 동적 대응 강화 학습(DCRL)을 제안한다. 광범위한 실험을 통해 DCRL이 ReasonMatch-Bench를 크게 개선하고 관련 공간 벤치마크로 전이되며, 여러 벤치마크에서 약간의 성능 향상과 함께 일반적인 시각 이해 성능을 유지함을 보여준다.

MMG2Skill: 에이전트가 실전 가이드를 자기 진화 기술로 증류할 수 있는가?
MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

Jun 1

ByXinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

웹상의 풍부한 절차적 지식은 에이전트가 장기 과제를 해결하는 데 큰 잠재력을 지니고 있다. 그러나 이러한 지식은 종종 멀티모달, 이질적, 노이즈가 많으며, 인간 실행자를 암묵적으로 가정하기 때문에 에이전트가 필요로 하는 스킬로 직접 사용하기 어렵다. 인간 중심 가이드와 에이전트 실행 가능 스킬 간의 격차를 해소하기 위해, 우리는 이 문제를 가이드-스킬 학습으로 공식화한다: 실세계 가이드를 실행 가능한 스킬로 변환하고 에이전트가 관찰 가능한 궤적으로부터 지속적으로 개선하는 것이다. 이 과제에 대한 기존 에이전트의 능력을 평가하기 위해, 우리는 이 문제를 위해 설계된 최초의 벤치마크인 MMG2Skill-Bench를 소개한다. 또한 MMG2Skill을 제안하는데, 이는 가이드를 편집 가능한 스킬로 컴파일하고, 실행 중에 고정된 시각-언어 모델(VLM) 에이전트를 이러한 스킬에 조건화하며, 벤치마크 점수를 사용하지 않고 궤적 수준의 근본 원인 피드백으로부터 스킬을 수정하는 폐쇄 루프 프레임워크이다. 여섯 개의 VLM 백본을 활용한 GUI 제어, 개방형 게임플레이, 전략적 카드 게임 전반에 걸쳐, MMG2Skill은 모든 모델-도메인 설정에서 바닐라 기준 에이전트를 일관되게 능가하며, 백본 간 매크로 평균 향상도가 +12.8~+25.3% 포인트에 달한다. 절제 연구에 따르면, 원시 가이드를 에이전트에 직접 프롬프트로 제공하면 성능이 저하될 수 있으며, 관찰된 개선에는 구조화된 스킬 구성과 궤적 기반 수정이 모두 필요하다. 성공 추론 가능 과제에서는 분석기 기반 조기 중단이 후기 단계의 성능 후퇴를 추가로 방지하며, 성공 신호가 적절히 보정될 경우 시도 횟수의 25%~53%를 절약한다.

MapAgent: 도시 규모 차선 수준 지도 생성을 위한 산업 수준의 에이전트 기반 프레임워크
MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

Jun 3

ByDeguo Xia, Zihan Li, Haochen Zhao, Dong Xie, Yuyao Kong, Xiyan Liu, Jizhou Huang, Mengmeng Yang, Diange Yang

차선 수준 지도는 자율주행 및 차선 수준 내비게이션을 위한 핵심 인프라이나, 수백 개 도시에 걸쳐 표준화된 차선 네트워크를 구축하고 유지하는 데는 여전히 많은 인력이 필요하다. 최근의 엔드투엔드 벡터화 매핑 방법은 센서 데이터로부터 차선의 기하학과 위상 정보를 직접 예측할 수 있지만, 일반적으로 매핑 사양과 교통 규정을 암시적이고 데이터셋에 의존적인 지도 학습 방식으로 처리한다. 또한 복잡한 장면(예: 마모되거나 누락된 표시, 가려짐)에서는 올바른 차선 구성을 시각적 증거만으로 판단하기 어려운 경우가 많아, 사양 위반이 사람의 사후 편집을 필요로 하는 주요 원인이 된다. 본 논문에서는 사양을 준수하는 차선 지도 생성을 위해 벡터화 백본을 보강하는 산업용 에이전트 아키텍처인 MapAgent를 제안한다. MapAgent는 단순히 지도 예측에 에이전트 루프를 추가하는 대신, 백본 인식을 명시적 사양 검증, 제약 조건 인식 추론, 그리고 제한된 검증 기반 Judge-Planner-Worker 루프 하에서의 결정론적 지도 편집과 결합한다. 비전-언어 Judge는 시각적 증거와 초안 벡터를 함께 검사하여 오류를 진단하고, 도구 호출 Planner는 최소한의 수정 편집을 생성한 후 재검증을 수행한다. 도시 규모 생산성에 확장성을 유지하기 위해 MapAgent는 백본 신뢰도가 낮은 타일에만 선택적으로 트리거되어 처리량을 유지하면서 추가 부담을 최소화한다. 실제 데이터셋 실험에서 강력한 프로덕션 기준선 대비 일관된 성능 향상을 보였으며, 특히 복잡하고 긴꼬리(long-tail) 시나리오에서 두드러졌다. 또한 MapAgent는 바이두 지도에 통합되어 전국 360개 이상 도시의 차선 수준 지도 생성을 지원하고, 전체 생산 자동화율을 95% 이상으로 끌어올려 대규모 차선 수준 지도 생성을 위한 실용성과 효과성을 입증했다.

필터링 후 재가중: 온-정책 증류에서 최적화 세분성 재고찰
Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

Jun 1

ByYuying Li, Leqi Zheng, Yongzi Yu, Wenrui Zhou, Xuchang Zhong, Xing Hu, Jing Jin, Huangjie Yuan, Tao Feng

대규모 언어 모델에서의 온정책 증류(On-Policy Distillation, OPD)는 전체 궤적에 대한 KL 감독(full-trace KL supervision)에서 보다 선택적인 훈련 패러다임으로 전환되고 있다. 최근 OPD 방법들은 어떤 궤적(trajectory)을 학습할지, 어떤 토큰이 가장 유용한 정보를 제공하는지, 그리고 어떤 감독 신호가 가장 신뢰할 수 있는지를 선택하는 데 점점 더 초점을 맞추고 있다. 이러한 추세에 착안하여, 본 연구는 OPD의 최적화 세분성(granularity)을 재고하고 궤적 및 토큰 수준에서 감독 신호를 동시에 조정하는 \fireicon\ FiRe-OPD(Filter, then Reweight)를 제안한다. 구체적으로, FiRe-OPD는 먼저 궤적을 필터링하여 품질이 낮은 롤아웃 샘플을 제거한 후, 유지된 궤적 내에서 소프트 재가중(soft reweighting)을 적용하여 정보가 풍부한 토큰을 강조한다. 하드 토큰 선택과 비교하여, FiRe-OPD는 소프트 가중 메커니즘을 활용하여 정보 손실을 효과적으로 완화하고 최적화 안정성을 향상시킴으로써 더 세분화된 OPD 최적화를 달성한다. 우리는 강자에서 약자(strong-to-weak), 단일 교사(single-teacher), 다중 교사(multi-teacher) 설정에서 FiRe-OPD의 효용성을 검증하고, 최근의 토큰 수준 OPD 방법보다 우수함을 입증한다(예: 강자에서 약자 설정에서 AIME 2024에서 +6.25, 다중 교사 설정에서 Miner에서 +18.81). 코드는 https://github.com/YuYingLi0/FiRe-OPD에서 확인할 수 있다.

AAD-1: 단일 단계 자기회귀 비디오 생성을 위한 비대칭 적대적 증류
AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation

Jun 2

ByHaobo Li, Yanhong Zeng, Yunhong Lu, Jiapeng Zhu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yujun Shen, Zhipeng Zhang

본 논문에서는 단일 단계 자기회귀 이미지-비디오 생성을 위한 비대칭 적대적 증류 프레임워크인 AAD-1을 제시한다. 최신 방법들은 적대적 증류를 채택하지만, 움직임 붕괴와 훈련 불안정성으로 인해 정적인 비디오가 생성되는 문제를 겪는다. AAD-1은 아키텍처와 훈련 전략에서의 두 가지 핵심 설계를 통해 이러한 문제를 해결한다. 아키텍처 측면의 주요 통찰은 생성자와 판별자 간의 대칭성을 깨는 것이다. 생성자는 자기회귀 샘플링 능력을 유지하기 위해 인과적 구조를 유지하는 반면, 판별자는 전체 시공간적 맥락에 걸쳐 양방향으로 주목하며 비디오 시퀀스 전체에 대해 단일한 전체적 사실성 점수를 산출한다. 이러한 비대칭적 설계는 판별자가 자기회귀 생성에서 움직임 붕괴를 유발하는 전역적 시간적 실패와 장거리 드리프트를 효과적으로 탐지할 수 있게 한다. 훈련을 안정화하기 위해, 먼저 분포 매칭을 사용하여 안정적인 단일 단계 생성자를 부트스트래핑하는 단계적 전략을 도입한다. 이는 적대적 증류가 시작되기 전에 학생 분포를 교사 분포에 더 가깝게 만드는 워밍업 단계를 제공한다. VBench에 대한 광범위한 실험을 통해 AAD-1이 단일 단계 자기회귀 비디오 생성에서 최첨단 성능을 달성함을 입증한다.

ZipSplat: 더 적은 가우시안, 더 나은 스플랫
ZipSplat: Fewer Gaussians, Better Splats

Jun 3

ByAlexander Veicht, Sunghwan Hong, Dániel Baráth, Marc Pollefeys

피드-포워드 3D 가우시안 스플래팅 방법은 포즈가 있거나 없는 이미지로부터 단일 순방향 패스로 장면을 재구성하지만, 현재 접근법은 입력 픽셀당 하나의 가우시안을 예측하여 표현 예산을 장면 복잡도가 아닌 카메라 해상도에 고정시킨다. 따라서 평평한 벽과 질감이 풍부한 객체는 매우 다른 기하학적 요구에도 불구하고 동일한 수의 가우시안을 생성한다. 우리는 가우시안 배치를 픽셀 그리드에서 분리하는 토큰 기반 피드-포워드 모델인 ZipSplat을 제안한다. 다중 뷰 백본이 조밀한 시각 토큰을 추출하고, k-평균 클러스터링이 이를 간결한 장면 토큰 집합으로 압축한다. 교차 주의와 자기 주의가 이 토큰들을 정제하며, 경량 MLP가 각 토큰을 제약 없는 3D 위치를 가진 가우시안 그룹으로 디코딩한다. 클러스터링이 추론 시 적용되므로, 단일 학습 모델이 재학습 없이 품질-효율성 곡선을 포괄한다. ZipSplat은 실제 포즈나 내부 파라미터 없이 작동하면서도, 픽셀 정렬 방법보다 약 6배 적은 가우시안으로 DL3DV 및 RealEstate10K에서 최고 수준을 달성하며, 최고의 포즈 없는 기준선을 각각 2.1dB 및 1.2dB PSNR에서 능가한다. 또한 제로샷으로 Mip-NeRF360 및 ScanNet++에 일반화되어 모든 비교 가능한 기준선을 능가한다. 우리의 프로젝트 페이지는 https://veichta.com/zipsplat에 있다.

KletterMix: 고품질 독일어 사전학습 데이터를 향한 등반
KletterMix: Climbing Toward High-Quality German Pretraining Data

Jun 2

ByMaurice Kraus, Ruben Härle, Sebastian Sztwiertnia, Abbas Goher Khan, Mehdi Ali, Michael Fromm, Kristian Kersting

고품질 사전 학습 데이터는 현대 언어 모델의 핵심 요소이지만, 독일어 자원은 영어 자원에 비해 훨씬 덜 발달되어 있다. 즉, 규모가 더 작고, 선별 수준이 낮으며, 문서화가 미흡하고, 통제된 훈련 실험을 통한 검증도 거의 이루어지지 않았다. 본 연구에서는 언어 모델 사전 학습 및 어닐링(annealing)을 위한 고품질 독일어 코퍼스인 KletterMix를 소개한다. 이는 자연어 처리 및 모델링 커뮤니티를 위해 재사용 가능한 데이터셋 아티팩트로 설계되었다. KletterMix는 최첨단 영어 사전 학습 코퍼스를 독일어로 번역하되, 문서 경계, 메타데이터, 원천 구조 및 주제 다양성을 유지함으로써 구축되었다. 이러한 구축 방식은 현대 사전 학습 데이터셋의 규모와 다양성을 갖춘 독일어 코퍼스를 제공함과 동시에, 영어 원천과의 직접적인 비교를 가능하게 한다. 번역 품질, 문서 길이 분포, 주제 범위, 원천 구성 및 지리적 메타데이터를 포함한 광범위한 코퍼스 수준 분석을 통해 데이터셋을 문서화한다. COMETKiwi를 사용하여 번역된 문서가 다양한 도메인에 걸쳐 높은 품질을 달성함을 보여주며, 이는 신중한 번역이 원본 코퍼스의 의미론적 및 문체적 풍부함을 상당 부분 보존할 수 있음을 시사한다. 데이터셋 구축을 넘어, KletterMix를 훈련 데이터로 평가한다. 기존 독일어 코퍼스와의 통제된 사전 학습 및 어닐링 절제 실험(ablation)을 통해, KletterMix로 훈련된 모델이 독일어 다운스트림 평가에서 측정 가능한 개선을 달성함을 보여준다. 이러한 결과는 신중하게 선별된 번역 데이터가 독일어 사전 학습 데이터 생태계를 실질적으로 강화할 수 있음을 입증한다.

AutoLab: 프론티어 모델이 장기적 자동차 연구 및 엔지니어링 과제를 해결할 수 있는가?
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

Jun 3

ByZhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen

과학 및 공학의 진전은 근본적으로 장기적 반복 과정, 즉 변경 제안, 실험 실행, 결과 측정, 결과물의 지속적 개선으로 이루어져 있다. 그러나 현존하는 최첨단 모델용 벤치마크는 주로 단일 턴 응답이나 단기적 에이전트 궤적만을 평가하며, 확장된 시간 지평에 걸친 지속적인 반복적 개선의 도전 과제를 포착하지 못한다. 이러한 격차를 해소하기 위해 우리는 초장기 폐쇄 루프 최적화를 위한 새로운 벤치마크인 AutoLab을 소개한다. AutoLab은 시스템 최적화, 퍼즐 및 도전 과제, 모델 개발, CUDA 커널 최적화라는 네 가지 다양한 영역에 걸친 36개의 현실적이고 전문가가 선별한 과제로 구성된다. 각 과제는 정확하지만 의도적으로 차선인 기준선으로 시작하며, 에이전트가 엄격한 실시간 예산 내에서 이를 개선하도록 요구한다. 17개의 최첨단 모델을 평가한 결과, 성공의 지배적 예측 변수는 에이전트의 초기 시도 품질이 아니라 반복적인 벤치마킹, 편집, 경험적 피드백 통합의 지속성임이 드러났다. claude-opus-4.6은 강력한 장기 최적화 능력을 보였지만, 여러 독점 모델을 포함한 대부분의 최첨단 모델은 조기에 종료되거나 최소한의 진전만으로 예산을 소진했다. 이러한 결과는 자율 에이전트에 있어 시간 인식과 지속적 반복의 중요성을 강조한다. 우리는 전체 벤치마크, 평가 도구, 과제 아티팩트를 오픈소스로 공개하여 진정으로 유능한 장기적 에이전트를 향한 연구를 가속화하고자 한다.

WebRISE: MLLM이 생성한 웹 아티팩트를 위한 요구사항 기반 상태 평가
WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts

Jun 2

ByYuxin Meng, Yuhan Suo, Junjie Wang, Yuhan Sun, Yiyao Yu, Ruixu Zhang, Ruining Hu, Yubin Wang, Shouwei Ruan, Bin Wang, Yuxiang Zhang, Yujiu Yang

기존의 MLLM 생성 웹 산출물 평가 벤치마크는 로컬 증거를 통해 상호작용을 평가하며, 페이지의 동작 여부를 결정짓는 요구사항 유발 상태와 전이를 간과한다. 본 논문에서는 WebRISE를 제안한다. WebRISE는 작업 요구사항을 관찰 가능한 상태, 사용자 의도 전이, 그리고 DOM/시각적 어서션(assertion)으로 구성된 상호작용 계약 그래프(ICG)로 컴파일하여 구현에 독립적인 브라우저 실행을 가능하게 한다. WebRISE는 텍스트, 마크다운, 스케치, 이미지, 비디오 등 다섯 가지 입력 모달리티(modality)에 걸친 442개의 작업을 포함하며, 5,495개의 전이와 5,271개의 요구사항 검증(requirement check)으로 구성되어 사용자가 명시한 기능과 암묵적인 제품 수준 제약 조건을 구분한다. 14개의 MLLM을 대상으로 평가한 결과, 가장 강력한 모델조차 전이 유효성(transition validity) 65.6%, 요구사항 커버리지 66.3%에 그쳤으며, 시각적 품질은 행동을 대체하지 못했다(마크다운에서 Qwen3.6-35B-A3B: V=80.8, T=15.5). 비디오는 가장 강력한 상호작용 신호를 제공했으며(텍스트 대비 암묵적 커버리지 +10.6%p), 암묵적 제약 조건은 여전히 존재했다. 결함 주입 실험 결과, ICG 기반 점수화가 체크포인트 방식 평가보다 2~16배 높은 비율로 상태 오류를 탐지하는 것으로 나타났다.

AUDITFLOW: 구조화된 재무 보고 검증을 위한 실행 가능한 심볼릭 환경들
AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

Jun 2

ByYan Wang, Xuguang Ai, Jaisal Patel, Xueqing Peng, Fengran Mo, Yupeng Cao, Haohang Li, Mingyu Cao, Lingfei Qian, Víctor Gutiérrez-Basulto

구조화된 재무 감사 검증은 언어 모델 에이전트에게 어려운 작업이다. 정확성이 텍스트만이 아닌 구조화된 증거에 의존하기 때문이다. 모델은 보고된 사실을 분류 체계 개념과 연결하고, 계산 또는 차원 관계를 탐색한 후, 감사 규칙을 적용하기 전에 기대값을 재계산해야 한다. 본 논문에서는 적응형 검색과 결정론적 검증을 분리하는 그래프 기반 다중 에이전트 프레임워크인 AuditFlow를 제안한다. AuditFlow는 정적인 US-GAAP 분류 체계 그래프와 동적인 XBRL 제출 그래프로 구성된 상징적 환경을 구축하고, 사실 검색, 분류 체계 탐색, 수치 확인, 규칙 평가를 위한 유형화된 도구를 통해 이를 노출한다. 두 명의 주니어 감사관이 각 사례를 규제 및 증거 관점에서 검토하고, 시니어 감사관이 의견 불일치를 해결하며 추가 조사를 요청할 수 있다. 최종 보고서는 증거 집계를 통해 융합되어 감사 판정, 기대값, 증거 경로 및 신뢰도 점수를 산출한다. FinAuditing에서 파생된 FinMR 샘플에서 AuditFlow는 GPT-5.5에서 82.09%의 공동 감사 정확도를 달성하여 가장 강력한 기준 모델을 14.93% 포인트 초과했다. 결정론적 검증을 제거하면 정확도가 17.91%로 떨어지며, 이는 상징적 환경이 모델이 신뢰성 있게 대체할 수 없는 검증 단계를 수행함을 보여준다.

GRAIL: 3D 자산 및 비디오 사전 정보로부터 휴머노이드 이동-조작 생성
GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

Jun 3

ByTianyi Xie, Haotian Zhang, Jinhyung Park, Zi Wang, Bowen Wen, Jiefeng Li, Xueting Li, Qingwei Ben, Haoyang Weng, Yufei Ye, David Minor, Tingwu Wang, Chenfanfu Jiang, Sanja Fidler, Jan Kautz, Linxi Fan, Yuke Zhu, Zhengyi Luo, Umar Iqbal, Ye Yuan

휴머노이드 보행 조작의 확장을 위해서는 다양한 객체, 전신 동작, 장면 형상을 아우르는 로봇 호환 시연 데이터가 필요하지만, 원격 조작과 모션 캡처는 각 데이터 수집이 물리적 설정, 계측된 행위자, 로봇 조작에 의존하기 때문에 확장이 어렵습니다. 본 논문에서는 배포 전까지 완전히 가상 환경에서 진행되는 디지털 생성 파이프라인인 GRAIL을 제안합니다. GRAIL은 3D 자산, 시뮬레이터 준비 장면, 비디오 파운데이션 모델(VFM)의 사전 정보를 조합하여 물리적 환경을 재구성하거나 로봇을 원격 조작하지 않고도 상호작용을 합성합니다. GRAIL은 제약 없는 실제 동영상을 재구성하는 대신, 객체 형상, 카메라 파라미터, 미터법 스케일, 환경 깊이, 로봇 비례 캐릭터가 비디오 생성 전에 이미 알려져 있고 재구성 과정에서 재사용되는 완전히 명시된 3D 설정에서 시작합니다. 이러한 특권적 설정은 4차원 복원을 더 잘 조건화하여, 모델 기반 객체 추적, 인간 동작 추정, 상호작용 인식 최적화를 통해 깊이 모호성과 형태 불일치가 줄어든 미터법 4차원 인간-객체 상호작용(HOI) 궤적을 복원할 수 있게 합니다. 복원된 동작을 휴머노이드 로봇에 리타겟팅하고, 조작을 위한 객체 인식 잠재 어댑터와 지형 이동을 위한 장면 인식 추적기라는 상호 보완적인 작업 일반 추적기를 훈련합니다. GRAIL은 집기, 객체 조작, 앉기, 지형 이동을 포함한 20,000개 이상의 시퀀스를 생성합니다. GRAIL 생성 데이터만을 사용하여 시뮬레이션-실제 전이 파이프라인을 통해 자기 시점 시각 정책을 훈련하고, 이를 Unitree G1 휴머노이드에 배포하여 다양한 객체 집기에서 84%의 실제 성공률과 계단 오르기에서 90%의 성공률을 달성합니다.

BraveGuard: 개방형 세계 위협에서 더 안전한 컴퓨터 사용 에이전트로
BraveGuard: From Open-World Threats to Safer Computer-Use Agents

Jun 2

ByYunhao Feng, Xiaohu Du, Xinhao Deng, Yifan Ding, Ming Wen, Yixu Wang, Yuxiang Xie, Baihui Zheng, Yingshui Tan, Yige Li, Yutao Wu, Kerui Cao, Wenke Huang, Yanming Guo, Xingjun Ma, Yu-Gang Jiang

컴퓨터 사용 에이전트는 언어 모델을 텍스트 생성에서 파일, 터미널, 브라우저, 외부 도구와의 지속적인 상호작용으로 확장한다. 이러한 변화는 개별 프롬프트나 최종 응답만으로는 탐지하기 어려운 안전 위험을 야기하는데, 피해는 종종 각 개별 행동이 국지적으로 무해해 보이는 다단계 실행 궤적을 통해서만 드러나기 때문이다. 우리는 오픈월드 위협 신호와 현실적인 에이전트 궤적으로부터 가드 모델을 훈련시키기 위한 자기 진화형 방어 프레임워크인 BraveGuard를 소개한다. BraveGuard는 최신 연구 자료를 분석하여 신흥 위험과 공격 패턴을 식별하고, 이를 실행 가능한 컴퓨터 사용 과제로 구체화하며, 에이전트 롤아웃을 수집하고, 가드 모델 훈련을 위한 궤적 수준의 감독 신호를 도출한다. 새로운 위협과 검증 실패가 나타나면 파이프라인을 반복할 수 있어, 고정된 벤치마크 기반 훈련 과정이 아닌 적응형 방어 루프를 생성한다. 우리는 Qwen3-Guard 및 Llama-Guard 변형을 포함한 여러 가드 백본을 훈련시켜 BraveGuard를 구현하고, 결과 가드 모델을 궤적 수준의 에이전트 안전 벤치마크에서 평가한다. BraveGuard는 컴퓨터 사용 궤적 전반에 걸쳐 안전 탐지를 일관되게 개선한다. AgentHazard에서는 기성 가드 모델 대비 탐지 정확도가 크게 향상되어, 평균 가드 모델 설정에서 정확도가 38.79%에서 82.38%로 증가한다. 이러한 결과는 오픈월드 위협 발견과 현실적인 에이전트 실행에 기반한 가드 감독이 고정된 분류 체계나 합성 프롬프트 수준 데이터를 넘어 안전 모니터링을 개선할 수 있음을 보여준다. BraveGuard는 진화하는 현실 세계 위험에 직면한 컴퓨터 사용 에이전트를 위한 적응형 방어로 가는 확장 가능한 경로를 제공한다.

BenchEvolver: 해결 중심 진화를 통한 프론티어 과제 합성
BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

May 31

ByYangzhen Wu, Aaron J. Li, Wenjie Ma, Li Cao, Ziheng Zhou, Mert Cemri, Shu Liu, Yuran Xiu, Chenxiao Yan, Haikun Zhao, Bin Yu, Ion Stoica, Dawn Song

최첨단 거대 언어 모델의 급속한 발전은 광범위한 벤치마크 포화를 초래하여, 기존 데이터셋이 모델 성능을 변별하거나 유용한 훈련 신호를 제공하는 능력을 제한하고 있다. 예를 들어, LiveCodeBench에서 최첨단 모델은 쉬운 분할에서 99% 이상의 Pass@1을 달성하고, 난이도 수준 전반에 걸쳐 평균 90%를 초과하는 Pass@1을 기록한다. 새롭고 도전적인 데이터셋을 구축하려면 일반적으로 상당한 인적 노력이 필요하며, 이는 발전의 병목 현상을 초래한다. 본 논문에서는 기존 코딩 문제를 자동으로 더 어려운 변형으로 진화시키는 솔루션 중심의 진화적 프레임워크인 BenchEvolver를 소개한다. BenchEvolver는 문제를 처음부터 생성하는 대신, 구조화된 변환을 통해 참조 솔루션을 진화시키고, 진화된 솔루션으로부터 대응되는 문제 설명과 테스트를 도출한다. 이러한 설계는 생성 과정을 실행 가능한 의미론에 기반하게 하여, 검증 가능한 정확성을 갖춘 고품질, 다양성, 난이도 높은 작업의 확장 가능한 구축을 가능하게 한다. BenchEvolver를 LiveCodeBench와 SciCode에 적용한 결과, 타당성, 참조 정확성, 다양성을 유지하면서도 훨씬 더 어려워진 진화된 작업을 얻었다. 또한, 진화된 작업과 원본 LCB-v6의 어려운 문제를 결합한 91문제 벤치마크인 LiveCodeBench-Plus를 선별하였으며, 여기서 최첨단 모델의 Pass@1은 27.5%에서 62.6% 사이로 나타나 강력한 코딩 모델 간의 명확한 변별력을 회복하였다. 중요하게도, 진화된 작업은 이를 생성한 모델에게조차 여전히 도전적이어서 자기 개선을 가능하게 한다. 또한, 진화된 LCB 작업에 대한 강화 학습이 보류된 코딩 성능을 향상시킴을 보여준다: gpt-oss-20b의 경우, 시드+진화 훈련이 LCB v6 Hard 및 LCB-Pro Easy에서 각각 +8.7 및 +8.3의 Pass@1 향상을 달성하여, 시드만 사용한 훈련 대비 각각 70.7% 및 34.8% 더 큰 향상을 보였다. 이러한 결과는 BenchEvolver가 포화된 벤치마크를 최첨단 수준의 평가 스위트와 재사용 가능한 훈련 신호로 변환할 수 있음을 보여준다.

지성의 경제: 경제적 상호작용을 통한 다중 에이전트 지능의 출현
Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Jun 1

ByZhenting Qi, Huangyuan Su, Ao Qu, Chenyu Wang, Yu Yao, Han Zheng, Kushal Chattopadhyay, Guowei Xu, Zihan Wang, Weirui Ye, Vijay Janapa Reddi, Ju Li, Paul Pu Liang, Himabindu Lakkaraju, Sham Kakade, Yilun Du

에이전트 집단이 중앙 통제 없이 어떻게 스스로 조직화하고 적응하여 더 강력한 집단 지성으로 진화할 수 있을까? 프리드리히 하이에크의 시장 내 분산 조정에 관한 경제 이론에서 영감을 얻어, 우리는 에이전트들이 행동할 권리를 위해 경매를 통해 경쟁하고, 지불을 교환하며, 환경 보상으로부터 부를 축적하는 에이전트 경제를 통해 이 질문을 연구한다. 이러한 단순한 경제 신호는 분산된 신용 할당을 유도하며, 전역적 조정이나 명시적 통신 프로토콜 없이 계획을 추진한다. 집단은 경제적 선택을 통해 진화한다: 효과적인 에이전트는 부를 축적하고 활용(exploitation)을 통해 변이되는 반면, 비효율적인 에이전트는 파산하여 탐색(exploration)을 통해 대체된다. 우리는 약한 에이전트로 초기화된 경제가 수학적 추론, 금융 리서치, 과학 연구, 가속기 설계, 분산 시스템 최적화 등 다섯 가지 에이전트 과제에서 창발적 다단계 추론 전략을 생산하고, 더 강력한 단일 기준 모델들보다 우수한 성능을 보임을 입증한다. 또한, 경제 역학이 에이전트 행동을 어떻게 형성하는지에 대한 이론적 통찰을 제공하며, 지역적 인센티브를 장기적 전역 성과에 연결한다. 우리의 결과는 다중 에이전트 지능에 대한 새로운 경로를 제시한다: 조정을 설계하는 대신, 자동으로 창발하는 분산된 인센티브 구조를 설계할 수 있다.

신경망이 그룹 구성에 대한 스펙트럴 표현을 증명 가능하게 학습함
Neural Networks Provably Learn Spectral Representations for Group Composition

Jun 2

ByJianliang He, Leda Wang, Fengzhuo Zhang, Siyu Chen, Zhuoran Yang

신경망 훈련 중 구조화된 내부 구조가 어떻게 나타나는지 이해하는 것은 딥러닝 연구의 핵심이다. 우리는 유한군 \(G\)의 원소 \(g_1\)과 \(g_2\)에 대해 \(g_1 * g_2\)를 예측하도록 훈련된 두 층 신경망을 통해 이 현상을 군 합성 과제를 통해 조사한다. 투영된 경사 흐름을 푸리에 영역으로 끌어올림으로써, 훈련 동역학이 표현 이론적 에너지 범함수에 대한 리만 경사 상승에 의해 지배됨을 보인다. 무작위 초기화 하에서 이 흐름이 각 뉴런을 거의 확실히 단일 기약 표현으로 수렴하도록 유도하며, 교차층 푸리에 계수는 회전적 랭크-1 정렬을 달성함을 증명한다. 이 프레임워크는 특징 학습에 대한 표현 이론적 설명을 제공하고, 행렬 값 군 표현에 대한 새로운 저랭크 압축 현상을 특징짓는다. 또한, 아벨 군의 경우 완전한 모집단 수준의 설명을 제시한다: 무작위 초기화는 비자명 표현 전반에 걸쳐 균일한 다양화를 촉진하고 하르 균일 위상을 유도하며, 다수결 메커니즘을 통해 지시 함수를 공동으로 근사한다. 나아가 위상 정렬과 표현 경쟁이 모두 지수적 수렴 속도로 나타남을 증명한다.

접근 집합의 중요성: 확장 가능한 가중치 공간 모델 병합을 위한 예산 기반 전문가 판독
Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging

May 28

ByYuanyi Wang, Yanggan Gu, Su Lu, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

가중치 공간 모델 병합은 일반적으로 체크포인트에 대한 대수적 연산으로 공식화되지만, LLM 규모에서는 읽어야 하는 전문가 가중치 집합이 제한 자원인 경우가 많다. 우리는 MergePipe를 도입하는데, 이는 예산 인식 실행 계층으로서 LLM 병합을 전문가 접근 집합 문제로 재구성한다: 공유 가중치 좌표계에서 병합 연산자와 체크포인트 패밀리가 주어졌을 때, 명시적 I/O 예산 하에 접근할 전문가 델타 블록을 선택한다. MergePipe는 파라미터 블록을 인덱싱하고, 결정론적 접근 계획을 수립하며, 재생 가능한 매니페스트를 통해 유도된 예산 기반 병합을 실행한다. 이 계획은 설계상 예산 건전성을 가지며, 전체 예산에서는 전체 읽기 병합을 복원한다. 고정 계수 가산 연산자의 경우, 생략된 업데이트 오차는 생략된 델타의 노름에 의해 제한된다. Qwen 및 Llama 병합 작업 전반에 걸쳐 MergePipe는 전문가 읽기 I/O를 최대 한 자릿수까지 줄이고 최대 11배의 속도 향상을 달성한다. 대표적인 예산 스윕에서는 전체 읽기 병합 대비 O(10^{-3}) 수준의 파라미터 편차를 보이며, 하위 벤치마크에서 단조로운 성능 저하가 나타나지 않는다.

STRIDE: 부분집합 교란으로부터의 희소 복원을 통한 학습 데이터 귀인
STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

Jun 3

ByRishit Dagli, Abir Harrasse, Luke Zhang, Florent Draye, Amirali Abdullah, Bernhard Schölkopf, Zhijing Jin

훈련 데이터 귀속(TDA)은 모델의 예측 결과를 학습 데이터로 거슬러 추적하는 것을 목표로 한다. TDA의 최적 기준은 인과적 개입에 의존하며, 데이터가 추가되거나 제거될 때 모델이 어떻게 변화하는지 관찰하는 것이지만, 반복적인 재학습은 대규모 언어 모델(LLM)에 대해 계산적으로 매우 까다롭다. 결과적으로 대부분의 접근 방식은 그래디언트를 사용하여 매개변수 공간에서 이러한 효과를 근사한다. 그러나 수십억 개의 매개변수에 걸친 그래디언트 추적은 엄청난 비용이 들 뿐만 아니라 국소적 근사에 의존한다는 한계가 있다. 본 연구에서는 매개변수 변화를 추정하는 대신 활성화 공간에서 훈련 데이터의 기능적 효과를 모델링하는 전환을 제안한다. 우리는 STRIDE(Steering-based Training Data Influence Decomposition) 프레임워크를 소개한다. 이는 압축 센싱의 정신에 따라 TDA를 희소 복원 문제로 정식화한다. STRIDE는 데이터 하위 집합에 대한 훈련으로 인해 발생하는 행동 변화를 모방하는 가벼운 "조향 연산자"를 학습한다. 이 연산자들이 테스트 예측을 어떻게 교란하는지 측정함으로써, 희소 선형 분해를 통해 개별 훈련 예제의 영향력을 복원한다. STRIDE는 LLM 사전 학습 귀속에 대해 최첨단 성능을 달성하면서도 기존 기법보다 13배 더 빠르다. 또한 데이터 선택, 데이터 오염, 정성적 분석을 포함한 하위 응용을 통해 실제 유용성을 추가로 검증한다.

DAR: 에이전트적 통제를 통한 의무 추론
DAR: Deontic Reasoning with Agentic Harnesses

Jun 3

ByGuangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme

규범 추론은 명시적 규칙과 정책을 특정 사례의 사실에 적용하여 질문에 답하는 작업으로, 예를 들어 법률 조항에 따른 세금 부채 계산이나 출입국 항소 결과 결정이 해당된다. LLM 기반 규범 추론의 주요 기술적 과제는 관련 규칙 집합이 길고 상호 참조될 수 있어, 모델이 특정 추론 단계에 필요한 규칙을 여전히 찾지 못할 수 있다는 점이다. 본 논문에서는 모델이 필요 시 법령과 상호작용하는 에이전트 기반 추론 설정인 Deontic Agentic Reasoning(DAR)을 소개한다. 우리는 DeonticBench의 어려운 하위 집합에 대해 여러 하네스에서 DAR을 평가한다. 이러한 설정 전반에 걸쳐, 에이전트 기반 하네스가 규범 추론 작업의 최첨단을 끌어올릴 수 있지만, 개선 효과가 균일하지는 않음을 발견했다. 즉, 약한 모델은 훨씬 더 많은 토큰을 소비하면서 수치 작업에서는 종종 성능이 저하된다.

표준화 환자 사례를 활용한 동적 임상 의사 결정에서의 대규모 언어 모델 평가
Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

Jun 3

ByCheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie

대규모 언어 모델(LLM)이 임상 에이전트로 점차 제안되고 있지만, 정적이고 단일 턴(single-turn)의 벤치마크로는 모델이 진료 과정 전반에 걸쳐 정보 수집, 치료 계획 수립, 연속적인 환자 상태에 따른 장기 관리 적응 등 역동적으로 진료를 제공하는 방식을 포착할 수 없다. 의학교육에서는 오랫동안 표준화 환자(standardized patients, SPs)를 통해 이와 유사한 과제를 해결해 왔다. 즉, 임상 사례를 일관되게 연기하도록 훈련된 배우를 활용하여 현실적인 실습과 객관적이고 대본화된 평가를 가능하게 한 것이다. 본 연구에서는 MedSP1000을 소개한다. 이는 SP 기반의 임상 에이전트 평가를 위한 상호작용 벤치마크로, 1,638개의 SP 사례와 24,602개의 궤적 수준(trajectory-level) 동료 검토 루브릭을 포함한다. MedSP1000은 동료 검토를 거친 SP 교육 사례를 정의된 SP 사례 대본, 임상 환경 맥락, 인간 검증을 거친 구조화된 루브릭을 갖춘 실행 가능한 시나리오로 변환한다. 각 시뮬레이션 평가 실행에서 임상 에이전트는 환자 에이전트 및 환경 제어기와 폐루프(closed loop)로 상호작용하며, 그 행동은 원자료에 명시된 전문가 기준에 따라 진료 과정 전반에 걸쳐 점수화된다. MedSP1000을 다양한 범용 및 의학 특화 LLM에 적용한 결과, 정적 벤치마크에서의 성능이 이러한 교육 시나리오에서 신뢰할 수 있게 전이되지 않음을 발견했다. 최고 성능 모델인 GPT-5.5는 전문가가 정의한 루브릭 항목의 60.4%만을 완료했으며, 가장 강력한 의학 특화 모델은 40.0%에 도달했다. 테스트 시점 연산량(test-time compute)을 늘려도 측정 가능한 성능 향상은 없었다. 이러한 결과는 현재의 LLM, 특히 의학 분야에 맞춰 조정된 에이전트 시스템이 실제 임상 현장에 안전하게 통합되기에는 아직 충분히 신뢰할 수 없음을 시사한다. 더 널리 보면, MedSP1000은 과정 수준(process-level)의 SP 방식 평가가 단일 턴 벤치마크가 놓치는 임상적으로 관련 있는 실패 모드를 어떻게 드러낼 수 있는지를 보여준다.

OpenSTBench: 음성 번역을 위한 의미 평가를 넘어서
OpenSTBench: Beyond Semantic Evaluation for Speech Translation

May 29

ByYanjie An, Yuxiang Zhao, Yichi Zhang, Qixi Zheng, Yujie Tu, Keqi Deng, Kai Yu, Xie Chen

음성 번역 시스템은 점차 음성-텍스트 번역(S2TT), 음성-음성 번역(S2ST), 오프라인 번역, 스트리밍 생성을 포괄하며, 양식, 음성 구현 및 타이밍 동작 측면에서 서로 다른 출력을 생성한다. 기존 평가 관행은 번역 품질, 음성 품질, 시간적 품질과 같은 중요한 측면을 평가하지만, 이러한 측면들은 종종 별도의 프로토콜로 평가되어 이기종 시스템을 종합적으로 비교하기 어렵게 만든다. 이러한 문제를 해결하기 위해, 본 논문에서는 이질적인 음성 번역 출력을 공통 평가 형식으로 구성하는 통합 다차원 평가 프레임워크인 OpenSTBench를 제시한다. OpenSTBench는 오프라인 및 스트리밍 환경에서 S2TT 및 S2ST 시스템을 모두 지원하며, 번역 품질, 음성 품질, 화자 보존, 감정 및 준언어적 충실도, 시간적 일관성, 지연 시간을 공동으로 평가한다. 대표적인 음성 번역 시스템에 대한 실험을 통해, 번역 품질이 우수한 시스템이라도 음성 품질 및 시간적 품질에서 상당한 차이를 보일 수 있음을 확인하였다. OpenSTBench는 이러한 차원 간 차이를 분석하고 응용 지향적인 음성 번역 시스템 비교를 지원하는 재현 가능한 프로토콜을 제공한다. 코드와 데이터셋은 https://github.com/sjtuayj/OpenSTBench에서 확인할 수 있다.

대규모 게이티드 델타 네트워크에서 특징 학습 구현하기
Unlocking Feature Learning in Gated Delta Networks at Scale

Jun 2

ByYifeng Liu, Quanquan Gu

대규모 언어 모델의 학습과 확장은 막대한 계산 자원을 요구하므로, 효율적인 서브-쿼드러틱 아키텍처와 원리 기반 하이퍼파라미터 튜닝 방법이 필요하게 되었다. Maximal Update Parametrization(μP)은 표준 트랜스포머에서 제로샷 하이퍼파라미터 전이를 가능하게 했지만, 이를 선형 모델, 특히 구조화된 상태 전이와 복잡한 아키텍처를 가진 모델로 확장하는 것은 아직 거의 탐구되지 않았다. 본 연구는 순전파, 게이팅 메커니즘, 그리고 순환 상태 동역학을 통해 좌표 크기 추정치를 엄격하게 전파함으로써, Gated Delta Network의 스케일링 규칙을 도출한다. 언어 모델 사전 학습 실험을 통해, 우리의 설정이 표준 매개변수화가 전이에 실패하는 반면, AdamW와 SGD 모두에서 모델 폭에 걸쳐 안정적인 학습률 전이가 가능함을 확인하였으며, 이는 분석의 정확성과 실용적 유용성을 입증한다.

Stable-Layers: VLM 점수 기반 강화 학습을 통한 이미지 레이어 분해 모델의 미세 조정
Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

May 28

ByCiara Rowles, Reshinth Adithyan, Nikhil Pinnaparaju, Vikram Voleti, Mark Boss

본 논문에서는 Stable-Layers를 제안한다. 이는 사전 학습된 레이어 분해 모델을 시각-언어 모델(VLM)의 피드백만을 사용하여 미세 조정함으로써 쌍으로 된 지도 학습의 필요성을 제거하는 강화 학습 프레임워크이다. Qwen-Image-Layered를 출발점으로 삼아, LoRA 적응을 적용한 Flow-GRPO를 활용하며, 이미지당 여러 후보 분해 결과를 샘플링하고 VLM으로 점수를 매긴 후, 그룹 상대적 이점으로부터 정책을 최적화한다. 핵심 과제는 신뢰할 수 있는 보상 신호를 설계하는 데 있다. VLM이 샘플을 개별적으로 평가할 때 그 판단을 좁은 범위로 압축하는 경향이 있어, GRPO가 학습할 수 있는 그룹 내 분산이 거의 남지 않게 된다. 이를 해결하기 위해, 다섯 가지 편집 중심 기준에 걸친 구조화된 샘플별 평가와, VLM이 모든 후보를 나란히 다시 점수 매기는 격자 기반 보정 단계를 결합한 2단계 평가 파이프라인을 도입한다. Stable-Layers는 기본 모델에 비해 Crello 데이터셋에서 더 강력한 레이어 분리, 더 적은 수의 빈 레이어나 아티팩트가 많은 레이어, 그리고 더 낮은 레이어별 재구성 오류를 달성한다.

PaintBench: 정밀 시각 편집의 결정론적 평가
PaintBench: Deterministic Evaluation of Precise Visual Editing

May 29

ByKai Xu, Ellis Brown, Shrikar Madhu, Rob Fergus, He He, Saining Xie

현재 멀티모달 모델은 개방형 시각 편집에 능숙하지만, 정확한 단일 정답 편집을 수행하는 것은 여전히 중요한 장애물로 남아 있다. 이러한 과제를 탐구하기 위해 우리는 기하 변환, 구조 조작, 색상 변경, 상징적 추론의 네 가지 범주에 걸친 20가지 기본 정밀 시각 편집 연산을 대상으로 하는 동적 확장 가능 벤치마크인 PaintBench를 제안한다. 구성 가능한 복잡성을 갖춘 절차적 생성은 사실상 무한하고 오염에 강한 평가 스위트를 가능하게 하며, 결정론적 픽셀 단위 평가는 편향에 취약한 판별 모델에 대한 의존성을 제거한다. 11개의 이미지 편집 모델에서 전반적으로 낮은 성능을 발견했으며, 현재 최고 성능의 업계 선도 모델은 17.1%(mIoU)에 불과했다. 작업 분해를 통해 특히 까다로운 연산 유형(기하 변환, 대부분의 구조 조작, 공식 기반 색상 변경)과 모델별 특화를 확인했다. 세분화된 벤치마크 진단은 객체 수, 배경 복잡성, 색 구성표, 편집 영역 크기의 장면 변동에 따른 성능 저하를 추가로 보여준다. PaintBench 점수의 응용 작업 성능에 대한 일반화를 테스트하기 위해 데이터 시각화 편집을 위한 절차적이고 결정론적인 평가(TinyGrafixBench)를 생성했으며, PaintBench 점수와 강한 선형 상관관계(R² = 0.91, p < 0.001)를 발견했다. 종합적으로, PaintBench는 정밀 멀티모달 시각 편집의 성과 측정 및 발전을 위한 엄격한 기반을 제공한다.

Agent libOS: 장기 실행 및 능력 제어 LLM 에이전트를 위한 라이브러리 OS에서 영감을 받은 런타임
Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

Jun 2

ByYingqi Zhang

대규모 언어 모델(LLM) 에이전트는 요청-응답 어시스턴트에서 장기 실행 소프트웨어 행위자로 진화하고 있다. 즉, 모델 호출 간 상태를 유지하고, 하위 작업을 분기하며, 외부 이벤트를 기다리고, 사람의 승인을 요청하며, 도구를 생성하고, 재개 및 감사가 필요한 부수 효과를 수행한다. 본 논문에서는 LLM 에이전트를 위한 라이브러리 OS(libOS)에서 영감을 받은 런타임 기반인 Agent libOS를 제시한다. Agent libOS는 기존 호스트 운영체제 위에서 실행되며, 하드웨어 드라이버, 커널 모드 격리 또는 POSIX 호환 운영체제를 구현하지 않는다. 대신 에이전트를 AgentProcess로 취급한다. AgentProcess는 프로세스 아이덴티티, 부모-자식 계통, 수명 주기 상태, AgentImage에서 파생된 도구 테이블, 정형화된 객체 메모리(Object Memory), 명시적 권한(capabilities), 인간 큐, 체크포인트, 이벤트 및 감사 기록을 갖는 스케줄링 가능한 실행 주체이다. 핵심 설계 원칙은 도구가 libc와 유사한 래퍼 역할을 하며, 런타임 프리미티브가 권한 경계(authority boundary)라는 점이다. 파일시스템 접근, 객체 접근, Sleep, 사람의 승인, JIT 도구 등록, 외부 부수 효과는 명시적 권한과 정책 하에서 프리미티브 경계에서 검사된다. 본 논문에서는 설계, 위협 모델, Python 프로토타입, 안전성 중심 평가를 설명한다. 현재 프로토타입은 비동기 스케줄링, 네임스페이스-로컬 객체 메모리, 런타임 통합 사람 승인, 일회성 권한 부여, 프로세스별 작업 디렉터리, 셸 및 이미지 등록 프리미티브, libOS 시스템 호출 중개자 위의 Deno/TypeScript JIT 도구, 파일시스템/객체 브리지 도구, 주입 가능한 리소스 공급자 기반(Resource Provider Substrate), 결정론적 데모, 실제 모델 스모크 스크립트, 그리고 작성 시점 기준 123개의 회귀 테스트를 구현한다. Agent libOS는 계획자의 정확성을 개선하기보다는, 도구 디스패치를 신뢰 경계로 삼지 않고 장기 실행 LLM 에이전트를 스케줄링, 승인, 재개 및 감사할 수 있는 런타임 기반을 보여준다.

SpatialAct: 3D 장면에서 VLM 에이전트의 공간 추론-행동 능력 탐구
SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

May 29

ByTianhui Liu, Jie Feng, Zhiheng Zheng, Shengyuan Wang, Yiming Guo, Yanxin Xi, Hangyu Fan, Yong Li, Pan Hui

인간은 일상적인 3D 환경에서 공간적 배치를 쉽게 인지하고, 인지적 표상을 형성하며, 공간 관계에 대해 추론하고, 그러한 추론을 행동으로 전환할 수 있다. 최근의 비전-언어 모델(VLM)이 관찰 기반 공간 인식 및 추론 작업에서 유망한 성능을 보여주고 있지만, 이들이 일관된 공간 이해를 구축하고 이를 바탕으로 행동하며 다중 턴 피드백을 통해 행동을 개선할 수 있는지는 여전히 불명확하다. 이 문제를 연구하기 위해, 우리는 3D 장면에서 행동 기반 공간 추론을 조사하기 위한 시뮬레이터 기반 벤치마크인 SpatialAct를 소개한다. 가장 도전적인 설정인 다중 턴 상호작용적 개선에서 시작하여, 우리는 모델 실패의 근본 원인을 진단하기 위해 분해된 대응물인 단일 단계 오류 탐지 및 수정과 함께 다섯 가지 기본 공간 능력 과제를 추가로 설계한다. 실험 결과는 명확한 추론-행동 격차를 드러낸다. 현재 VLM은 고립된 공간 추론 작업에서는 우수한 성능을 보이지만, 다중 턴 피드백 중에 일관된 공간 신념을 유지하고 신뢰할 수 있는 행동을 생성하는 데 어려움을 겪어 인간보다 현저히 낮은 성능을 보인다. 이러한 결과는 현재의 VLM 에이전트가 저수준 제어가 추상화된 경우에도 행동으로 인한 환경 변화 하에서 강건한 공간 상태 추적이 여전히 부족함을 시사한다.

LLM 위험 결정에서 결과 수준의 유사성과 메커니즘 수준의 일치성 탐색: 세인트 피터스버그 게임을 통한 증거
Probing Outcome-Level Resemblance and Mechanism-Level Alignment in LLM Risk Decisions: Evidence from the St. Petersburg Game

Jun 3

ByChensong Huang, Changyu Chen, Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo

LLM은 위험 의사 결정 과업에서 신중하게 보일 수 있으나, 신중해 보이는 출력이 반드시 인간의 의사 결정 메커니즘과의 정렬을 의미하는 것은 아니다. 우리는 이러한 구분을 통제된 시험장으로서 세인트피터즈버그 게임을 사용하여 조사한다. 이 게임은 기대 보수가 무한대임에도 인간은 일반적으로 낮고 유한한 지불 의향을 보고하는 고전적 역설이다. 우리는 28개의 LLM을 평가하기 위해 구조화된 프롬프트 세트를 사용하였으며, 여기에는 원래 게임, 절단, 반복 실행, 숫자 부여, 직업 정체성을 교란하는 통제된 의사 결정 변형, 모델이 인간 의사 결정자처럼 추론하도록 요구하는 인간 관점 프롬프트, 그리고 기본 모델과 명령어 조정 버전 간의 쌍대 비교가 포함된다. 원래 게임에서 대부분의 모델은 유한한 입찰가를 생성하여 인간과 유사한 위험 행동의 외관을 만들어낸다. 그러나 이러한 결과 수준의 유사성은 상당한 메커니즘 수준의 차이를 가린다. 통제된 변형은 모델이 원래 게임에서 보인 인간과 유사한 행동을 유지하기보다는 조건부 및 계산적 합리적 행동으로 전환하는 경우가 많음을 드러낸다. 인간 신호 프롬프트와 명령어 조정은 종종 입찰가를 낮추고 일부 가시적인 병리를 줄이지만, 대부분의 메커니즘 수준 반응 패턴은 거의 변하지 않는다. 이러한 발견은 위험 의사 결정에서의 행동적 정렬이 표면적일 수 있음을 보여준다. LLM은 인간과 일관된 메커니즘을 나타내지 않으면서 인간과 유사한 위험 결정을 생성할 수 있다. 따라서 LLM 의사 결정의 고위험 평가는 결과 유사성을 넘어 정렬이 메커니즘 수준의 일관성에 의해 뒷받침되는지 검토해야 한다.

대수 보존 쿠프만 학습을 위한 심층 내장 곱셈 DMD
Deep Embedded Multiplicative DMD for Algebra-Preserving Koopman Learning

Jun 3

ByKelan Gray, Finlay Brown, Nicolas Boullé, Matthew J. Colbrook

쿠프만 이론은 비선형 역학을 선형 스펙트럼 문제로 변환한다. 그러나 계산에서는 모든 것이 어려운 유한 차원 선택에 달려 있다. 즉, 관측 가능량은 표현력이 뛰어나야 하고, 역학 하에서 거의 불변해야 하며, 이상적으로는 합성과 호환되어야 한다. 심층 쿠프만 방법은 유연한 좌표를 학습하는 반면, 구조 보존 방법은 고정된 사전에 연산자 항등식을 강제한다. 우리는 이 두 아이디어를 결합하여 심층 임베디드 곱셈 동적 모드 분해(DeepMDMD)를 도입한다. 이 방법은 잠재 공간과 그 분할을 학습하는 동시에 쿠프만 곱 규칙을 정확한 대수적 제약 조건으로 강제한다. 훈련은 정확한 곱셈 연산자 업데이트와 쿠프만 폐쇄를 촉진하는 미분 가능한 잠재 군집화 단계를 번갈아 수행한다. 그 결과는 학습된 잠재 셀에 대한 유한 전이 맵이다. 그 비제로 스펙트럼은 단위 원 위에 있으며, 사전은 주변 기하학이 아닌 역학에 의해 형성되고, 예측은 물리 공간으로 디코딩되기 전에 잠재 좌표에서 수행된다. 해밀토니언, 혼돈, 유체 예제에 걸쳐 DeepMDMD는 기하학적 MDMD 분할에 의해 생성된 것보다 훨씬 더 간결하고 역학적으로 응집된 사전을 학습한다. 스펙트럼 오염을 줄이고, 더 풍부한 연속 스펙트럼 구조를 드러내며, 심각한 잡음 하에서도 안정적인 예측을 제공한다. 158,624차원의 원주 후류와 잡음이 있는 Re=20,000 덮개 구동 공동을 포함한 고차원 유동에서, 상태 공간 MDMD가 실패하는 곳에서 응집 구조와 장기 스펙트럼 통계를 보존한다. 이러한 결과는 쿠프만 학습에 대한 실용적인 규칙을 제안한다: 좌표를 학습하고, 대수를 제약하라.

MeshWeaver: 자기회귀적 메시 생성을 위한 희소 복셀 유도 표면 직조
MeshWeaver: Sparse-Voxel-Guided Surface Weaving for Autoregressive Mesh Generation

Jun 3

ByJiale Xu, Wang Zhao, Ying Shan

자기회귀적 메시 생성은 메시를 시퀀스로 토큰화하고 언어 모델링 방식으로 모델을 훈련시키는 방법으로 주목받아 왔다. 그러나 기존 접근법은 두 가지 근본적인 한계를 가진다: (i) 토큰화 효율이 낮아 긴 토큰 시퀀스를 생성하고 고폴리곤 메시로의 확장을 저해하며, (ii) 기하학 인식 유도가 부재하여 생성 과정이 국소적 표면 단서보다는 전역적 형태 임베딩에만 의존한다는 점이다. 본 논문에서는 메시 생성을 표면 직조 과정으로 간주하여 독립적인 좌표 대신 다음 정점을 직접 예측하는 자기회귀적 프레임워크인 MeshWeaver를 제안한다. 핵심은 다중 수준 희소 복셀 인코더로, 이는 세 가지 상호 보완적 방식으로 생성 과정에 기하학적 맥락을 주입한다: 정점 표현으로서 복셀 특징 제공, 복셀 특징에 대한 교차 주의를 통한 토큰 예측 유도, 입력 표면 주변의 생성을 제약하는 구조적 발판 역할 수행. 본 계층적 설계는 단일 디코딩 단계에서 조-미세 정점 예측을 가능하게 하면서 생성 모델을 3D 기하학과 긴밀하게 결합한다. 광범위한 실험을 통해 MeshWeaver가 18%의 최첨단 압축률을 달성하고, 최대 16K면을 가진 메시를 생성할 수 있으며, 이전 접근법 대비 기하학적 충실도를 크게 향상시킴을 입증한다.

확산 모델에서 할루시네이션 감소를 위한 스코어 제어
Score-Control for Hallucination Reduction in Diffusion Models

May 29

ByMahesh Bhosale, Naresh Kumar Devulapally, Abdul Wasi, Chau Pham, Vishnu Suresh Lokhande, David Doermann

확산 모델은 현대 생성형 AI의 중추로 자리 잡으며, 시각, 언어, 오디오 등 다양한 양식에서 발전을 주도하고 있다. 이러한 성공에도 불구하고 확산 모델은 환각(hallucination), 즉 실제 데이터 분포의 지지집합 밖에 위치한 비현실적인 샘플을 생성하여 신뢰성과 신뢰도를 저하시킨다. 본 연구에서는 먼저 이미지 생성 확산 모델에서 점수 평활성(score smoothness)이 환각을 유발한다는 기존 가설을 경험적으로 확인하고, 밀도 기반 관점을 제시한다. 또한 환각 확률 질량을 학습된 점수 함수의 립시츠 상수(Lipschitz constant)와 연결함으로써 이 개념을 공식화한다. 이에 착안하여 점수 야코비안(score Jacobian)을 제어하는 분산 기반 점수 변조(Variance-Guided Score Modulation, VSM) 전략을 도입하며, 이를 통해 점수 평활성을 줄이고 환각을 감소시키는 실측 점수(ground truth score)를 더 잘 근사한다. 합성 및 실제 데이터셋에 대한 실험 결과, 본 접근법은 높은 충실도와 다양성을 유지하면서 환각을 최대 약 25%까지 감소시켜, 보다 신뢰할 수 있는 확산 기반 이미지 생성을 위한 원칙적인 단계를 제공함을 보여준다. 또한 체계적인 환각 평가를 위해 극단적인 의미 변이를 가진 두 개의 벤치마크 데이터셋을 제안한다. 코드와 데이터셋은 https://github.com/bhosalems/VSM 에서 공개적으로 이용 가능하다.

그래프 토큰이 싱크될 때: 그래프 언어 모델의 메커니즘 분석
When Graph Tokens Sink: A Mechanistic Analysis of Graph Language Models

Jun 2

ByDing Zhang, Runtao Zhou, Wenqing Zheng, Rizal Fathony, Bayan Bruss, Chirag Agarwal

그래프 언어 모델(GLM)은 대규모 언어 모델(LLM)을 그래프 학습 과제에 적용하기 위한 유망한 방향으로 부상했다. 그래프 위상 정보와 노드 정보를 그래프 토큰으로 변환함으로써, GLM은 구조화된 그래프 입력과 텍스트 명령을 LLM이 공동으로 처리할 수 있게 한다. 그러나 LLM이 이러한 그래프 토큰을 내부적으로 어떻게 해석하는지, 그리고 그래프 토큰이 그래프 구조의 의미 있는 전달자 역할을 하는지는 여전히 불분명하다. 본 연구에서는 대표적인 GLM 아키텍처에서 그래프 토큰의 행동을 통해 LLM이 그래프 정보를 처리하는 방식을 분석한다. **발견 사항.** GLM에서 그래프 토큰의 내부 현저성(saliency)은 그래프 정보 활용과 동일하지 않다는 점을 발견했다. 그래프 싱크 토큰은 활성화 수준의 이상치로 일관되게 나타난다. 즉, 적은 수의 은닉 상태 차원을 따라 큰 활성화 값을 가지며, 초기 그래프 토큰 위치에 편향되는 경향이 있다. 그러나 이러한 활성화 수준의 현저성이 해당 토큰이 그래프 정보의 주요 전달자임을 의미하지는 않는다. 언어 및 시각-언어 모델의 고전적인 어텐션 싱크와 달리, 그래프 싱크 토큰이 반드시 쿼리 토큰으로부터 가장 큰 어텐션 가중치를 끌어들이는 것은 아니다. 가지치기(pruning), 재배치(repositioning), 교체(swapping) 개입을 통해, 그래프 싱크 토큰이 하위 예측을 위한 가장 중요한 의미론적 또는 구조적 토큰이 아님을 보여준다. **시사점.** 종합하면, 이러한 결과는 현재의 GLM이 그래프 구조를 LLM 토큰 공간으로 매핑한 후, 결과적인 그래프 토큰 표현이 자연스럽게 완전히 사용 가능한 위상 인식 내부 표현을 형성하지 않는다는 것을 시사한다. 대신, 이들은 활성화 수준의 현저성과 그래프-의미론적 유용성 사이의 분리를 나타낸다. 이러한 분리는 기존 그래프 토큰의 구성, 배치 및 정렬 메커니즘의 한계를 지적한다.

효율적이고 제어 가능한 LLM 추론을 위한 에이전트 기반 Chain-of-Thought 유도
Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

Jun 2

ByYu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley

대규모 언어 모델은 확장된 사고 사슬 추론을 통해 최종 응답 정확도를 향상시키지만, 종종 토큰을 비효율적으로 소비하고 추론 시간 제어 기능이 거의 없습니다. 기존의 효율적 추론 방법은 단축, 조기 중단 또는 추적 압축을 통해 사고 길이를 제어하며, 모델이 어떻게 생각하는지는 암시적으로 남겨둡니다. 본 논문에서는 추론 조향을 마르코프 결정 과정으로 공식화하는 에이전트 기반 사고 사슬 조향(ACTS)을 제안합니다. 이 과정에서 제어기 에이전트가 추론 중에 고정된 추론기를 적응적으로 조향합니다. 각 단계에서 제어기는 추론 추적과 남은 사고 예산을 관찰한 후, 추론 전략과 다음 추론기 단계를 시작하는 조향 구절로 구성된 조향 행동을 발행합니다. 이를 통해 추론기의 생성 연속성을 유지하면서 효율적 추론을 위한 예산 인식 전략 제어가 가능해집니다. 우리는 다중 예산 증강을 통해 구축한 합성 조향 궤적으로부터 제어기 에이전트를 초기화하고, 예산 조건부 보상 형성을 통한 강화 학습으로 이를 추가 최적화합니다. 여러 벤치마크에 걸친 실험 결과, ACTS가 상당한 토큰 절감으로 완전 사고 성능에 도달하며, 다양한 추론기와 작업에서 제어 가능한 정확도-효율성 트레이드오프를 가능하게 함을 보여줍니다. 코드는 https://github.com/Andree-9/ACTS에서 확인할 수 있습니다.

대칭성-데이터 교환율 측정
Measuring the Symmetry--Data Exchange Rate

May 31

ByAhmed M. Adly

등변성 이론은 아키텍처 대칭 사전 분포가 표본 복잡도를 |G|배만큼 줄인다고 예측하는데, 이는 널리 인용되지만 통제된 환경에서 사전 분포와 교란 요인을 분리하여 스케일링 법칙으로 측정된 경우는 드물다. 통제된 C_n 대칭 과제에서 우리는 세 가지 결과를 보고한다. 첫째, 동일한 궤도 크기와 일치하는 계산량을 가진 잘못된 그룹 통제는 제약이 없는 경우보다 더 나쁘다(쌍별 결합 CI [+0.79, +3.26]이 0을 배제하며, 추정량에 걸쳐 강건함). 정렬되지 않은 제약은 단순히 도움이 되지 않는 것이 아니라 적극적으로 해롭다. 둘째, 테스트 시 궤도 평균을 갖춘 증강 기준선은 등변 모델과 정확히 일치한다(일치하는 셀에 걸쳐 비트 단위로 동일한 에폭별 검증 곡선). 따라서 아키텍처 대 증강 간 격차는 비대칭적 테스트 시 계산량에 조건부적이며, 무조건적이지 않다. 셋째, 상대 교환 비율 beta_diff = 1.28은 부호와 크기 순서에서 이론적 값 1.0과 일관된다(단일 수준 CI [+0.92, +2.05]). 보다 보수적인 이중 수준 부트스트랩(시드 × 그룹 크기)은 이 구간을 [-0.63, +1.72]로 확장하며 0을 포함하고, √2 간격 그리드에서의 더 세밀한 N 복제는 결정적이지 않다(점 추정치 -0.82). 방법론적 기여(공유 난이도 교란 요인을 상쇄하는 상대 비율 추정량, 잘못된 그룹 통제, 사전 지정된 실패 분류 체계)는 강도를 매개변수화할 수 있는 모든 귀납적 편향에 적용 가능하다. 정직한 범위 설정: 주요 추정량인 beta_diff는 초기 분석에서 양의 기울기 식별 가능성 문제가 드러난 후 사후적으로 채택되었다. 설계는 외부에 사전 등록되지 않았으며, 표제 수치는 성근 N 그리드에서 7개 그룹 크기에 대한 OLS 기울기에 의존한다. 이는 확증적 측정이 아닌 탐색적 연구이며, 잘못된 그룹 결과가 가장 명확한 발견으로 가장 높은 확신을 가지고 보고한다. 새로운 시드를 사용한 등록된 복제 연구는 향후 과제로 남긴다.

준지도 노이즈 적응: 노이즈 도메인으로부터의 지식 전이
Semi-Supervised Noise Adaptation: Transferring Knowledge from Noise Domain

May 30

ByYuan Yao, Jin Song, Huixia Li, Tongtong Yuan, Jiaqi Wu, Yu Zhang

전이 학습은 소스 도메인의 지식을 전이하여 타겟 도메인의 학습을 용이하게 하는 것을 목표로 한다. 소스 도메인은 일반적으로 효과적인 지식 전이를 위해 의미적으로 유의미한 샘플(예: 이미지)을 포함한다. 그러나 최근 연구에서는 단순한 분포(예: 가우시안 분포)로 구성된 노이즈 도메인이 준지도 설정에서 대리 소스 도메인으로 활용될 수 있음을 관찰했으며, 이 설정에서는 타겟 샘플 중 소수만 레이블이 있고 대부분은 레이블이 없는 상태이다. 이 놀라운 관찰을 바탕으로, 우리는 합성 노이즈 도메인을 활용하여 타겟 도메인의 일반화 성능을 향상시키는 것을 목표로 하는 '준지도 노이즈 적응(Semi-Supervised Noise Adaptation, SSNA)'이라는 새로운 문제를 정식화한다. 이 문제를 해결하기 위해, 우리는 먼저 노이즈 도메인이 일반화에 미치는 영향을 특성화하는 일반화 경계(generalization bound)를 설정하고, 이를 기반으로 노이즈 적응 프레임워크(Noise Adaptation Framework, NAF)를 제안한다. 광범위한 실험을 통해 NAF가 노이즈 도메인을 효과적으로 활용하여 타겟 도메인의 일반화 경계를 강화(즉, 좁힘)하고, 그 결과 성능이 향상됨을 입증한다. 코드는 https://github.com/AIResearch-Group/SSNA에서 확인할 수 있다.

대규모 언어 모델, 보상 해킹, 그리고 사회
Large Language Models Hack Rewards, and Society

Jun 2

ByWei Liu, Xinyi Mou, Hanqi Yan, Zhongyu Wei, Yulan He

강화 학습(RL)은 대규모 언어 모델(LLM)이 보상으로부터 학습할 수 있게 해주는 지배적인 사후 학습 패러다임이 되었다. 우리는 사회적 규제가 보상 함수와 구조적으로 유사함을 관찰한다. 규제는 측정 가능한 결과, 임계값, 예외를 정의하지만, 종종 제도적 의도를 부분적으로만 명시한다. 우리는 RL 훈련 과정이 이러한 간극을 악용할 수 있다고 가설을 세우고, 따라서 RL 과정에서 모델이 보상 함수를 해킹하려는 잘 알려진 경향이 사회가 운영되는 규칙의 허점을 발견하는 더 중대한 실패 모드인 사회적 해킹으로 확장될 수 있는지 질문한다. 이 현상을 연구하기 위해 우리는 72개의 사회적 환경으로 구성된 샌드박스인 SocioHack을 도입했으며, 이러한 환경 내에서 보상 해킹이 자연스럽게 발생하여 규제 허점 발견으로 이어짐을 확인했다. 모델은 사회적 규칙을 해킹하는 방법을 학습하여 기술적으로는 규정을 준수하면서도 규제 의도를 무력화하는 전략을 생성하며, 현재의 LLM 안전장치는 제한적인 완화만을 제공한다. 따라서 모델 훈련을 위한 현장 피드백 수집에는 더 큰 주의가 필요하며, 실제 사회에서 LLM을 안전하게 반복적으로 개선하기 위한 차세대 사후 학습 패러다임이 필요하다.

SuperMemory-VQA: 장기 기억을 위한 에고센트릭 시각 질의응답 벤치마크
SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory

May 30

BySamiul Alam, Shakhrul Iman Siam, Michael J. Proulx, James Fort, Richard Newcombe, Hyo Jin Kim, Mi Zhang

AI 안경은 AI 에이전트가 개인화된 기억 보조자 역할을 수행할 수 있는 매력적인 플랫폼을 제공한다. 진정으로 유용하려면 이러한 시스템은 단기 비디오 이해를 넘어 인간이 실용적, 개인적 또는 사회적 목적으로 장기적인 자기중심적 비디오 스트림에서 경험하는 기억 공백을 해결해야 한다. 그러나 기존의 자기중심적 데이터셋은 주로 단편 클립에서의 행동 인식이나 일반적인 질의응답에 초점을 맞추어, 현실적인 인간의 기억 요구보다는 지각 능력을 측정한다. 우리는 실용적이고 장기적인 기억 작업에서 AI 어시스턴트를 평가하기 위한 자기중심적 시각 질의응답(VQA) 데이터셋인 SuperMemory-VQA를 소개한다. 이 데이터셋은 AI 안경으로 녹화된 52.9시간의 일상 활동을 포함하며, 동기화된 RGB 비디오, 오디오 전사, 시선 추적, IMU 및 SLAM 궤적을 포함한다. 인간 검증 주석 파이프라인을 통해 우리는 객체 및 위치 기억, 의도 회상, 시각적 장면 회상, 타임라인 재구성, 대화 기억 및 맥락 내 검색을 포괄하는 근거 기반의 4,853개의 질문-답변 쌍을 구축했다. 각 질문은 명시적인 '답변 불가' 옵션이 있는 객관식으로 제공되어 환각(hallucination) 견고성을 테스트한다. 주요 에이전틱 프레임워크 및 LLM 백본을 벤치마킹한 결과, 기존 시스템은 실제 기억 작업에서 여전히 신뢰성과 거리가 멀다는 것이 밝혀졌으며, 이는 증거가 충분할 때만 답변할 수 있는 근거 기반 AI 기억을 위한 새로운 아키텍처의 필요성을 강조한다. 참가자 설문조사는 또한 우리의 질문이 현실적이고 유용하며 일상적인 기억 요구와 일치함을 뒷받침한다.

대리 우도 추정기를 활용한 확장 가능한 추론 시 어닐링
Scalable Inference-Time Annealing with Surrogate Likelihood Estimators

Jun 1

ByDaniel Peñaherrera, Rishal Aggarwal, David Ryan Koes

계산화학과 생물물리학의 오랜 과제는 분자의 볼츠만 분포를 효율적으로 샘플링하는 것입니다. 생성 모델링의 발전은 시뮬레이션의 계산 비용을 제거함으로써 기존 샘플링 기법의 한계를 해결하기 위해 제안되었습니다. 유망한 방향은 온도 사다리를 따라 확산 모델을 반복적으로 미세 조정하는 것으로, 추론 시간 어닐링 중 중요도 샘플링을 통해 훈련 데이터를 생성합니다. 불행히도 이러한 방법은 중요도 가중치를 추정하기 위해 점수 필드에 대한 발산을 계산해야 하므로 더 큰 시스템에서 다루기 어렵게 만듭니다. 여기에서는 확장 가능한 추론 시간 어닐링(SITA)을 제시합니다. 이 방법은 에너지 기반 모델을 사용하여 빠른 대리 우도를 촉진함으로써 점진적으로 더 낮은 온도에서 샘플을 생성하도록 흐름 기반 모델을 재훈련합니다. 우리는 비용이 많이 드는 발산 항을 피하면서 알라닌 이펩타이드와 알라닌 트리펩타이드 모두에서 최첨단 성능을 입증합니다. 우리의 코드는 https://github.com/countrsignal/sita.git에서 확인할 수 있습니다.

기능적 어텐션: 쌍별 친화도에서 함수적 대응으로
Functional Attention: From Pairwise Affinities to Functional Correspondences

May 29

ByJiefang Xiao, Maolin Gao, Simon Weber, Guandao Yang, Daniel Cremers

무한 차원 함수 공간 간의 매핑을 학습하는 것, 즉 연산자 학습은 많은 머신러닝 응용에서 필수적이다. 트랜스포머 기반 연산자가 널리 사용되지만, 이들은 종종 토큰별 어텐션에 의존한다. 이러한 방법들은 연속 장을 이산 토큰으로 취급하며 일반적으로 전역 함수 구조를 무시한다. 본 논문에서는 어텐션을 적응형 기저 간의 함수적 대응으로 재해석하는 함수적 어텐션(Functional Attention)을 제안한다. 기하학적 함수 맵에서 영감을 받은 이 방법은 소프트맥스 유사도를 구조화된 선형 연산자로 대체한다. 이를 통해 전역 의존성을 명시적으로 포착하는 간결하고 일반화 가능하며 해상도 불변인 표현을 얻을 수 있다. 실험 결과, 함수적 어텐션은 편미분방정식 해결, 3차원 분할, 회귀 등 다양한 연산자 학습 과제에서 최첨단 성능과 일치하면서도 다양한 이산화에 강건함을 보여준다. 프로젝트 페이지는 https://github.com/xjffff/FUNCATTN 에서 확인할 수 있다.

프롬프트 인식 가중치를 활용한 훈련 없는 다중 개념 LoRA 구성
Training-Free Multi-Concept LoRA Composition with Prompt-Aware Weighting

Jun 2

ByGeorgios Tsoumplekas, Stella Bounareli, Vasileios Argyriou

저랭크 적응(LoRA)은 사전 학습된 확산 모델을 특정 시각적 개념과 스타일에 적응시킴으로써 텍스트-이미지 생성에서 개인화를 성공적으로 가능하게 한다. 그러나 이러한 모델을 다중 개념 맞춤화로 확장하는 것은 여전히 어려운 과제이다. 여러 LoRA 가중치 또는 그 출력을 단순히 결합하면 개념 간 간섭이 발생하여 시각적 품질이 저하되고 개별 개념의 참조 이미지에 대한 충실도가 감소하는 경우가 많다. 본 논문에서는 여러 LoRA 모듈의 출력을 최적으로 결합하는 간단하면서도 효과적인 다중 개념 맞춤화 접근법을 제안한다. 생성 과정에서 각 개념의 상대적 중요성을 활용하며, 이는 해당 프롬프트 토큰으로부터 추론된다. W-Switch와 W-Composite이라는 두 가지 방법을 도입하는데, 이들은 프롬프트 인식 중요도 가중치 전략을 사용하여 각 LoRA가 대상 프롬프트 내 트리거 단어의 의미론적 영향에 따라 가중치가 부여되도록 한다. 또한, 기존 정량적 평가 지표를 확장하여 실제 참조 이미지와 생성된 이미지에서 자동으로 분할된 개념 영역 간의 비교를 통해 이미지 충실도와 정체성 보존을 평가하는 새로운 이미지 기반 유사도 평가 프레임워크를 제안한다. ComposLoRA 테스트베드에서 접근법을 평가한 결과, 시각적 품질, 정체성 보존 및 구성성 측면에서 기존 최신 방법들에 비해 일관된 개선을 보여주었다. 대규모 언어 모델(LLM) 기반 평가와 사용자 연구를 포함한 정성적 평가는 제안된 방법의 효과성을 추가로 검증하며, 새로 도입된 정량적 이미지 기반 지표와 일치함을 보여준다. 코드는 https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition에서 확인할 수 있다.

텍스트 편집이 시각 생성으로 일반화되는가? UMM에서의 교차 모달 지식 편집 벤치마킹
Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

May 30

ByXin Gao, Cheng Yang, Chufan Shi, Taylor Berg-Kirkpatrick

통합 멀티모달 모델(UMM)은 범용 멀티모달 지능을 위한 유망한 패러다임으로 부상했다. 실제 응용 환경에 배포됨에 따라 내부 지식을 효과적으로 업데이트하는 것이 중요해진다. 텍스트 전용 모델에서 지식 편집이 성숙해졌지만, 텍스트 출력을 성공적으로 수정하는 편집이 UMM의 이미지 생성에도 전이되는지는 여전히 불분명하다. 이 문제를 연구하기 위해, 우리는 속성 및 관계 편집을 포괄하는 2,971개의 편집 주제로 구성된 UMM에서의 최초의 교차 모달리티 지식 편집 벤치마크인 UniKE를 소개한다. VQA 기반의 시각적 검증을 사용하여 놀라운 모달리티 격차를 발견했다: 텍스트 측 효과는 약 92%에 도달할 수 있는 반면, 직접 이미지 생성 하에서의 최고 전체 VQA 정확도는 18.5%에 불과하다. 또한 생성 전에 편집된 지식을 명시적으로 활성화하고 평가된 모든 모델-편집기 쌍에 대해 전체 VQA 정확도를 최대 18.6%p까지 향상시키는 추론 증강 파라미터 편집(Reasoning-augmented Parameter Editing)을 제안한다. 메커니즘 분석은 이 격차가 편집된 텍스트 표현과 시각 생성을 위한 조건화 경로 간의 부분적 정렬과 관련이 있으며, 텍스트 출력에 충분한 편집이 이미지 생성을 유도하기에는 너무 약하거나 정렬이 잘못될 수 있음을 보여준다. 이러한 발견은 텍스트 지식 편집이 신뢰할 수 있는 교차 모달리티 전이를 보장하지 않으며, 모달리티 인식 편집 방법의 필요성을 시사한다. 코드와 데이터는 https://github.com/gxx27/UniKE에서 확인할 수 있다.

토큰 예산: LLM 에이전트의 예산 초과 사고 63건에 대한 경험적 목록 및 Affine 타입 Rust 완화 방안 사례 연구
Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study

Jun 2

BySajjad Khan

LLM 에이전트 예산 초과는 문서화된 프로덕션 실패 클래스로, 단일 재시도 루프가 운영자가 인지하기 전에 수천 달러를 지출할 수 있으며, 이를 방지할 수 있는 프로세스 내 무결성 속성(별칭 금지, 이중 지출 금지, 비용 부담 값의 위임 후 사용 금지)은 있다 하더라도 타입 시스템이 아닌 임시 래퍼에 의해 적용됩니다. 본 연구의 핵심 기여는 경험적입니다. 21개의 오케스트레이션 프레임워크(2023–2026)에서 발생한 63건의 확인된 프로덕션 인시던트 카탈로그로, 각각 인용된 GitHub 이슈와 보고된 달러 손실을 포함하며, 8개 클러스터의 실패 분류 체계(평가자 간 Cohen's kappa = 0.837, N = 113)로 구성되어 있습니다. 추가로 47개의 보조 구조적 항목이 있습니다. 이 분류 체계에 대해 평가된 한 가지 완화 방안으로, 우리는 1,180줄의 Rust 크레이트(unsafe 없음)인 token-budgets를 구축했습니다. 이 크레이트는 아핀 소유권을 구현하여 복제, 이중 지출 또는 예산 위임 후 사용이 운영자가 기억해야 하는 런타임 위험이 아닌 컴파일 오류가 되도록 합니다. 달러 상한은 추정기 가정 하의 런타임 산술이며, 아핀 계층은 해당 산술을 우회할 수 없게 만듭니다. 단일 에이전트 워크로드에서는 4줄의 Python 카운터가 0/30 초과로 크레이트와 일치하므로, 차별화되는 가치는 다중 에이전트 위임에서 운영자 오류 하의 우회 불가능성입니다. 11건의 인시던트에서 문서화된 위임-팬아웃 경쟁은 컴파일 시 borrow checker에 의해 거부되는 반면, asyncio 하의 동일한 패턴은 30/30을 초과하고 세 가지 규율 있는 대안은 0/30을 초과합니다. 5개의 런타임, 3개의 제공자, 그리고 온도 계층화된 라이브 API 테스트(N = 160)에서 이 접근 방식은 상한 위반 0건, 거짓 거부 0건을 보고하며, 동시 연구와 운영적 동등성을 보입니다. 정적 초과 예약은 4–6배(적응형 2.11배)입니다. 실행 중인 바이너리에 대한 바이너리 수준의 상한 건전성은 미해결 과제로 남겨둡니다.