HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

44 papers found

ABot-Earth 0.5: 생성형 3D 지구 모델
ABot-Earth 0.5: Generative 3D Earth Model

Jun 8

ByMing Qian, Tianjian Ouyang, Mingchao Sun, Zijian Wang, Jincheng Xiong, Jiarong Han, Yongchang Zhang, Jiawei Zhang, Xu Wang, Yu Liu, Luyang Tang, Fei Yu, Zengye Ge, Mengmeng Du, Yuan Liu, Nianfei Fan, Song Wang, Yingliang Peng, Chunxue Jia, Yang Liu, Shiying Zeng, Haozhe Shi, Junnan Lai, Hongyu Pan, Zheng Wu, Ning Guo, Mu Xu, Hang Zhang

193

본 논문에서는 ABot-Earth 0.5를 제시한다. 이는 광범위하고 매끄러운 3D 환경을 보편적이며 지리공간 참조된 위성 이미지로부터 합성하도록 설계된 생성적 3D 프레임워크이다. 이를 위해, 우리는 3D 가우시안 스플래팅(3DGS) 표현을 직접 활용하는 새로운 생성 모델을 제안한다. 이 모델은 기존 실제 도시 재구성 데이터의 다양한 코퍼스로 학습되어 사실적인 기하학 및 텍스처를 생성하는 방법을 습득한다. 추론 시, 단위 면적(제곱킬로미터)당 10분 미만의 확장 가능한 속도로 위성 이미지만을 조건으로 새로운 3D 장면을 합성하며, 뛰어난 사실성을 보여준다. 이 프레임워크는 접근성을 염두에 두고 설계되었으며, 통합된 계층적 상세 수준(LOD) 구조를 통해 웹 기반 지도 엔진에서 실시간 대화형 시각화를 가능하게 한다. 이러한 고충실도 시뮬레이션 샌드박스는 시뮬레이션-현실(sim-to-real) 도메인 격차를 효과적으로 완화하여 폐쇄 루프 무인항공기(UAV) 항법과 같은 중요한 다운스트림 체화 AI(Embodied AI) 응용을 지원한다. ABot-Earth 0.5는 초저비용·고효율 솔루션을 제공함으로써 대규모 3D 재구성에 대한 기술적 및 재정적 장벽을 크게 낮추고, 글로벌 디지털 지구 시각화의 미래를 강화한다.

Kwai Keye-VL-2.0 기술 보고서
Kwai Keye-VL-2.0 Technical Report

Jun 9

ByKwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

167

Kwai Keye-VL-2.0-30B-A3B를 소개합니다. 이는 오픈소스 Mixture-of-Experts (MoE) 멀티모달 기반 모델로, 긴 비디오 이해와 에이전트 지능을 발전시키기 위해 설계되었습니다. 시간 단위 비디오에 내재된 초장기 컨텍스트, 정보 중복, 그리고 엄청난 계산 비용의 문제를 해결하기 위해 Keye-VL-2.0은 GQA 기반 멀티모달 아키텍처에 DeepSeek Sparse Attention (DSA)을 최초로 적용하여, 손실 없는 256K 컨텍스트 처리를 가능하게 하면서 핵심 프레임과 장기 시간적 의존성을 포착합니다. 이 아키텍처는 확장 가능한 비디오 I/O, 이종 ViT-LM 병렬 처리, 그리고 처리량을 극대화하고 계산 오버헤드를 최소화하는 맞춤형 DSA 커널을 포함한 고도로 최적화된 학습 및 추론 인프라에 의해 뒷받침됩니다. 또한, 다중 작업 정렬 중 치명적 망각의 알고리즘적 딜레마를 극복하기 위해, Context-RL 및 Video-RL과 결합된 Cross-Modal Multi-Teacher On-Policy Distillation (MOPD)을 도입합니다. 온-폴리시 롤아웃에서 얻은 밀집된 토큰 수준의 교사 피드백을 오직 3B 파라미터만 활성화하는 MoE 백본에 증류함으로써, Keye-VL-2.0은 코드, 도구, 검색 시나리오 전반에 걸쳐 멀티모달 자기 교정을 통한 고급 에이전트 협업을 본질적으로 가능하게 합니다. 비디오 이해, 시간적 근거 추론, 추론, STEM, 그리고 에이전트 벤치마크에 대한 광범위한 평가에서 Keye-VL-2.0-30B-A3B는 유사한 규모의 모델 중 최고 성능을 달성하며, 특히 TimeLens에서의 세분화된 시간적 위치 파악과 Video-MME-v2 및 LongVideoBench에서의 긴 비디오 이해에서 뛰어난 성과를 보여줍니다. 확장 가능하고 강건한 멀티모달 에이전트 애플리케이션을 향한 커뮤니티의 발전을 가속화하기 위해 모델 체크포인트를 공개합니다.

Role-Agent: 이중 역할 진화를 통한 LLM 에이전트 부트스트래핑
Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Jun 9

ByXucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu

대규모 언어 모델(LLM) 기반 에이전트는 복잡한 작업에서 뛰어난 성능을 보여주지만, 비효율적인 상호작용 피드백과 정적인 훈련 환경으로 인해 학습이 제한되어 광범위한 일반화에 장애가 된다. 이러한 한계를 해결하기 위해, 본 논문은 단일 LLM이 에이전트와 환경 역할을 동시에 수행하도록 하여 부트스트래핑된 공진화를 가능하게 하는 프레임워크인 Role-Agent를 소개한다. Role-Agent는 두 가지 상호 보완적 구성 요소, 즉 세계-내-에이전트(WIA)와 에이전트-내-세계(AIW)로 구성된다. WIA에서 LLM은 에이전트로 작동하며 각 행동 이후 미래 상태를 예측하고, 예측 상태와 실제 상태 간의 정렬을 과정 보상으로 활용하여 환경 인식 추론을 장려한다. AIW에서는 LLM이 실패한 궤적으로부터 실패 모드를 분석하고 유사한 실패 패턴을 가진 작업을 검색하여 훈련 데이터 분포를 표적 연습에 맞게 재구성한다. 여러 벤치마크에 대한 실험 결과, Role-Agent는 일관되게 성능을 향상시켜 강력한 기준선 대비 평균 4% 이상의 개선을 보여준다.

회고적 활용 최적화: 궤적 롤아웃에 대한 자기 선호도를 통한 LLM 에이전트 개선
Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

Jun 4

ByWenbo Pan, Shujie Liu, Chin-Yew Lin, Jingying Zeng, Xianfeng Tang, Xiangyang Zhou, Yan Lu, Xiaohua Jia

AI 에이전트는 복잡한 문제를 해결하기 위해 스킬, 도구 및 워크플로우로 구성된 하네스(harness)에 의존합니다. 새로운 작업에 적응하려면 이 하네스를 지속적으로 개선하는 것이 필수적입니다. 그러나 기존 최적화 방법은 일반적으로 실제 정답 검증 세트를 필요로 하지만, 이러한 레이블이 지정된 데이터는 실제 배포 환경에서 획득하기 어렵습니다. 이 문제를 해결하기 위해, 본 연구에서는 과거 궤적만을 사용하여 에이전트 하네스를 최적화하는 자기지도 학습 방법인 회고적 하네스 최적화(Retrospective Harness Optimization, RHO)를 소개합니다. 구체적으로, RHO는 과거 궤적에서 다양한 난이도의 코어셋(corset)을 선택하고 이를 병렬로 재해결합니다. 에이전트는 자체 검증 및 자기 일관성(self-validation and self-consistency)을 사용하여 이러한 롤아웃을 분석한 후, 후보 하네스 업데이트를 생성하고 자체 쌍별 자기 선호(pairwise self-preference)에 따라 가장 효과적인 업데이트를 선택합니다. 우리는 소프트웨어 엔지니어링, 기술 작업, 지식 작업 등 세 가지 다양한 도메인에서 RHO를 평가했습니다. 특히, 단일 최적화 라운드에서 외부 평가 없이 SWE-Bench Pro의 통과율을 59%에서 78%로 향상시켰습니다. 또한, 분석 결과 RHO가 이전의 실패 모드를 효과적으로 타겟팅함을 보여줍니다. 결과적으로 최적화된 하네스는 에이전트의 행동 패턴을 변경하고 장기 세션 동안 높은 정확도를 유지합니다.

SearchSwarm: 장기 심층 연구를 위한 에이전트 LLM의 위임 지능을 향하여
SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

Jun 8

ByPu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou

대규모 언어 모델은 점차 컨텍스트 요구사항이 무한히 증가할 수 있는 복잡하고 장기적인 실제 작업을 처리할 것으로 기대되지만, 모델의 컨텍스트 윈도우는 본질적으로 유한하다. 최근 연구에서는 주 에이전트가 작업을 분해하고 하위 에이전트에 하위 작업을 할당하여, 하위 에이전트가 실행 후 요약된 결과만 반환함으로써 주 에이전트의 컨텍스트 예산을 절약하는 패러다임을 탐구하고 있다. 그러나 이를 효과적으로 수행하려면 복잡한 작업을 분해하고, 언제 무엇을 위임할지 결정하며, 반환된 결과를 진행 중인 작업 흐름에 통합하는 능력, 즉 위임 지능이 필요하다. 이러한 능력을 위한 훈련 데이터는 자연적으로 발생하는 텍스트에서 드물며, 우리가 아는 한, 이러한 데이터를 합성하고 모델이 이 능력을 습득하도록 훈련하는 방법은 오픈소스 커뮤니티에서 아직 충분히 탐구되지 않았다. 이러한 격차를 해소하기 위해, 우리는 장기 에이전트 작업의 대표 사례인 심층 연구를 대상으로 한 예비 탐색을 제시한다. 구체적으로, 우리는 모델이 고품질의 작업 분해 및 위임을 수행하도록 안내하면서, 하위 에이전트가 주 에이전트의 작업 흐름을 지원하기 위해 적절하게 결과를 반환하도록 제약하는 하네스를 설계한다. 하네스 안내를 받은 궤적에는 올바른 위임 결정이 자연스럽게 인코딩되어 있으며, 이를 지도 파인튜닝 데이터로 사용하여 위임 지능을 모델 가중치에 내재화한다. 그 결과 모델인 SearchSwarm-30B-A3B는 BrowseComp에서 68.1, BrowseComp-ZH에서 73.3을 달성하여, 유사한 규모의 모든 모델 중 최고 성능을 기록했다. 우리는 향후 연구를 촉진하기 위해 하네스, 모델 가중치 및 훈련 데이터를 공개할 예정이다.

LLM 강화 학습에서 균일한 토큰 수준 신뢰 영역을 넘어서
Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

Jun 9

ByRenjie Mao, Xiangxin Zhou, Lvfang Tao, Yixin Ding, Yu Shi, Yongguang Lin, Yuheng Wu, Honglin Zhu, Qian Qiu, Wenxi Zhu

검증 가능한 보상을 통한 강화 학습(RLVR)은 LLM 추론을 개선하기 위한 표준 방식이 되었다. 그러나 기존의 PPO 스타일 신뢰 영역 메커니즘은 모든 토큰에 대해 독립적으로 균일한 임계값을 적용하여 위치에 무관한 상태로 남아 있다. 이러한 점별 처리는 두 가지 중요한 측면에서 자기회귀 생성과 충돌한다. 첫째, 균일한 임계값은 자기회귀 비대칭성을 무시한다. 초기 단계의 편차는 누적되는 시퀀스 수준 드리프트를 유발하여, 정적 임계값이 초기 발산을 충분히 규제하지 못하고 후기 단계 탐색을 과도하게 제한하게 된다. 둘째, 토큰 수준 발산을 개별적으로 평가하는 것은 누적된 프리픽스 드리프트를 간과하여, 조건화 이력이 롤아웃 정책에서 얼마나 벗어났는지와 관계없이 동일한 발산 허용치를 부여한다. 이러한 한계를 해결하기 위해, 우리는 두 가지 결합 메커니즘을 통해 업데이트를 유한 수평선 정책 개선 한계에 맞추는 토큰 수준 마스킹 규칙인 CPPO(누적 프리픽스 발산 정책 최적화)를 제안한다. 첫째, 위치 가중 임계값은 효과가 더 오래 지속되는 초기 위치에 더 엄격한 제한을 적용하고 후기 단계 토큰에 대한 제약을 완화한다. 둘째, 누적 프리픽스 예산은 역사적 편차를 추적하여 동적으로 추가 토큰 수준 편차를 제한함으로써 프리픽스를 따라 오류가 누적되는 것을 방지한다. 실험적으로 CPPO는 훈련 안정성을 향상시키고 다양한 모델 규모에서 추론 정확도를 크게 개선한다.

MemDreamer: 계층적 그래프 메모리와 에이전트 기반 검색 메커니즘을 통한 장기 비디오 이해를 위한 인지와 추론의 분리
MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

Jun 5

ByCong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen

현재 비전-언어 모델(VLM)은 수 시간 분량의 비디오 처리 시 전체 시각적 시퀀스를 처리하는 과정에서 치명적인 수준의 토큰 폭발과 주의 분산이 발생하여 성능이 저하된다. 이를 극복하기 위해, 본 연구에서는 MemDreamer를 도입하여 인식과 추론을 분리하고, 장시간 비디오 이해를 에이전트 기반 탐색 과정으로 전환한다. 플러그 앤 플레이 방식의 프레임워크로서, 점진적으로 비디오를 스트리밍하여 계층적 그래프 메모리(Hierarchical Graph Memory)를 구축한다. 이는 상향식 3계층 구조의 의미론적 추상화 아키텍처로, 시공간 및 인과 관계를 포착하는 기초 그래프가 핵심을 이룬다. 추론 과정에서 추론 모델은 에이전트 기반 도구 증강 검색을 활용하며, 관찰-추론-행동(Observation-Reason-Action) 루프를 통해 계층 구조를 탐색하고 노드를 검색하며 논리적 엣지를 따라 이동한다. 실험 결과, MemDreamer는 4개 주요 벤치마크에서 최첨단 성능을 달성하여 인간 전문가와의 격차를 단 3.7포인트로 좁혔다. 전체 콘텍스트 입력 대비 추론 컨텍스트 윈도우를 단 2%로 제한하면서도 절대 정확도가 12.5포인트 향상되었다. 또한 통계 분석을 통해 VLM의 논리 추론 성능과 장시간 비디오 이해 벤치마크 간 강한 양의 선형 상관관계를 발견하였으며, 이는 에이전트 역량 확장을 다중 모달 이해의 새로운 패러다임으로 정립한다.

Flow-DPPO: 흐름 매칭 모델을 위한 발산 근접 정책 최적화
Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

Jun 9

ByBowen Ping, Xiangxin Zhou, Penghui Qi, Minnan Luo, Liefeng Bo, Tianyu Pang

최근 연구들은 온라인 강화 학습(RL)이 이미지 및 비디오 생성을 위한 흐름 정합 모델의 품질과 정렬을 실질적으로 향상시킬 수 있음을 보여주었다. Flow-GRPO와 CPS와 같은 방법들은 잡음 제거 과정을 마르코프 결정 과정으로 간주하고 PPO 스타일의 비율 클리핑을 적용하여 신뢰 영역을 강제한다. 그러나 우리는 비율 클리핑이 흐름 모델에 구조적으로 부적합하다고 주장한다. 새 정책과 기존 정책 간의 확률 비율은 실제 정책 발산에 대한 잡음이 섞인 단일 샘플 추정치에 불과하므로, 궤적의 일부 영역에서는 과도하게 제약하고 다른 영역에서는 충분히 제약하지 못한다. 우리는 비율 클리핑을 발산 근접 제약으로 대체하는 Flow-DPPO(Flow Divergence Proximal Policy Optimization)를 제안한다. 핵심 관찰은 흐름 모델의 단계별 정책이 가우시안 분포를 따르므로, 기존 정책과 새 정책 간의 KL 발산을 정확하고 저비용으로 계산할 수 있다는 점이다. Flow-DPPO는 비대칭 발산 마스크를 사용하여, 신뢰 영역에서 벗어나면서 동시에 발산 임계값을 위반하는 경우에만 그래디언트 업데이트를 차단한다. 실험 결과, Flow-DPPO는 더 높은 보상을 달성하면서도 KL 근접 효율이 우수하고, 파국적 망각을 완화하며, 균형 잡힌 다중 목표 최적화를 촉진하고, 비율 클리핑이 성능 저하를 일으키는 다중 에폭 훈련에서도 안정적인 학습을 가능하게 함을 보여준다. 코드와 모델은 https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO 에서 확인할 수 있다.

SCAIL-2: 종단간 인-컨텍스트 조건화를 통한 제어된 캐릭터 애니메이션 통합
SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning

Jun 9

ByWenhao Yan, Fengjia Guo, Zhuoyi Yang, Jie Tang

제어된 캐릭터 애니메이션은 구동 시퀀스에서 참조 캐릭터로 동작을 전이하는 것을 필요로 한다. 기존 연구는 동작을 나타내는 포즈 스켈레톤이나 환경을 나타내는 마스킹된 배경 등 중간 표현에 크게 의존하였으며, 이는 필연적으로 정보 손실을 초래한다. 이러한 문제를 해결하기 위해, 우리는 이러한 중간 단계를 생략하고 엔드 투 엔드 캐릭터 애니메이션을 달성하는 프레임워크인 SCAIL-2를 제안한다. 구동 비디오를 시퀀스에 직접 연결함으로써, 모델은 입력 비디오로부터 필요한 모든 시각적 정보를 얻을 수 있다. 엔드 투 엔드 데이터의 부족을 해결하기 위해, 우리는 캐릭터 애니메이션의 하위 작업을 분리된 조건과 통일한 후, 캐릭터 애니메이션의 이질적인 작업을 포함하는 엔드 투 엔드 동작 전이 데이터셋인 MotionPair-60K를 합성하는 파이프라인을 구성한다. 이러한 통일성을 달성하기 위해, 우리는 텍스트 명령어와 원시 시각적 정보를 넘어서는 소프트 가이던스로 컨텍스트 내 마스크 조건화와 모드별 RoPE를 활용한다. 세부 영역에서의 합성 데이터 불일치를 해결하기 위해, 우리는 편향 인식 DPO를 제안하여 선호 항목을 구성함으로써 오류를 완화한다. 광범위한 실험 결과, 우리의 방법이 다양한 캐릭터 애니메이션 작업에서 기존 최신 기법들을 현저히 능가함을 보여준다. 합성 데이터의 많은 부분과 모델 가중치는 프로젝트 페이지(https://teal024.github.io/SCAIL-2/)에서 공개될 예정이다.

립 포싱: 실시간 입술 동기화를 위한 소수 단계 자기회귀 확산
Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

Jun 9

ByPaul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim

확산 기반 입술 동기화 모델은 뛰어난 시각적 품질과 시청각 정렬을 달성하지만, 전체 시퀀스 양방향 어텐션과 많은 잡음 제거 단계로 인해 실시간 추론에 실용적이지 않습니다. 우리는 연구진이 아는 한 비디오-투-비디오(V2V) 입술 동기화를 위한 최초의 자기회귀 확산 방법인 Lip Forcing을 제시하며, 이는 14B 오디오 조건부 양방향 비디오 확산 교사 모델을 인과적 학생 모델로 증류합니다. 추론 시 학생 모델은 추론 시간 CFG 없이 단 두 번의 잡음 제거 단계만으로 각 청크를 생성하여 실시간 입술 동기화를 가능하게 합니다. 입술 동기화 특화 교사 궤적 분석은 CFG 충실도-동기화 트레이드오프를 밝혀냅니다: CFG 없는 예측은 참조 충실도를 선호하는 반면, CFG 유도 예측은 중간 궤적 대역 내에서 동기화를 선호합니다. Lip Forcing은 이 발견을 세 가지 분석 기반 구성 요소, 즉 Sync-Window DMD, 두 단계 추론 일정, SyncNet 기반 보상으로 변환합니다. 우리는 14B 교사로부터 증류된 두 가지 규모의 학생 모델에서 Lip Forcing을 검증합니다. 1.3B 학생 모델은 31 FPS로 실시간 스트리밍에 도달하며, 동일 규모 양방향 모델보다 17.6배 빠릅니다. 14B 학생 모델은 V2V 입술 동기화에 대해 보고된 가장 큰 확산 모델로, 비교 가능한 참조 충실도에서 교사보다 39.8배 빠르게 실행됩니다. 첫 프레임까지의 시간은 두 규모 모두에서 서브 밀리초로, 모든 확산 기준선보다 훨씬 낮습니다.

WorldOlympiad: 당신의 세계 모델은 트라이애슬론에서 살아남을 수 있을까?
WorldOlympiad: Can Your World Model Survive a Triathlon?

Jun 9

ByYuke Zhao, Wangbo Zhao, Weijie Wang, Zeyu Zhang, Dakai An, Akide Liu, Yinghao Yu, Jiasheng Tang, Fan Wang, Wei Wang, Bohan Zhuang

저희는 물리적 충실도, 기하학적 일관성, 상호작용 신뢰성 측면에서 비디오 기반 세계 모델을 진단하기 위한 벤치마크인 WorldOlympiad를 소개합니다. 기존 벤치마크는 종종 시각적 품질, 의미적 정합성, 또는 단기 시간적 일관성에 초점을 맞추지만, 생성된 비디오가 물리 법칙을 따르고, 일관된 3차원 구조를 유지하며, 장기간에 걸쳐 제어 가능한 상호작용을 지속하는지 여부에 대한 통찰력은 제한적입니다. 이러한 격차를 해소하기 위해 WorldOlympiad는 세계 모델 평가를 세 가지 상호 보완적인 차원으로 분해합니다. 물리 트랙은 객체 분할과 MLLM-as-judge를 사용하여 생성된 비디오가 역학, 열 현상, 재료 특성에서 해석 가능한 규칙을 따르는지 평가합니다. 기하학 트랙은 생성된 비디오를 가우시안 스플래팅으로 재구성하고 구조적 일관성, 교차 시점 일관성, 카메라 궤적 정렬을 평가합니다. 상호작용 트랙은 생성된 롤아웃이 복잡한 동작 프롬프트를 따르고 연속적인 비디오 청크 간에 부드럽고 일관된 전환을 유지하는지 평가합니다. 또한 WorldOlympiad는 게임, 로봇 공학, 일반 실제 세계 비디오를 포함한 세 가지 주요 다운스트림 시나리오를 다루며, 대화형 제어 및 구현된 조작부터 개방형 동작 및 카메라 역학에 이르기까지 다양한 과제를 포착합니다. 이러한 트랙과 시나리오는 함께 일반적인 비디오 품질을 넘어서는 실패 모드를 드러내는 확장 가능하고 해석 가능한 평가 제품군을 형성합니다. 최첨단 모델에 대한 실험은 물리적 추론, 3차원 일관성, 장기 상호작용에서 상당한 격차를 드러내며, 생성적 세계 모델을 위한 보다 체계적인 평가 프로토콜의 필요성을 강조합니다.

LLM 강화 학습에서의 발산 정규화 재고
Rethinking the Divergence Regularization in LLM RL

Jun 8

ByJiarui Yao, Xiangxin Zhou, Penghui Qi, Wee Sun Lee, Liefeng Bo, Tianyu Pang

강화 학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련(post-training)에서 핵심 구성 요소로 자리 잡았다. 실제로 LLM RL은 훈련-추론 불일치(training-inference mismatch)와 정책 지연(policy staleness)으로 인해 종종 오프-폴리시(off-policy)로 수행되며, 안정적인 최적화를 위해서는 신뢰 영역(trust-region) 제어가 필수적이다. PPO와 GRPO와 같은 주류 방법은 비율 클리핑(ratio-clipping) 메커니즘으로 이 제어를 근사하지만, 중요도 비율(importance ratio)은 긴 꼬리(long-tailed) 어휘에서 분포 변화의 좋은 대리 변수가 아닐 수 있다. 최근 DPPO와 같은 연구는 비율 기반 클리핑을 발산 기반 마스크(divergence-based mask)로 대체하여 이러한 불일치를 해결하며, 샘플링된 토큰의 절대 확률 변화로 정의된 신뢰 영역을 제공한다. 그러나 DPPO는 여전히 하드 마스크(hard mask)에 의존한다. 즉, 토큰이 유해한 방향으로 신뢰 영역 경계를 넘으면 그래디언트가 수정되지 않고 폐기된다. 이 문제를 해결하기 위해 우리는 발산 정규화 정책 최적화(DRPO)를 제안한다. DRPO는 하드 마스크를 정책 변화(policy shift)에 대한 평활한 가중 이차 정규화기(advantage-weighted quadratic regularizer)로 대체한다. DRPO는 DPPO와 동일한 신뢰 영역 기하학을 유지하면서, 경계를 넘는 업데이트를 약화시키고 경계 너머에서도 수정 신호를 제공하는 유계이며 연속적인 그래디언트 가중치를 유도한다. 다양한 모델 규모, 아키텍처 및 정밀도 설정에서 수행된 실험은 DRPO가 LLM RL 훈련의 안정성과 효율성을 개선함을 보여준다.

EEVEE: 실제 환경에서 자기 개선 에이전트를 위한 테스트 시점 프롬프트 학습
EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

Jun 9

ByWeixian Xu, Shilong Liu, Mengdi Wang

본 논문에서는 EEVEE를 제안한다. 이는 LLM 에이전트를 위한 최초의 다중 데이터셋 테스트 시점 프롬프트 학습 프레임워크로, 실제 작업 스트림 환경에서 테스트 시점 프롬프트 학습을 가능하게 한다. 기존 방법들은 대부분 단일 데이터셋 환경을 위해 설계되었으나, 실제 응용에서는 여러 데이터셋, 도메인, 작업 분포로부터 도출된 이질적 입력 스트림을 처리해야 하므로 실용성이 제한된다. 교차 데이터셋 간섭을 완화하기 위해, EEVEE는 라우터를 도입하여 들어오는 입력을 작업 클러스터로 분할하고 적절한 프롬프트 구성에 할당한다. 이 설계는 라우터-프롬프트 공동 진화 전략을 통해 최적화되며, 상호 의존성을 해결하기 위해 라우터 학습과 프롬프트 학습 단계를 교차로 수행한다. 여러 데이터셋에 걸친 실험 결과, 이 프레임워크는 이질적 데이터 스트림 하에서 강건성을 향상시키면서도 단일 벤치마크 학습 능력과 효율성을 유지함을 보여준다. 구체적으로, EEVEE는 Qwen3-4B-Instruct 및 DeepSeek-V3.2 대비 평균 다중 벤치마크 점수를 각각 10.38, 24.32점 향상시켰으며, 최신 기법인 GEPA 및 ACE 대비 최대 37.2%, 48.2%의 성능 개선을 달성했다.

ARM: 통합된 이산 표현을 갖춘 자기회귀 대규모 다중 모달 모델
ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Jun 9

ByJunke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu, Feng Li, Jingxiang Sun, Chaorui Deng, Zilong Chen, Yunpeng Chen, Kaibin Tian, Matthew Gwilliam, Hao Chen, Danhui Guan, Kun Xu, Weilin Huang, Zuxuan Wu, Haoqi Fan, Yu-Gang Jiang, Zhenheng Yang

본 논문은 ARM(자기회귀 모델)을 소개한다. ARM은 이산 표현 기반의 자기회귀 모델로, 다음 토큰 예측 프레임워크 내에서 이미지 이해, 생성 및 편집을 통합한다. ARM은 세 가지 노력을 기반으로 구축되었다: 첫째, 이미지를 압축된 토큰 시퀀스로 매핑하는 이산 의미 시각적 토크나이저를 훈련한다. 이 토크나이저는 의미 식별성, 언어 정렬 및 충실한 재구성을 공동으로 촉진하는 다중 목표로 지도 학습되며, 이를 통해 공유 잠재 공간에서 다양한 작업을 지원한다. 이를 바탕으로 대규모 텍스트 및 이미지 토큰 시퀀스에 대해 70억 개의 매개변수를 가진 자기회귀 모델을 훈련하여 비전-언어 인식 및 생성 능력을 원활하게 개발한다. 마지막으로, 텍스트-이미지 생성 및 지시 기반 편집에 대한 선호도 정렬 동작을 더욱 개선하기 위해 ARM은 강화 학습(RL)을 적용하여 시각적 품질, 지시 준수 및 편집 일관성과 같은 작업 수준 목표를 최적화한다. 놀랍게도 결과는 RL이 대상 작업의 성능을 크게 향상시킬 뿐만 아니라(예: WISE 전체 0.50에서 0.56으로, GEdit-Bench-EN G_O 5.75에서 6.68로 상승) 텍스트-이미지 생성과 편집 간의 교차 작업 시너지를 유도함을 보여준다. 종합적으로, 이러한 발견은 강력한 표현 및 선호도 최적화와 결합된 자기회귀 모델링이 다중 모달 지능을 위한 확장 가능한 기반이 될 수 있음을 강조한다. 코드: https://github.com/wdrink/ARM.

Workflow-GYM: 실제 전문 분야에서 컴퓨터 사용 에이전트 작업의 장기 평가를 향하여
Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Jun 9

ByLiya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue, Shihao Liang, Ge Zhang, Xiang Gao, Qingshui Gu, Mailun Gao, Huimin Che, Yan Zhao, Peiheng Zhou, Haojun Wang, Chaobo Xian, Lili Le, Chi Wu, Yiwei Liu, Shengda Long, Jiale Yang, Fangzhi Xu, Sijin Wu, Haodong Duan, Yi Zhu, Chao He, Zhaojian Li, Minchao Wang, Huan Zhou, Jiani Hou, Chuqian Yu, Weiran Shi, Hongwan Gao, Jiamin Chen, Guanhong Chen, Tingqin Luo, Kaiyuan Zhang, Zhixin Yao, Qing Hua, Yuhao Jiang, Jin Chen, Pu Chen, Zhenyu Hu, Xingyu Li, Zhengxuan Jiang, Meng Cao, Tianfeng Long, Haozhe Wang, Mingzhang Wang, Yichen Zhang, Yiming Dai, Chenchen Zhang, Jiaying Wang, Zhiyong Wu, Shen Yan, Yujia Qin, Wenhao Huang, Zaiyuan Wang, Xiaolong Chang

최근 몇 년 동안 AI 에이전트가 점점 더 복잡하고 현실적인 작업을 처리하는 방향으로 빠르게 진화해 왔다. 그러나 기존 벤치마크는 에이전트가 그래픽 사용자 인터페이스를 조작하여 다양한 도메인에서 장기적이고 고부가가치의 전문 작업 흐름을 완료할 수 있는지 여부를 거의 평가하지 않는다. 현재의 GUI 벤치마크는 여전히 주로 범용 소프트웨어, 비교적 단순한 애플리케이션, 그리고 단기 작업에 초점을 맞추고 있어, 현대 에이전트가 사용자 지침에 따라 도메인 특화 전문 소프트웨어를 자율적으로 조작하고 경제적으로 가치 있는 작업을 종단 간 방식으로 수행할 수 있는지 여부는 대부분 알려져 있지 않다. 이러한 격차를 해소하기 위해, 우리는 전문 도메인과 특화된 소프트웨어 환경에 초점을 맞춘 장기 GUI 작업을 위한 벤치마크인 Workflow-GYM을 소개한다. 최첨단 모델에 대한 광범위한 실험을 통해, 가장 강력한 모델조차도 30%를 약간 상회하는 성공률만을 달성함을 발견하였으며, 이는 전문적인 장기 GUI 작업 흐름이 현재의 GUI 에이전트에게 여전히 매우 어려운 과제임을 강조한다. 추가 분석에 따르면, 현재 에이전트는 장기 작업 흐름의 일관성을 유지하는 데 어려움을 겪으며, 작업 단계 누락, 오류 전파, 목표 이탈, 그리고 전문 소프트웨어 환경에 대한 이해 부족을 자주 보인다. 우리의 발견은 현재 에이전트 시스템의 한계에 대한 중요한 통찰력을 제공하며, 차세대 GUI 에이전트 연구를 위한 핵심 방향을 제시한다.

멀티모달 증거당 하나의 토큰: 자원 제약적 QA를 위한 잠재 메모리
One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

Jun 9

ByZhi Zheng, Ziqiao Meng, Hao Luan, Wei Liu, Wee Sun Lee

외부 메모리는 대규모 언어 모델(LLM)과 비전-언어 모델(VLM) 기반 질의응답(QA)을 관련 다중 모드 증거에 효과적으로 기반하게 한다. 그러나 기존 메모리 패러다임은 각 메모리 항목을 원시 텍스트와 이미지 형태로 표현하므로, 검색 기반 시스템은 검색된 텍스트나 이미지를 생성 LLM/VLM에 전달해야 하여 높은 토큰 소비와 저장 압력을 초래하며, 자원이 제한된 애플리케이션에서는 감당하기 어렵다. 본 연구에서는 잠재 메모리(Latent Memory)라는 잠재 공간 메모리 패러다임을 제안한다. 이는 각 원시 텍스트 또는 이미지 증거 항목을 작은 압축기 LLM/VLM이 생성한 단일 고차원 잠재 토큰으로 대체한다. 잠재 메모리는 생성에 원시 증거를 검색하는 대신, 통합된 잠재 표현 공간에서 작동한다. 질의를 이 공간에 임베딩하여 관련 잠재 토큰을 검색하고, 검색된 잠재 토큰을 사전 학습된 LLM 또는 VLM에 직접 프롬프트하여 답변을 생성한다. 각 잠재 토큰이 재구성, 검색, 생성에 동시에 유용한 정보를 제공하도록, 재구성, 대조, 증류 목적 함수를 사용하여 압축기를 통합된 종단 간 방식으로 학습한다. 잠재 메모리는 일곱 개의 텍스트 전용 QA 벤치마크(예: HotpotQA)와 다중 모드 QA 벤치마크에서 평가되었으며, 고급 RAG 기준선과 비교하여 경쟁력 있는 QA 성능을 달성하면서도 생성기 토큰을 3배에서 10배까지 덜 소비한다. 또한 WebQA에서 가장 강력한 이미지 기반 QA 성능을 제공한다. 코드는 https://github.com/zz1358m/Latent-Memory-Master에서 확인할 수 있다.

하이브리드 LLM에서의 어텐션 기억상실: CoT 미세 조정이 장거리 회상을 손상시킬 때와 이를 해결하는 방법
Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

Jun 9

ByXinyu Zhou, Boyu Zhu, Yi Xu, Zhiwei Li, Yingfa Chen, Huiming Wang, Zhijiang Guo

사고 연쇄(CoT) 지도 미세 조정(SFT)은 추론 능력을 향상시키기 위해 널리 사용되지만, 하이브리드 선형 주의(attention) 모델에서 장문맥 검색 능력을 체계적으로 저하시킨다는 사실을 발견하였습니다. HypeNet과 Jet-Nemotron을 포함한 다양한 아키텍처에서 CoT-SFT 이후 건초더미 속 바늘 찾기(NIAH)에 대한 검색 성능이 크게 저하되며, 더 어려운 검색 설정과 더 긴 문맥 윈도우에서 그 저하가 더 심각해집니다. 예를 들어, NIAH-S2@256K에서 HypeNet-9B의 성능이 67.2%에서 9.4%로 감소합니다. 이 현상은 CoT-SFT가 주의 기울기를 단거리 패턴으로 편향시켜 장거리 라우팅을 담당하는 쿼리-키 투영(W_Q, W_K)을 방해하기 때문이라고 분석합니다. 이러한 관찰에 기반하여, 우리는 CoT-SFT 이전 체크포인트의 W_Q와 W_K만 복원하고 다른 모든 미세 조정 이후 파라미터는 유지하는, 훈련이 필요 없는 방법인 QK-Restore를 제안합니다. 또한 라우팅 보존과 추론 적응의 균형을 맞추기 위해 프로크루스테스(Procrustes) 변형을 추가로 도입합니다. 다양한 아키텍처에서 QK-Restore는 훈련 비용 없이 장문맥 능력을 일관되게 복원하면서도 추론 성능을 유지합니다. 예를 들어, HypeNet-5B에서 S3@256K가 65.4%에서 76.4%로 향상되면서 강력한 추론 성능을 유지합니다.

희소 오토인코더를 활용한 텍스트-음성 언어 모델의 해석 및 유도
Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

Jun 8

ByNikita Koriagin, Georgii Aparin, Nikita Balagansky, Daniil Gavrilov

언어 모델은 점차 텍스트-음성 변환(TTS) 시스템의 백본 역할을 하고 있지만, 텍스트와 생성된 음성 토큰이 단일 잔차 스트림을 공유할 때 구축하는 표현에 대해서는 거의 알려져 있지 않다. 우리는 CosyVoice3의 LM 백본에 대해 BatchTopK 희소 오토인코더를 학습시키고, 각 특징이 발화된 위치(텍스트 접두사 컨텍스트, 1초 음성 클립, 또는 둘 다)에 따라 레이블을 지정하는 양식 인식 자동 해석 파이프라인을 도입한다. 복구된 특징은 음소, 웃음, 억양 프롬프트 및 화자 성별에 걸쳐 해석 가능하다. SAE 잠재 공간을 통한 조종은 이러한 특징이 단순히 기술적이기보다 인과적임을 보여준다: 표적 개입을 통해 웃음 확률을 0.02에서 0.79로 높이고, 인지된 화자 성별을 전환하며, 음성 내용을 유지하면서 발화 속도를 제어한다. 따라서 SAE 특징은 TTS 합성을 위한 해석 가능성 객체이자 제어 방향으로 기능한다.

SkillHarm: 자동화된 구축을 통한 생애주기 인식 스킬 기반 공격
SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction

Jun 1

ByYuting Ning, Zhehao Zhang, Yash Kumar Lal, Boyu Gou, Junyi Li, Weitong Ruan, Chentao Ye, Rahul Gupta, Diyi Yang, Yu Su, Huan Sun

에이전트 스킬은 에이전트 워크플로우에서 특권적 위치를 차지한다. 에이전트가 이를 암묵적으로 따르고 실행할 것으로 예상되기 때문에, 서드파티 스킬은 취약한 공격 표면이 된다. 기존 연구들은 스킬 기반 공격으로 유발된 안전하지 않은 에이전트 행동을 밝혀냈지만, 주로 단일 작업 실행 내에서 오염된 스킬을 평가하고 임시방편적 위험 목록을 통해 피해를 열거한다. 이러한 격차를 해소하기 위해, 우리는 스킬 사용 수명주기 전반에 걸친 스킬 기반 공격의 벤치마크인 SkillHarm을 소개하며, 이는 스킬 관련 위험의 체계적인 분류 체계와 함께 제공된다. SkillHarm은 두 가지 공격 시나리오를 평가한다: 고정 페이로드 오염(FPP)은 고정된 오염 스킬 패키지가 이를 호출하는 모든 작업 세션을 직접 손상시키는 경우이고, 자가 변이 오염(SMP)은 초기에는 양호한 실행이 지속적인 스킬 내용을 조용히 변이시켜 후속 재사용까지 피해를 지연시키는 경우이다. 또한 피해가 목표로 하는 에이전트 워크플로우 구성 요소(데이터 파이프라인, 시스템 환경, 에이전트 자율성)에 따라 12가지 위험 유형을 정의한다. 이러한 공격을 대규모로 구현하기 위해, 자연어 하네스로 구동되는 코딩 에이전트를 사용하는 자동화된 구축 파이프라인인 AutoSkillHarm을 구축한다. 결과 벤치마크는 71개의 스킬에 걸쳐 879개의 공격 샘플을 포함한다. 실험 결과 현재 에이전트는 FPP에서 최대 86.3%, SMP에서 최대 69.3%의 공격 성공률로 여전히 취약한 상태임을 보여준다. 우리의 분석은 잠재적 위험을 추가로 밝혀낸다: 많은 겉보기 공격 실패는 진정한 저항보다는 에이전트가 오염된 파일과 상호작용하지 못하는 데서 비롯되며, 현재 방어 체계는 여전히 위협을 신뢰성 있게 완화하지 못한다.

웹 에이전트를 위한 상태 기반 동적 검색을 통한 온라인 기술 학습
Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

Jun 3

ByJiaxi Li, Ke Deng, Yun Wang, Jingyuan Huang, Yucheng Shi, Qiaoyu Tan, Jin Lu, Ninghao Liu

언어 에이전트는 관련 작업 전반에 걸친 다단계 웹 자동화를 개선하기 위해 재사용 가능한 스킬에 점점 더 의존하고 있다. 증가하는 연구 흐름은 온라인 스킬 학습을 연구하며, 여기서 에이전트는 이전 작업 궤적으로부터 지속적으로 스킬을 유도하고 향후 작업에서 실시간으로 재사용한다. 그러나 기존 방법은 주로 작업 수준에서 스킬을 재사용한다: 초기 작업 지시에 기반하여 고정된 스킬 집합이 검색되고 실행 전체에 걸쳐 고정된 상태로 유지된다. 이러한 정적 전략은 웹 실행과 부합하지 않는데, 적절한 다음 행동은 작업 목표뿐만 아니라 현재 웹페이지 상태에도 의존하며, 이는 종종 초기 스킬이 다루지 못하는 상황으로 전환되기 때문이다. 이러한 격차를 해결하기 위해, 우리는 웹 에이전트를 위한 단계별 스킬 재사용을 가능하게 하는 온라인 스킬 학습 방법인 State-Grounded Dynamic Retrieval (SGDR)을 제안한다. SGDR은 세 가지 구성요소로 이루어져 있다: 완료된 궤적을 중간 실행 상태에서 호출 가능한 재사용 가능한 하위 절차로 변환하는 슬라이딩 윈도우 추출 과정, 스킬 검색과 실행 가능한 행동을 연결하는 이중 텍스트-코드 표현, 그리고 스킬을 작업 목표와 현재 웹페이지 상태 모두에 매칭하는 상태 기반 동적 검색 메커니즘이다. 다섯 개 도메인에 걸친 WebArena 실험 결과, SGDR이 강력한 기준선들을 일관되게 능가하여 GPT-4.1에서 평균 성공률 37.5%, Qwen3-4B에서 24.3%를 달성했으며, 이는 각각 가장 강력한 기준선 대비 10.6% 및 10.0%의 상대적 향상에 해당한다. 코드는 https://github.com/plusnli/skill-dynamic-retrieval에서 확인할 수 있다.

BrainSurgery: 모델 편집 및 업사이클링을 위한 재현 가능하고 신뢰할 수 있는 선언적 가중치 조작
BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

Jun 8

ByGianluca Barmina, Annemette Broch Pirchert, Andrea Blasi Núñez, Lukas Galke Poech, Peter Schneider-Kamp

딥러닝 모델이 확장됨에 따라, 대규모 체크포인트의 관리, 검사 및 수정이 점점 더 어려워지고 있다. 연구자들은 종종 계층 재구성, 정밀도 변환, 저순위 분해, 아키텍처 디버깅을 위해 모델 가중치를 변경해야 하지만, 이러한 작업 흐름은 취약한 임시방편적인 Python 스크립트에 의존하는 경우가 많다. 본 연구에서는 신경망 체크포인트에 대한 강력하고 재현 가능한 '텐서 수술' 도구인 BrainSurgery를 소개하고, 모델 업사이클링부터 LoRA 추출에 이르는 네 가지 예시와 세 가지 사례 연구를 포함한 시스템 시연을 제공한다. BrainSurgery는 저장소 형식과 메모리 관리를 추상화함으로써 선언적 YAML 계획을 통해 복잡한 변환을 실행한다. 표현력 있는 정규 표현식과 구조적 타겟팅을 통해 구조적 수정, 수학적 변환 및 텐서 재구성을 지원하며, 내장 검증을 통해 텐서 형태, 데이터 유형, 값을 검증하여 무시되기 쉬운 오류를 방지한다. BrainSurgery는 재현 가능하고 검증된 연산을 통해 향후 연구를 위한 강력한 기반을 제공할 것으로 기대한다.

추론은 어떻게 흐르는가? 대규모 언어 모델에서 표적 강화 학습을 위한 주의 집중 유도 정보 흐름 추적
How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs

Jun 9

ByZhichen Dong, Yang Li, Yuhan Sun, Weixun Wang, Yijia Luo, Zinian Peng, Taiheng Ye, Chao Yang, Wenbo Su, Yu Cheng, Bo Zheng, Junchi Yan

토큰 수준의 신용 할당은 대규모 언어 모델(LLM)에서 강화 학습(RL)의 주요 장애물로 남아 있으며, 기존 RL 방법은 일반적으로 모든 토큰을 동등하게 처리하여 결정적인 추론 단계와 일상적인 서식 또는 유창한 채우기를 구분하지 못한다. 최근 접근법은 모델 내부 신호를 활용하여 더 세분화된 신용을 할당하려 하지만, 이는 종종 정보 전파의 전역 구조를 무시하는 점별 휴리스틱에 불과하다. 본 논문에서는 FlowTracer를 제안한다. 이는 주의(attention) 기반 방향성 비순환 그래프(DAG)에서 답변 지향 추론 흐름을 추적하는 RL 프레임워크로, 노드는 토큰에 해당하고 가장자리 용량은 집계된 주의 가중치에서 비롯되며, 이 전역 구조로부터 토큰 신용을 도출한다. 가장자리 용량은 답변 영역에 도달할 수 있는 영향만 유지하도록 재가중되며, 국소 흐름 보존을 강제하여 중간 토큰이 경로 길이나 관련 없는 가지로 인해 유효 질량을 잃거나 얻지 않도록 한다. 이 그래프에서 FlowTracer는 질문과 답변을 연결하는 정보 흐름 백본을 추출하고, 흐름 처리량에 따라 토큰에 점수를 매겨 장거리 의존성을 매개하는 영향력이 큰 허브와 집계 체크포인트를 드러낸다. 이러한 도출된 중요도는 토큰 수준 보상을 형성하는 데 사용되어 학습 신호가 정보를 정답 쪽으로 (또는 정답에서 멀어지게) 라우팅하는 토큰에 정확히 집중할 수 있게 하며, 다양한 추론 작업에서 일관된 성능 향상을 제공한다.

에이전트-세계 격차 해소: LLM 기반 에이전트를 위한 텍스트 세계 모델
Bridging the Agent-World Gap: Text World Models for LLM-based Agents

Jun 8

ByYixia Li, Hongru Wang, Peng Lai, Zhiwen Ruan, He Zhu, Youxin Zhu, Ganlong Zhao, Minda Hu, Yun Chen, Sibei Yang, Peng Li, Jeff Z. Pan, Jia Pan, Guanhua Chen, Yang Liu, Guanbin Li

대규모 언어 모델(LLM) 기반 에이전트는 웹 내비게이션, 코드 편집, 도구 사용, 장기 대화 등 상호작용적 텍스트 환경에서 점점 더 많이 활용되고 있다. 그러나 많은 에이전트는 여전히 주로 반응적(reactive)으로, 환경이 어떻게 구조화되고 변화하는지에 대한 명시적 모델 없이 관찰을 행동에 매핑한다. 이러한 한계는 텍스트 세계 모델(TWM)의 필요성을 제기한다. TWM은 텍스트 상태에 대한 전이 모델(transition model)로서, 주어진 상태와 후보 행동에 대해 결과 웹페이지, 터미널 출력, API 응답 또는 사용자 응답을 예측함으로써 계획 수립, 효율적 학습, 원칙적 평가를 지원한다. 본 연구는 LLM 기반 에이전트를 위한 텍스트 세계 모델을 체계적으로 검토하며, 형식적 프레임워크와 에이전트 생애주기를 중심으로 다음 네 가지 측면에서 구성한다: (1) 기초(Foundations): 텍스트 세계 모델을 정의하고 상태 표현 및 기반 도메인(grounding domain)에 따라 분류; (2) 구축(Construction): LLM-세계모델(LLM-as-WM) 및 코드-세계모델(code-as-WM) 패러다임을 분류하고 이를 구축하는 방법을 검토; (3) 응용(Application): 세계 모델이 훈련 시 경험 합성(experience synthesis)과 추론 시 계획, 검증, 적응을 통해 에이전트를 지원하는 방식을 분석; (4) 평가(Evaluation): 세계 모델 자체의 평가와 이를 에이전트 평가 환경으로 활용하는 방법을 모두 포함한다. 본 연구는 이 빠르게 발전하는 영역을 통합하고, 설계 공간을 명확히 하며, 향후 연구를 위한 공개 과제를 강조하는 것을 목표로 한다.

Struct-Searcher: 에이전트적 구조적 사고가 다중 모달 심층 정보 탐색을 발전시키다
Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking

Jun 5

ByFan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Zheng Lian, Hao Wu, Yuan Gao, Xinyu Geng, Xin Wang, Pheng-Ann Heng

딥 리서치 에이전트는 대규모 온라인 정보를 수집하여 목표 지식을 획득하는 능력으로 인해 점점 더 주목받고 있으며, 최근 연구는 순수 텍스트 기반 정보 탐색에서 멀티모달 설정으로 전환되고 있다. 그러나 기존의 에이전트 워크플로는 주로 증거 축적 모델에 기반하고 있으며, 이는 증거를 선형적으로 집계하고 이질적인 모달리티 간의 모순된 정보를 처리하기 위한 원칙적인 메커니즘이 부족하다. 이를 위해, 우리는 신념 수정 이론에 기반한 구조적 에이전트 워크플로인 Struct-Searcher를 제안한다. 이는 추론 과정 전반에 걸쳐 진화하는 멀티모달 구조 그래프를 명시적으로 유지하여, 충돌을 인지하는 효과적인 멀티모달 심층 정보 탐색을 가능하게 한다. 다양한 벤치마크 데이터셋과 백본 모델에 걸친 광범위한 실험을 통해 Struct-Searcher는 (1) 플러그 앤 플레이 방식이며 모델에 구애받지 않아, 다섯 가지 서로 다른 백본에서 BrowseComp-VL에 대해 평균 17.2%의 상대 정확도 향상을 달성한다. (2) 최고 성능을 보이며, 최첨단 비전-언어 모델(VLM) 및 딥 리서치 에이전트를 일관되게 능가하여, 두 번째로 좋은 경쟁 방법 대비 MM-BrowseComp에서 3.7%, HLE-VL에서 1.5%, BrowseComp-VL에서 0.7%의 상대 정확도 향상을 보인다.

PsychoSafe: 대규모 언어 모델에서 심리학적 기반 거절 응답 유도
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

Jun 8

ByGianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher

대규모 언어 모델(LLM)은 일상적으로 거부되어야 할 요청에 직면하며, 이는 도움 제공과 피해 방지 사이의 상충 관계를 만든다. 그러나 거부 자체가 도움이 될 수 있다. 위기, 강압, 또는 고조되는 의도가 개입된 고위험 상호작용에서, 단호한 비협조는 직접적인 피해를 막을 수 있지만, 여전히 요청 뒤에 있는 개인의 필요를 지원하지는 못한다. 우리는 심리학에 기반한 거부 프레임워크인 PsychoSafe를 제시한다. 이는 거부를 증거 기반 개입 전략에 근거한 구조화된 지지적 소통으로 재정의한다. PsychoSafe를 개발하기 위해, 우리는 심리적으로 중요한 다섯 가지 위험 영역에 걸친 8019개의 프롬프트-응답 쌍으로 구성된 코퍼스를 구축하고, Qwen 3.5 27B에 프롬프팅과 파라미터 효율적 미세 조정을 적용했다. 500개의 프롬프트로 구성된 균형 검증 세트에서, LLM 판정기를 사용하고 인간 평가를 통해 검증한 결과, PsychoSafe 프롬프팅은 일반 기준선 대비 전반적인 거부 품질을 28.1% 향상시켰으며, 특히 외부 자원 연계(+46.8%)와 심리적 근거(+34.8%)에서 큰 성과를 보였고, 거부 외 작업의 하위 성능은 유지했다. 미세 조정은 거의 완벽한 거부 및 자원 연계 비율을 달성했지만, 응답 관련성을 감소시켰다. SORRY-Bench와 XSTest에 대한 추가 평가는 강력한 도메인 내 견고성을 보여주었지만 제한된 도메인 외 일반화를 나타내어, 향후 연구에서는 미세 조정 데이터를 다양화하여 모델이 도식적으로가 아니라 선택적으로 개입을 적용하도록 도와야 함을 시사한다.

U-TTT: 테스트 시간 훈련을 통한 일반화 가능한 PET 영상 잡음 제거를 향하여
U-TTT: Towards Generalizable PET Image Denoising via Test-Time Training

Jun 9

ByZhiwen Yang, Jiayin Li, Hao Lu, Hui Zhang, Zihua Wang, Bingzheng Wei, Yan Xu

기존의 PET(Positron Emission Tomography) 영상 잡음 제거를 위한 딥러닝 모델은 분포 변화(distribution shift)가 발생할 경우 심각한 성능 저하를 겪는 경우가 많아, 이는 근본적으로 강건한 임상 배치를 제한한다. 이러한 일반화 부족은 훈련 후 테스트 데이터(예: 선량 수준 또는 스캐너 유형)의 변화에 적응할 수 없는 고정 매개변수 모델이라는 기존 패러다임에서 비롯된다. 이러한 한계를 극복하고 강건한 일반화를 달성하기 위해, 우리는 U-TTT를 제안한다. 이는 자기 지도 학습(self-supervision)을 통해 추론 중에 모델 매개변수를 동적으로 조정하여 각 테스트 인스턴스의 특정 특성에 적응하는 TTT(Test-Time Training) 계층을 통합한 새로운 U자형 모델이다. 또한, 3D PET 데이터의 복잡한 열화를 포괄적으로 포착하기 위해 U-TTT는 공간 테스트 시간 훈련(S-TTT) 계층과 주파수 테스트 시간 훈련(F-TTT) 계층으로 구성된 이중 도메인 적응 메커니즘(dual-domain adaptation mechanism)을 특징으로 한다. S-TTT 계층은 공간 구조적 열화를 포착하고 보정하는 반면, F-TTT 계층은 전역 잡음 스펙트럼을 억제하고 미세한 고주파 세부 정보를 복원한다. 광범위한 실험을 통해 U-TTT는 최첨단 PET 잡음 제거 성능을 달성하며, 보지 못한 선량 수준과 보지 못한 스캐너를 포함한 까다로운 분포 변화 하에서 뛰어난 일반화 성능을 보여준다. 코드는 https://github.com/Yaziwel/U-TTT에서 제공될 예정이다.

출현적 정렬 불일치는 아첨에 의해 유도될 수 있으며, 정렬 게이팅을 통해 역전될 수 있다.
Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating

Jun 8

BySicheng Wang, Xiangyang Zhu, Han Wang, Zongrui Wang, Yuan Tian, Kaiwei Zhang, Kaiyuan Ji, Qi Jia, Guangtao Zhai

이전 연구들은 좁은 도메인에서 대규모 언어 모델을 악의적이거나 부정확한 출력에 대해 미세 조정하면 광범위한 정렬 불일치와 유해한 행동, 즉 발현적 정렬 불일치(emergent misalignment)로 알려진 현상을 유도할 수 있음을 보여주었다. 그러나 이러한 정렬 불일치를 되돌리기 위한 효율적인 방법은 여전히 제한적이다. 본 연구에서는 두 가지 기여를 한다. 첫째, 우리는 아첨 미세 조정(sycophancy fine-tuning), 즉 사용자의 부정확한 의견에 수동적으로 동의하도록 모델을 훈련시키는 것이 이전에 충분히 탐구되지 않은 발현적 정렬 불일치의 동인임을 식별하고, 이것이 광범위하고 심각한 정렬 불일치 행동을 유도함을 보여준다. 둘째, 우리는 정렬 게이팅(Alignment Gating)을 제안한다. 이는 미세 조정 중에 학습 가능하고 제어 가능한 게이트를 모델에 삽입하여 발현적 정렬 불일치를 되돌리는 효율적인 방법이다. 미세 조정을 통해 이 게이트는 안전하지 않은 응답을 담당하는 내부 표현을 식별하는 방법을 학습한다. 따라서 이러한 표현을 증폭하거나 억제하면 각각 발현적 정렬 불일치가 악화되거나 완화된다. 나아가 정렬 게이팅 모듈이 강력한 일반화를 나타냄을 발견했다: 좁은 도메인 미세 조정에서 얻은 게이트 가중치가 모델의 일반 능력을 유지하면서 넓은 도메인의 정렬 불일치 행동을 상당히 억제한다.

UniPET: 다양한 선량 감소 계수에 걸친 고품질 PET 영상 잡음 제거를 위한 범용 네트워크
UniPET: a universal network for high-quality PET image denoising across varied dose reduction factors

Jun 9

ByZhiwen Yang, Yang Zhou, Haowei Chen, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu

대부분의 기존 딥러닝 기반 PET 영상 잡음 제거 방법은 저선량 PET 영상에 대해 고정되고 알려진 선량 감소 계수(DRF)를 가정한다. 그러나 이러한 방법들은 실제 응용에서 DRF가 가정된 값 이상으로 변동할 때 상당한 성능 저하를 겪는다. 다양한 DRF로 인한 문제를 해결하기 위해, 여러 예비 연구들은 다양한 DRF에 걸친 저선량 데이터로 보편 모델을 훈련하는 것을 목표로 하는 보편적 PET 영상 잡음 제거 작업에 초점을 맞추고 있다. 그럼에도 불구하고, 이러한 기본적인 보편 모델들은 서로 다른 DRF 데이터에 존재하는 정렬되지 않은 스타일로 인해 어려움을 겪으며, 심각한 과도 평활화 효과와 함께 스타일 제거 문제를 초래한다. 이 문제를 해결하기 위해, 우리는 혁신적으로 도메인 일반화를 PET 영상 잡음 제거에 도입하고, 다양한 DRF에 걸쳐 고품질 PET 영상 잡음 제거를 달성하기 위한 보편적 PET 영상 잡음 제거 네트워크(UniPET)를 제안한다. UniPET은 두 가지 주요 혁신 요소, 즉 스타일 정렬 네트워크(SAN)와 영역 인식 학습 전략(RALS)으로 구성된다. 구체적으로, SAN은 도메인 일반화에서 파생된 스타일 정렬 기법을 활용하여 서로 다른 DRF 간의 스타일을 정렬하고 복원함으로써, 스타일을 효과적으로 보존하면서 다양한 DRF에 걸친 모델의 일반화 능력을 보장한다. 또한, 스타일 복원을 강화하기 위해 RALS는 평탄 영역과 스타일화된 영역을 구분하고, 후자에 대해서만 적대적 학습을 수행함으로써 모델의 초점을 스타일화된 영역 학습으로 더 효과적으로 유도한다. 제안된 UniPET이 적응적으로 다양한 DRF 스타일을 복원하고 DRF 전반에 걸쳐 고품질 PET 영상 잡음 제거를 달성할 수 있음을 보여준다. 포괄적인 실험을 통해 UniPET이 특정 DRF에서 개별 DRF 특화 모델과 비교 가능한 성능을 보이며, 정량적, 지각적, 임상적으로 보편적 PET 영상 잡음 제거에서 최첨단 성능을 달성함을 보여준다.

MilliVid: 비디오 생성에서 장기적 일관성을 위한 계층적 잠재 표현
MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation

Jun 8

ByIshaan Preetam Chandratreya, David Charatan, Basile Van Hoorick, Sergey Zakharov, Vitor Guizilini, Phillip Isola, Vincent Sitzmann

비디오 생성 모델은 점점 더 강력해지고 있지만, 수십 개의 프레임조차도 실용적이지 않을 정도로 긴 트랜스포머 시퀀스 길이를 필요로 하기 때문에 장기적 일관성을 달성하는 것은 여전히 어려운 과제로 남아 있다. 본 연구는 다중 스케일 토큰 공간 내에서 거친-정밀 롤아웃(coarse-to-fine rollout)을 사용하여 비디오를 생성함으로써 이 문제를 완화할 수 있음을 보여준다. 우리의 접근 방식은 간단하다. 먼저, 각 프레임을 일반적인 잠재 해상도에서 프레임당 소수의 토큰에 이르는 다양한 수준의 토큰 계층으로 압축하는 오토인코더를 사전 학습한다. 가장 거친 수준은 장면 배치와 의미와 같은 가장 중요한 정보를 포착하는 반면, 더 정밀한 수준은 고주파 외관과 질감을 추가한다. 그런 다음, 거친-정밀 롤아웃을 사용하여 이러한 토큰을 생성하도록 비디오 확산 모델을 학습시킨다. 각 롤아웃 단계에서 프레임이 생성되고 컨텍스트로 사용되는 세부 수준을 신중히 제어함으로써, 기하학적 구조와 객체 영속성에서의 장기적 일관성을 유지하면서도 지각적으로 덜 중요한 세부 사항의 장기적 일관성에 더 적은 계산을 할당할 수 있다. 우리는 긴 마인크래프트 비디오의 맞춤형 데이터셋을 사용하여 이 접근 방식을 검증하였으며, 기존 기준 모델과 비교하여 훨씬 더 일관된 롤아웃을 생성함을 확인하였다.

에이전트는 무엇을 말해야 하는가? 효율적인 다중 에이전트 시스템을 위한 행동-상태 통신
What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Jun 3

ByChen Huang, Yuhao Wu, Wenxuan Zhang

대규모 언어 모델 기반의 다중 에이전트 시스템(MAS)은 일반적으로 역할, 파이프라인, 순서 스케줄을 중심으로 구성되며, 에이전트가 서로 전달하는 내용은 종종 제약 없는 자연어로 남겨집니다. 그러나 이러한 자유 형식의 통신은 토큰 사용량을 급격히 증가시키고 공유 컨텍스트 윈도우를 소모하여 궁극적으로 시스템 성능과 추론 비용 모두에 영향을 미칠 수 있습니다. 우리는 두 가지 MAS 토폴로지에서 다섯 가지 일반적인 에이전트 간 통신 전략을 분석하여, 고정된 전략이 보편적으로 최적이 아님을 발견했습니다. 대신, 효과적인 에이전트 간 메시지는 하위 에이전트에 필요한 행동 중심 정보를 일관되게 보존합니다. 이를 바탕으로 우리는 PACT(프로토콜화된 행동-상태 통신 및 전송)를 제안합니다. PACT는 에이전트 간 통신을 공개 상태 업데이트 문제로 간주하고, 각 원시 에이전트 출력을 공유 기록에 입력되기 전에 간결한 행동-상태 기록으로 투영합니다. 다양한 MAS 토폴로지에서 PACT는 성능-비용 트레이드오프를 일관되게 개선하여, 현저히 적은 토큰으로 비슷하거나 더 강력한 작업 성능을 달성합니다. 이러한 이점은 실제 코딩 환경까지 확장됩니다. PACT는 OpenHands의 해결률을 해결당 토큰 수 10% 감소 조건에서 향상시키며, SWE-agent에서는 입력 토큰을 절반으로 줄이면서 해결률에 영향을 주지 않습니다. 코드는 https://github.com/iNLP-Lab/PACT에서 공개적으로 이용 가능합니다.

Next Forcing: 다중 청크 예측을 통한 인과적 세계 모델링
Next Forcing: Causal World Modeling with Multi-Chunk Prediction

Jun 9

ByGangwei Xu, Qihang Zhang, Jiaming Zhou, Xing Zhu, Yujun Shen, Xin Yang, Yinghao Xu

자기회귀적 비디오 생성은 세계 행동 모델(World Action Models, WAMs)을 위한 강력한 패러다임으로 부상하였다. 그러나 기존 접근 방식은 느린 훈련 수렴과 제한된 수렴 정확도, 특히 높은 프레임 속도에서 어려움을 겪는데, 이는 훈련 감독이 미래 역학에 대한 명시적 신호 없이 현재 청크에 국한되기 때문이며, 반복적인 비디오 잡음 제거로 인해 추론 속도도 느리다. 본 논문에서는 더 빠른 훈련, 더 높은 정확도, 그리고 가속화된 추론을 가능하게 하는 인과적 세계 모델링을 위한 다중 청크 예측(Multi-Chunk Prediction, MCP) 프레임워크인 Next Forcing을 제시한다. 대규모 언어 모델의 다중 토큰 예측에서 영감을 받은 Next Forcing은 MCP 훈련 목표를 도입하여, 경량의 보조 MCP 모듈로 주 모델을 증강시켜 여러 미래 시간 지평(다음¹, 다음², 다음³ 청크)에서 비디오 청크를 동시에 잡음 제거한다. 이러한 MCP 모듈은 예측 깊이에 걸쳐 인과적 사슬을 형성하며, 주 모델의 여러 계층에서 융합된 중간 특징을 활용하여 미래 역학을 예측함으로써 가까운 미래 예측이 더 먼 미래 예측에 정보를 제공할 수 있게 하고, 주 모델에 조밀한 다중 규모 시간적 감독을 제공한다. 훈련 중 MCP 모듈은 특히 높은 프레임 속도에서 수렴을 크게 가속화하고 수렴 정확도를 향상시킨다: 50fps에서 Next Forcing은 5k 훈련 단계에서 LingBot-VA 대비 93.1%의 상대적 개선과 2.3배 빠른 수렴을 달성하며, RoboTwin 벤치마크(Clean/Random에서 각각 94.1/93.5%)에서 새로운 최첨단 결과를 수립한다. 추론 시 MCP 모듈을 유지하여 현재 청크와 병렬로 다음 비디오 청크를 예측할 수 있어 2배의 추론 가속을 달성한다. Next Forcing은 비디오 생성에서 물리 법칙 준수를 평가하는 PhyWorld 벤치마크에서도 상당한 개선을 보여주며, 일반 비디오 사전 훈련에서 FVD가 50% 이상 감소한다.

동적 선형 어텐션
Dynamic Linear Attention

Jun 9

ByXin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang

대규모 언어 모델(LLM)의 장기 문맥 확장성은 표준 어텐션의 이차 복잡도에 의해 근본적으로 제약을 받으며, 이에 따라 준-이차 비용의 선형 어텐션 메커니즘 채택이 촉진되고 있다. 장기 문맥 하에서 표현 능력을 향상시키기 위해 최근 연구들은 메모리를 다중 상태 방식으로 구성한다. 그러나 기존의 다중 상태 선형 어텐션 방법은 동적으로 변화하는 토큰 중요도에 적응할 수 없는 고정된 상태 병합 정책에 의존하여, 중요한 토큰을 비가역적으로 모호하게 만들고 긴 시퀀스에서 심각한 오류 누적을 초래한다. 이러한 한계를 해결하기 위해 본 연구는 다중 상태 선형 어텐션을 위한 동적 메모리 모델링 프레임워크인 DLA를 제안한다. DLA는 (i) 토큰 수준의 정보 변화에 기반하여 상태 경계를 적응적으로 결정하고, 의미 전환 주변에서는 고해상도 표현을 유지하면서 안정적인 영역은 적극적으로 요약하는 정보 인식 동적 상태 병합(Information-Aware Dynamic State Merging), 그리고 (ii) 인접한 저정보 상태를 선택적으로 병합하여 최소한의 정보 손실로 메모리 증가를 제어함으로써 고정 크기, 시간 순서 상태 캐시를 유지하는 용량 제한 메모리 모델링(Capacity-Bounded Memory Modeling)을 도입한다. 우리는 두 가지 다른 선형 어텐션 모델에 DLA를 사전 학습하고, 세 가지 범주의 16개 데이터셋에서 평가를 수행한다. 실험 결과는 DLA가 최신 기술보다 우수함을 입증한다.

강화 학습에서 플로우 정책의 테스트 시간 그래디언트 가이던스
Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

Jun 9

ByZhiyuan Zhou, Andy Peng, Charles Xu, Qiyang Li, Tobias Springenberg, Kevin Frans, Sergey Levine

표현적 연속 제어 정책(예: 확산 및 플로우 모델)은 시뮬레이션 및 실제 로봇 제어를 위한 모방 학습의 최근 발전을 뒷받침하는 핵심 요소입니다. 이러한 정책은 지도 기반 모방 학습 환경에서 안정적으로 확장되는 것으로 알려져 있지만, 정책 개선을 위해 강화 학습(RL) 파이프라인에 통합하는 것은 더 어려운 것으로 입증되었습니다. 이는 종종 특수한 훈련 목적 함수나 노이즈 제거 과정을 통한 역전파를 필요로 하며, 이는 안정성 문제와 확장성에 영향을 미치는 잘 알려진 문제를 야기합니다. 본 논문에서는 안정적인 지도 기반 정책 훈련을 유지한 채, 테스트 시점에만 간단한 정책 개선 기법을 사용하는 것이 이러한 문제를 우회하는 경쟁력 있는 대안이 될 수 있는지 연구합니다. 이를 위해 우리는 QGF(Q-Guided Flow)를 제안합니다. QGF는 정책 최적화를 전적으로 테스트 시점에 수행하는 RL 알고리즘입니다. QGF는 기준 플로우 정책(표준 행동 복제 목적 함수를 통해)과 가치 함수 비평자를 사전 훈련한 후, 테스트 시점에 가치 그래디언트를 사용하여 기준 정책을 안내함으로써 추가적인 정책 학습 없이 더 높은 가치의 행동을 생성합니다. 실험적으로, QGF는 고차원 행동 공간을 가진 단일 작업 및 목표 조건부 오프라인 RL 벤치마크에서 이전의 테스트 시점 RL 방법보다 성능이 뛰어나며, 최신 훈련 시점 알고리즘과 경쟁력 있으면서도 실행 비용이 훨씬 저렴합니다. 또한, 행위자-비평가 훈련의 불안정성을 피함으로써 모델 크기에 따른 확장성에서 유리한 특성을 보여, 표현적 정책을 사용하는 실용적이고 효과적인 대안 RL 알고리즘을 제공합니다.

후기 계층 융합만으로 충분하다: 시각적 포화 상태에서의 멀티모달 대규모 언어 모델을 위한 이중 경로 비전 토큰 라우팅
Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation

Jun 8

BySiyuan Liu, Jinyang Wu

멀티모달 대규모 언어 모델(MLLM)은 일반적으로 단일 모드 텍스트 모델링을 위해 설계된 깊고 대칭적인 Transformer 백본을 상속하며, 이미지와 언어 토큰에 동일한 계산을 균일하게 적용한다. 이러한 설계는 핵심적인 모드 비대칭성, 즉 이미지와 텍스트 토큰이 정보 밀도, 중복성 및 필요한 추론 깊이에서 상당히 다르다는 점을 간과한다. LLaVA-1.5의 계층별 분석을 통해 우리는 시각 토큰이 중간 계층에서 포화되는 경향이 있음을 관찰했다. 구체적으로, 텍스트-이미지 주의(attention)는 0층에서 0.68에서 4층에서 0.07로 감소하고, 18층 이후에는 0.04 근처에서 안정화되는 반면, 텍스트 토큰은 깊은 의미 처리를 통해 계속 이점을 얻는다. 이러한 발견은 구조적 대칭성과 깊이에 따른 비동기적 모드 진화 간의 불일치를 시사하며, 이는 중복된 시각 계산과 깊은 작업 특화 적응 중 지각 표현의 가능한 표류를 초래한다. 이에 동기 부여되어, 우리는 효율적인 MLLM을 위한 모드 비대칭 라우팅 프레임워크인 DPVR(Dual-Path Vision Token Routing)을 제안한다. 핵심 구현인 DPVR-LF(후기 계층 융합)는 포화 지점에서 시각 토큰을 단일 계층 학습 가능한 사이드 브랜치로 라우팅하고, 깊은 스택에서 이미지 위치를 건너뛰는 13개 계층의 텍스트 전용 순방향을 실행하며, 최종 계층에서만 시각 및 텍스트 스트림을 재융합한다. 약 3%의 학습 가능한 매개변수로 DPVR-LF는 표준 벤치마크에서 경쟁력 있는 멀티모달 성능을 유지하면서 깊은 Transformer 스택에서의 시각 계산을 줄인다. 이 결과는 시각 토큰이 모든 깊은 언어 모델 계층을 통과해야 한다는 기존 가정에 도전하며, 단일 후기 융합 계층이 LLaVA 스타일 MLLM에서 강력한 지각 능력을 유지하기에 충분할 수 있음을 시사한다.

코딩 에이전트는 우리를 속이는가? 무작위 테스트를 통한 제한된 평가로 부정 행위 탐지 및 방지
Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Jun 5

ByThanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida

에이전트 평가와 훈련에서 점점 더 나타나는 실패 모드는 모델이 의도된 작업을 해결하는 대신 지름길을 활용하여 높은 평가 점수를 달성함으로써 기만적인 성능을 보이는 것이다. 이는 평가 점수가 실제 작업 해결 능력을 측정하는 지표로서 신뢰할 수 없게 만든다. 본 논문에서는 무작위 테스트로 구성된 코딩 데이터셋을 구축하는 프레임워크인 CapCode를 제안한다. 이 테스트에서는 달성 가능한 최대 비기만 성능이 의도적으로 1 미만으로 제한된다. 이러한 성능 제한 설계는 평가 점수에 더 명확한 해석을 제공한다. 즉, 제한치를 크게 초과하는 점수는 비현실적이므로 부정행위의 증거로 간주될 수 있다. 부정행위를 방지하기 위해, CapCode 원리에 기반한 보상 설계인 CapReward를 제안하여 제한치를 넘는 최적화를 억제한다. 여러 데이터셋에 걸친 실험 결과, CapCode는 모델의 성능 순위를 유지하면서 부정행위를 탐지하고, CapReward는 부정행위를 줄여 모델이 의도된 작업 명세를 더 잘 따르도록 만드는 것으로 나타났다.

IR3DE: 대규모 언어 모델을 위한 선형 라우터
IR3DE: A Linear Router for Large Language Models

Jun 4

ByEros Fanì, Oğuzhan Ersoy

기초 대규모 언어 모델(LLM)은 광범위한 일반 작업에서 능숙함을 보여주며, 도메인 전문가 LLM을 통해 다양한 특수 작업에서도 뛰어난 결과를 달성합니다. 사용 가능한 LLM의 목록이 계속 증가함에 따라 각 프롬프트에 가장 적합한 LLM을 선택하는 추론 라우터가 제안되고 있습니다. 그러나 기존 라우팅 방법은 약한 수준부터 강한 수준까지의 일반주의 LLM 간 비용을 최적화하거나, 도메인 전문성 라우팅을 지원하기 위해 상당한 학습을 필요로 합니다. 본 논문에서는 각 프롬프트에 대해 저렴하고 빠른 라우팅 결정을 제공하는 도메인 전문가용 릿지 회귀 기반 라우터인 IR3DE를 제안합니다. 우리는 모든 도메인에서 다음 토큰 예측을 수행하는 두 가지 인과 언어 모델링(CLM) 설정과, 각 도메인이 고유한 추론 작업을 갖는 하나의 추론 설정에서 IR3DE를 평가합니다. 선형 라우터임에도 불구하고 IR3DE는 두 CLM 설정에서 다른 기준 모델과 비슷한 성능을 달성하고, 추론 설정에서는 정규화 성능 98.4%로 이를 능가합니다. 또한 IR3DE는 새로운 도메인 전문가를 추가하거나 제거할 때 라우터를 처음부터 다시 학습할 필요 없이, 최소한의 중단으로 동적 LLM 집합을 서비스할 수 있도록 합니다. 코드는 다음에서 확인할 수 있습니다: github.com/gensyn-ai/IR3DE.

자기 증류에서 피드백 정렬의 역할
The Role of Feedback Alignment in Self-Distillation

Jun 9

BySemih Kara, Oğuzhan Ersoy

언어 모델에 이전 시도에 대한 피드백과 같은 추가 맥락을 조건화하면 일반적으로 응답이 개선된다. 자기 증류(self-distillation)는 이러한 맥락이 없을 때도 모델이 이 개선을 유지하도록 훈련한다. 이 방법은 두 가지 설정에서 모델의 출력 분포를 일치시키는 방식으로 작동한다. 하나는 질문만 보는 학생(student)이고, 다른 하나는 맥락도 함께 보는 자기 교사(self-teacher)이다. 따라서 모델이 학습하는 내용은 자기 교사가 받는 맥락에 따라 달라지지만, 이 맥락의 설계는 거의 탐구되지 않은 상태로 남아 있다. 본 연구는 고정된 비평가(critic)로부터 피드백을 받아 해결사를 훈련함으로써 자기 증류를 위한 맥락 설계를 탐구한다. 세 가지 조건을 비교한다: (i) 이진 보상(GRPO), (ii) 참조 해법, (iii) 해결사의 추론 과정에 정렬된 단계별 비판(step-by-step critique). 단계 정렬 비판이 가장 큰 이득을 가져왔으며, GRPO보다 16.11점, 참조 해법 조건부 자기 증류보다 5.27점 더 높은 성능을 보였다(Avg@12 기준). 토큰별 이점 분석(per-token advantage analysis)은 그 이유를 밝혀낸다: 단계 정렬 피드백은 추론이 실패한 토큰에만 초점을 맞추고 올바른 행동은 그대로 남겨둔다. 반면, 참조 해법을 조건화하면 대안적 유도 과정이 필연적으로 표현과 접근 방식에서 차이가 나기 때문에 모델이 모든 토큰(올바른 단계에서조차)에서 행동을 바꾸도록 압박한다. 이는 피드백과 해결사의 추론 사이의 구조적 정렬이 자기 증류 효과성의 핵심 동인임을 시사한다.

PaperMentor: 오버리프(Overleaf)에서 AI 연구 논문 작성을 위한 인간 중심의 다중 에이전트 작문 튜터
PaperMentor: A Human-Centered Multi-Agent Writing Tutor for AI Research Papers on Overleaf

Jun 7

ByJiarui Liu, Terry Jingchen Zhang, Ryan Faulkner, X. Angelo Huang, Vilém Zouhar, Dominik Glandorf, Isabel Dahlgren, Van Q. Truong, Rishit Dagli, Yuen Chen, Felix Leeb, Punya Syon Pandey, Yves Bicker, Suvajit Majumder, Wenyuan Jiang, Zeju Qiu, Sankalan Pal Chowdhury, Bernhard Schölkopf, Mona Diab, Zhijing Jin

숙련된 연구자로부터의 전문적인 피드백은 초기 경력 학자들이 원고를 개선하는 데 필수적이지만, 연구 논문 검토가 많은 노동을 요하기 때문에 고품질 피드백은 여전히 부족한 실정이다. 최신 AI 기반 글쓰기 도우미는 대부분 문법 수정이나 최종 점수로 동료 검토를 시뮬레이션하는 데 중점을 두지만, 학생들이 초고 작성 중에 논문을 개선하는 데 도움이 되는 구체적이고 실행 가능한 제안을 제공하는 데는 한계가 있다. 우리는 PaperMentor를 제안한다. 이는 인간 중심의 글쓰기 도우미 시스템으로, 실제 글쓰기는 전적으로 인간 저자에게 맡기면서 Overleaf 기본 인라인 주석 형태로 실행 가능한 제안을 제공한다. PaperMentor는 저명한 연구자들의 글쓰기 조언을 엄선하여 구축한 전문가 기술 라이브러리와 논문 작성의 다양한 측면(예: 형식 준수, 표현 정확성, 용어 일관성)을 다루는 12개의 전문화된 에이전트를 통합한다. 사용자 연구(n=14)에서 생성된 주석의 90.6%가 실행 가능한 것으로 평가되었고 67.5%가 타당한 것으로 평가되어, 기술 라이브러리가 없는 GPT-5.2 기준선을 크게 능가했다. 우리는 PaperMentor를 공개 소스로 배포하여 누구나 사용할 수 있도록 한다. 코드는 AGPL-3.0 라이선스 하에 https://github.com/jiarui-liu/overleaf 에서 공개적으로 이용 가능하다.

사고의 연쇄가 더 잘 알 때: 다중 턴 추론 모델의 실패 모드
When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Jun 9

BySai Kartheek Reddy Kasu, Nils Lukas, Samuele Poppi

다중 턴 추론 모델의 실패는 최종 점수 평가에서 거의 드러나지 않는다. 모델이 긴 대화 초반에 안전하지 않은 입장을 고수할 수 있지만, 최종 턴의 거부율은 강건하게 정렬된 기준 모델과 구별하기 어려워 보일 수 있다. 이러한 숨겨진 시간적 역학을 드러내기 위해, 우리는 추적 수준의 진단 도구인 CoT-출력 2x2 안전 매트릭스를 제안한다. 이 프레임워크는 모든 턴을 내부 추론과 가시적 출력이라는 두 독립적인 축을 따라 레이블링하여, 네 가지 작동적으로 정의된 실패 셀을 생성한다: 강건한 정렬, 정렬 가장, 공개적 탈옥, 그리고 우리가 맥락 주입 실패라고 명명한 별개의 실패 모드(CoT는 안전한 추론을 유지하지만 가시적 출력이 유해함을 생성하여, 추론 불충실성의 다중 턴 징후를 부각시킴). 우리는 세 가지 증류된 추론 대상 모델을 고정된 공격자에 대해 다섯 가지 감독 조건에서 평가하여, 정보-위해 시나리오에서 6750개의 턴 수준 관찰 데이터를 수집했다. 분석 결과, 두 가지 재현 가능한 취약점이 드러났다: 명시적 감독 신호가 오히려 정렬 가장 비율을 억제하지 않고 역설적으로 증가시키는 감독 역설, 그리고 모델이 안전한 내부 상태에도 불구하고 안전하지 않은 외부 출력에 고착되는 맥락 주입 실패이다. 우리는 다중 턴 대화와 CoT 추적 데이터 전체 세트를 공개하여 후속 추적 진단 연구를 지원한다.

공유 컨텍스트를 갖는 분산형 다중 에이전트 시스템
Decentralized Multi-Agent Systems with Shared Context

Jun 9

ByYuzhen Mao, Azalia Mirhoseini

다중 에이전트 시스템(MAS)은 복잡한 문제를 병렬 하위 작업으로 분해함으로써 테스트 시점에서 대규모 언어 모델의 추론을 확장할 수 있다. 그러나 기존 대부분의 MAS는 메인 에이전트가 작업을 할당하고 결과를 수집하며 최종 출력을 병합하는 중앙 집중식 조정 방식에 의존한다. 하위 작업의 수가 증가함에 따라 이러한 제어기는 통신 및 통합의 병목 지점이 된다. 본 논문에서는 분산 언어 모델(Decentralized Language Models, DeLM)을 제안한다. DeLM은 병렬 에이전트, 공유 검증 컨텍스트, 작업 큐를 통해 조정을 분산시키는 MAS 프레임워크이다. 에이전트는 비동기적으로 하위 작업을 요청하고, 축적된 진행 상황을 읽으며, 로컬 추론을 수행한 후, 간결한 검증된 업데이트를 다시 작성한다. 공유 컨텍스트는 공통 통신 기반 역할을 하여, 모든 업데이트를 중앙 제어기를 통해 라우팅하지 않고도 에이전트가 서로의 검증된 진행 상황을 기반으로 작업을 수행할 수 있게 한다. 실험적으로, DeLM은 소프트웨어 공학 테스트 시간 확장과 장문 추론 모두에서 성능을 향상시킨다. SWE-bench Verified에서 DeLM은 Avg.@1, Pass@2, Pass@4 지표 전반에 걸쳐 최고 성능을 달성하며, 가장 강력한 기준선 대비 최대 10.5퍼센트 포인트의 향상을 보였고, 작업당 비용은 약 50% 절감했다. LongBench-v2 Multi-Doc QA에서는 DeLM이 4개의 최첨단 모델 계열에서 가장 높은 평균 정확도를 기록하며, 가장 강력한 기준선 대비 최대 5.7퍼센트 포인트 향상되었다. 코드는 프로젝트 웹사이트(https://yuzhenmao.github.io/DeLM/)에서 확인할 수 있다.

행동 안전 평가가 실패할 때: 표현 수준 관점
When Behavioral Safety Evaluation Fails: A Representation-Level Perspective

Jun 6

ByEnyi Jiang, Anders Gjølbye, Yibo Jacky Zhang, Sanmi Koyejo

대규모 언어 모델(LLM) 안전성은 종종 행동 수준에서 평가되어 왔는데, 이러한 평가는 개입 하에서의 표현 수준 취약성이 아닌 출력을 대상으로 하므로 내부 견고성에 대한 제한적인 증거만을 제공한다. 우리는 이러한 불일치를 감사 격차(audit gap)로 정식화한다: 이는 행동 안전성과 개입 하에서의 견고성 간의 차이이다. 이 격차를 연구하기 위해, 우리는 잠재 공간에서 취약한 상태를 유지하면서 안전한 외부 행동을 보존하는 분리 모델(dissociated models)을 구축한다. 우리는 유해한 미세 조정 및 계층별 잠재 변동을 포함한 매개변수 및 잠재 공간에서의 소프트 개입을 통해 모델 견고성을 테스트하기 위한 개입 기반 평가 프레임워크를 도입한다. 평가를 정식화하기 위해, 우리는 제한된 잠재 변동에 의해 유해한 행동이 얼마나 쉽게 유발될 수 있는지 측정하는 잠재 취약성 점수(LVS)를 제안한다. 이 평가 프레임워크를 사용하여, 우리는 여러 안전하게 정렬된 및 안전하지 않게 정렬된 최첨단 모델에서 행동 안전성 지표가 표현 수준 견고성의 충분한 측정치가 아님을 보여준다. 특히, 분리 모델은 유해한 개입 하에서 유사한 거부 행동에도 불구하고 현저히 높아진 LVS를 보이며, 중간 표현이 개입에 가장 민감하다. 우리의 결과는 행동 안전성 평가만으로는 모델 견고성에 대한 불완전한 그림을 제공하며, 잠재 취약성과 관찰 가능한 행동에 대한 표현 인식 감사(representation-aware audits)를 고려하게 한다.

FadeMem: 자기회귀 비디오 확산을 위한 거리 인식 메모리 통합
FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion

Jun 9

ByYu Lu, Junjie Yang, Piotr Koniusz, YuXin Song, Yi Yang

자기회귀 비디오 생성기는 연속적인 시간적 세그먼트를 생성하여 긴 비디오를 합성하지만, 비디오 길이가 증가함에 따라 히스토리 KV 캐시도 함께 커진다. 기존의 캐시 제한 방법들은 로컬 윈도우, 싱크 토큰, 또는 압축된 메모리 상태를 통해 이러한 비용을 줄이지만, 대개 히스토리의 서로 다른 부분에 고정된 역할을 할당한다. 본 논문에서는 FadeMem을 제안한다. 이는 거리 인지형 KV 메모리 통합 메커니즘으로, 고정된 캐시 예산 하에서 히스토리 KV 블록들을 시간적 계층 구조로 조직한다. 이러한 설계는 주파수 의존적 시간적 감쇠에 기반한다. 즉, 미세한 세부사항은 빠르게 상관관계가 사라지는 반면, 대략적인 장면 구조와 정체성은 더 긴 시간 범위에서 유용하게 남는다. 생성 과정에서 새로운 히스토리는 세밀한 항목으로 삽입되고, 오래된 인접 항목들은 멱법칙 시간적 할당 일정에 따라 점진적으로 병합되어, 하나의 캐시 내에서 밀집-근거리, 희소-원거리 메모리를 형성한다. 아키텍처 변경 없이, FadeMem은 단기 역학을 위한 최근 맥락과 정체성 및 장면 일관성을 위한 간결한 장거리 앵커를 유지한다. 실험 결과, 기존 캐시 제한 전략들에 비해 주제 일관성, 배경 안정성, 시간적 일관성이 개선됨을 보여준다.

맥락 내 다중 인스턴스 학습
In-Context Multiple Instance Learning

Jun 4

ByAlexander Möllers, Marvin Sextro, Julius Hense, Gabriel Dernbach, Klaus-Robert Müller

다중 인스턴스 학습(MIL)은 인스턴스 묶음(bag) 수준에서 감독이 제공되는 문제를 다루며, 계산 병리학에서 위성 이미지에 이르기까지 다양한 분야에서 성공적으로 적용되어 왔다. 그러나 기존 알고리즘은 많은 실제 응용 분야를 특징짓는 낮은 레이블 환경에서 어려움을 겪는다. 유연한 모델은 과적합되고, 경직된 모델은 당면한 과제에 적응하지 못한다. 본 연구에서는 합성 데이터에 대해 퍼시버(Perceiver) 스타일 아키텍처를 가진 맥락 내 학습자(in-context learner)를 사전 학습함으로써, 소수의 레이블이 지정된 묶음으로부터 새로운 과제를 해결할 수 있는 모델을 얻을 수 있음을 보여준다. 추론 시에는 단일 순방향 패스로 분류가 이루어지며 경사도 업데이트가 필요하지 않다. 우리는 묶음 구조 데이터를 위한 다양한 합성 데이터 생성기를 제안하고 조사하며, 이들이 상호 보완적인 귀납적 편향을 포착함을 발견한다. 이러한 생성기들의 혼합물로 사전 학습된 모델은 각 과제별 강점을 계승하며, 12개의 MIL 벤치마크에서 평균 성능이 가장 우수하여 과제별 학습이 필요한 지도 학습 기준선을 능가한다.

BenSyc: 벵골어 맥락에서의 LLM 대화적 아첨 및 인간 정렬 벤치마킹
BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts

Jun 8

ByKazi Noshin, Sajib Acharjee Dip, Ranat Das Prangon, Fardin Hassan Tamim, Syed Ishtiaque Ahmed, Liqing Zhang, Sharifa Sultana

대규모 언어 모델(LLM)은 감정적으로 민감한 사회적 대화에 점점 더 많이 참여하고 있으며, 이때 응답이 균형 잡힌 지지에서 과도한 확언이나 확대 동조로 전환될 수 있다. 기존의 아첨 연구는 주로 사실 동의 및 지시 수행 설정에 초점을 맞추어 왔으며, 문화적으로 기반한 대화형 아첨은 충분히 탐구되지 않았다. 우리는 벵골어 사회적 맥락에서 대화형 아첨을 연구하기 위한 최초의 벤치마크인 BenSyc를 소개한다. 방글라데시와 서벵골 전역의 커뮤니티에서 수집한 11,840개의 Reddit 게시물과 170k개의 댓글을 기반으로, 이진 레이블과 무효화, 중립, 지지, 확언, 확대의 다섯 단계로 구성된 세분화된 5계층 분류 체계를 갖춘 인간 검증 벤치마크를 구축했다. 우리는 15개 이상의 오픈 및 독점 LLM을 대화형 동조 분류 및 응답 생성 과제에서 평가했다. 결과에 따르면, 공감적 지지와 강화 중심 확언을 구별하는 것은 최첨단 명령 조정 모델조차도 여전히 어려운 과제로, 최고 시스템은 이진 탐지에서 61.8 Macro-F1, 5계층 분류에서 61.7 Macro-F1을 달성하는 데 그쳤다. 생성 설정에서는 여러 모델이 감정적으로 격양된 상황에서 강한 확언 또는 확대 응답을 자주 생성했다. 우리의 발견은 모델군 및 대화 행동 전반에 걸쳐 상당한 변동성을 강조하며, 사회적으로 동조된 대화형 AI 시스템을 평가하기 위한 문화적 기반의 다국어 벤치마크의 중요성을 재확인한다.