HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

48 papers found

에이전트 하네스로서의 코드
Code as Agent Harness

May 18

ByXuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

172

최근 대규모 언어 모델(LLM)은 경쟁 프로그래밍에서부터 저장소 수준의 소프트웨어 엔지니어링에 이르기까지 코드를 이해하고 생성하는 강력한 능력을 입증해 왔다. 새로운 에이전트 시스템에서 코드는 더 이상 단순한 최종 출력 대상이 아니다. 점차 에이전트의 추론, 행동, 환경 모델링, 실행 기반 검증을 위한 운영 기반(operational substrate)으로 기능하고 있다. 우리는 이러한 변화를 에이전트 하네스(agent harness)의 관점에서 조명하고, 코드를 에이전트 인프라의 기반으로 삼는 통합된 시각인 '코드 기반 에이전트 하네스(code as agent harness)'를 제안한다. 이러한 관점을 체계적으로 연구하기 위해, 본 서베이는 세 가지 상호 연결된 계층을 중심으로 구성된다. 첫째, 하네스 인터페이스를 연구한다. 여기서 코드는 에이전트를 추론, 행동, 환경 모델링에 연결한다. 둘째, 하네스 메커니즘을 살펴본다. 장기 실행을 위한 계획, 기억, 도구 사용, 그리고 하네스를 신뢰할 수 있고 적응적으로 만드는 피드백 기반 제어 및 최적화가 이에 해당한다. 셋째, 단일 에이전트 시스템에서 다중 에이전트 환경으로 하네스를 확장하는 방식을 논의한다. 이때 공유 코드 아티팩트가 다중 에이전트 간 조정, 검토, 검증을 지원한다. 이러한 계층에 걸쳐, 코드 기반 에이전트 하네스의 대표적인 방법과 실제 응용 사례를 요약한다. 코딩 어시스턴트, GUI/OS 자동화, 임베디드 에이전트, 과학적 발견, 개인화 및 추천, DevOps, 엔터프라이즈 워크플로우 등이 포함된다. 또한 최종 과업 성공을 넘어선 평가, 불완전한 피드백 하에서의 검증, 회귀 없는 하네스 개선, 여러 에이전트 간의 일관된 공유 상태, 안전-중요 작업에 대한 인간의 감독, 다중 모달 환경으로의 확장 등 하네스 엔지니어링의 공개된 과제들을 추가로 제시한다. 에이전트 AI의 하네스로서 코드를 중심에 둠으로써, 본 서베이는 실행 가능하고 검증 가능하며 상태 저장형 AI 에이전트 시스템을 향한 통일된 로드맵을 제공한다.

SkillsVote: 에이전트 스킬의 수집부터 추천, 진화까지의 생명주기 거버넌스
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

May 18

ByHongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong, Zhiyu Li

117

장기적 LLM 에이전트는 재사용 가능한 경험으로 전환될 수 있는 흔적을 남기지만, 원시 궤적은 잡음이 많고 제어하기 어렵다. 우리는 에이전트 스킬(Agent Skills)을 실행 가능한 스크립트와 절차에 대한 비실행 가능한 지침을 결합한 경험 스키마로 간주한다. 그러나 개방형 스킬 생태계에는 중복되고, 불균일하며, 환경에 민감한 산출물이 포함되어 있으며, 무분별한 업데이트는 향후 맥락을 오염시킬 수 있다. 우리는 에이전트 스킬의 수집, 추천, 진화에 이르는 수명 주기 거버넌스 프레임워크인 SkillsVote를 제시한다. SkillsVote는 백만 규모의 오픈소스 코퍼스에서 환경 요구사항, 품질, 검증 가능성을 프로파일링한 후, 검증 가능한 스킬을 위한 작업을 합성한다. 실행 전, SkillsVote는 구조화된 스킬 라이브러리 내에서 에이전트적 라이브러리 검색을 수행하여 지침적 스킬 맥락을 제공한다. 실행 후에는 궤적을 스킬 연결 하위 작업으로 분해하고, 결과를 스킬 사용, 에이전트 탐색, 환경, 결과 신호에 귀속시키며, 증거 기반 업데이트에 성공적인 재사용 가능 발견만을 허용한다. 평가에서 오프라인 진화는 Terminal-Bench 2.0에서 GPT-5.2의 성능을 최대 7.9%p 향상시키고, 온라인 진화는 SWE-Bench Pro에서 최대 2.6%p 향상시킨다. 전반적으로, 통제된 외부 스킬 라이브러리는 시스템이 노출, 귀속, 보존을 통제할 때 모델 업데이트 없이 고정된 에이전트를 개선할 수 있다.

LongLive-2.0: 긴 비디오 생성을 위한 NVFP4 병렬 인프라
LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

May 18

ByYukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han

101

우리는 LongLive-2.0을 제시한다. 이는 긴 비디오 생성의 전체 학습 및 추론 워크플로우에서 속도와 메모리 병목 현상을 해결하는 NVFP4 기반 병렬 인프라스트럭처이다. 학습을 위해 우리는 시퀀스 병렬 자기회귀(AR) 학습을 도입하는데, 이는 Balanced SP로 구현된다. Balanced SP는 각 랭크에서 깨끗한 히스토리와 잡음이 있는 타겟 시간 청크를 쌍으로 연결하여 효율적인 교사 강제 레이아웃을 SP 실행과 공동 설계함으로써, SP 인식 청크 VAE 인코딩을 통한 자연스러운 교사 강제 마스크를 가능하게 한다. NVFP4 정밀도와 결합하여 GPU 메모리 비용을 줄이고 학습 중 GEMM 연산을 가속화하며, 그 비율은 비디오 길이가 증가함에 따라 증가한다. 더욱이 우리는 고품질 인프라와 데이터셋이 현저히 깔끔한 학습 파이프라인을 가능하게 함을 보여준다. ODE 초기화와 이후 분포 정합 증류(DMD)에 의존하는 기존 Self-Forcing 계열 방법과 달리, LongLive-2.0은 확산 모델을 긴 다중 샷 대화형 자기회귀(AR) 확산 모델로 직접 조정한다. 이는 독립형 LoRA 가중치를 사용하여 실시간 생성(4단계에서 2단계 잡음 제거)으로 추가 변환될 수 있다. Blackwell GPU에서의 추론을 위해 우리는 W4A4 NVFP4 추론을 활성화하고, KV 캐시를 NVFP4로 양자화하여 메모리를 절약하며, 비동기 스트리밍 VAE 디코딩으로 종단 간 처리량을 향상시킨다. Blackwell이 아닌 GPU 아키텍처에서는 SP 추론을 배포하여 Blackwell GPU의 속도와 일치시키는 동시에, 양자화된 KV 캐시가 SP의 GPU 간 통신을 줄일 수 있다. 실험 결과 학습에서 최대 2.15배, 추론에서 1.84배의 속도 향상을 보인다. LongLive-2.0-5B는 벤치마크에서 강력한 성능을 달성하면서 45.7 FPS 추론을 달성한다. 우리가 아는 한, LongLive-2.0은 긴 비디오 생성을 위한 최초의 NVFP4 학습 및 추론 시스템이다.

Lance: 멀티태스크 시너지를 통한 통합 멀티모달 모델링
Lance: Unified Multimodal Modeling by Multi-Task Synergy

May 18

ByFengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

우리는 이미지와 비디오 모두에 대한 멀티모달 이해, 생성 및 편집을 지원하는 경량 네이티브 통합 모델인 Lance를 제시한다. 모델 용량 확장이나 텍스트-이미지 중심 설계에 의존하는 대신, Lance는 협력적 멀티태스크 학습을 통해 통합 멀티모달 모델링을 위한 실용적 패러다임을 탐구한다. 이는 통합 컨텍스트 모델링과 분리된 능력 경로라는 두 가지 핵심 원칙에 기반한다. 구체적으로 Lance는 처음부터 학습되며, 공유된 인터리브 멀티모달 시퀀스 상에서 이중 스트림 혼합 전문가 아키텍처를 사용하여 공동 컨텍스트 학습을 가능하게 하는 동시에 이해와 생성을 위한 경로를 분리한다. 또한 이질적 시각 토큰 간 간섭을 완화하고 교차 태스크 정렬을 촉진하기 위해 모달리티 인지 회전 위치 인코딩을 도입한다. 학습 과정에서 Lance는 능력 중심 목표와 적응적 데이터 스케줄링을 채택한 단계적 멀티태스크 학습 패러다임을 사용하여 의미 이해와 시각 생성 성능을 모두 강화한다. 실험 결과는 Lance가 강력한 멀티모달 이해 능력을 유지하면서도 이미지 및 비디오 생성에서 기존 오픈소스 통합 모델을 크게 능가함을 보여준다. 홈페이지는 https://lance-project.github.io에서 확인할 수 있다.

AI 기반 자동 연구: 로드맵 및 사용자 가이드
AI for Auto-Research: Roadmap & User Guide

May 18

ByLingdong Kong, Xian Sun, Wei Chow, Linfeng Li, Kevin Qinghong Lin, Xuan Billy Zhang, Song Wang, Rong Li, Qing Wu, Wei Gao, Yingshuo Wang, Shaoyuan Xie, Jiachen Liu, Leigang Qu, Shijie Li, Lai Xing Ng, Benoit R. Cottereau, Ziwei Liu, Tat-Seng Chua, Wei Tsang Ooi

AI 지원 연구가 새로운 문턱을 넘고 있다. 완전 자동화된 시스템은 이제 15달러 정도의 비용으로 연구 논문을 생성할 수 있으며, 장기 과제 에이전트는 최소한의 인간 입력만으로 실험을 실행하고, 원고를 작성하며, 비평을 시뮬레이션할 수 있다. 그러나 이러한 생산성의 최전선은 더 깊은 진정성 문제를 드러낸다. 과학적 압박 속에서 최전선 LLM조차도 결과를 조작하거나, 숨은 오류를 놓치거나, 참신성을 안정적으로 판단하는 데 실패한다. 2026년 4월까지의 발전 상황을 연구하면서, 우리는 완전한 연구 생애주기에 걸친 AI의 종단 간 분석을 제시하며, 이를 창조(아이디어 생성, 문헌 검토, 코딩 및 실험, 표와 그림), 작성(논문 작성), 검증(동료 검토, 반론 및 수정), 확산(포스터, 슬라이드, 동영상, 소셜 미디어, 프로젝트 페이지, 대화형 에이전트)의 네 가지 인식론적 단계로 구성한다. 우리는 신뢰할 수 있는 지원과 신뢰할 수 없는 자율성 사이에 단계 의존적이고 명확한 경계가 있음을 확인한다. 즉, AI는 구조화되고 검색 기반이며 도구 매개 작업에서 뛰어나지만, 진정으로 새로운 아이디어, 연구 수준의 실험, 과학적 판단에서는 여전히 취약하다. 생성된 아이디어는 종종 구현 후 성능이 저하되고, 연구 코드는 패턴 일치 벤치마크에 크게 뒤처지며, 종단 간 자율 시스템은 아직 주요 학회의 수용 기준에 일관되게 도달하지 못했다. 또한, 더 큰 자동화는 오류 모드를 제거하기보다 오히려 모호하게 만들어, 인간이 주도하는 협업이 가장 신뢰할 수 있는 배치 패러다임임을 보여준다. 마지막으로, 우리는 구조화된 분류 체계, 벤치마크 스위트, 도구 목록, 단계 간 설계 원칙, 실무자 중심의 플레이북을 제공하며, 관련 자료는 프로젝트 페이지에서 유지 관리된다.

CHI-Bench: AI 에이전트가 종단간 장기적 정책 중심 의료 워크플로우를 자동화할 수 있는가?
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15

ByHaolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao

현실적인 의료 운영의 엔드투엔드 자동화는 현재 벤치마크에서 충분히 다루어지지 않은 세 가지 역량을 요구한다: 정책 밀도(의사 결정이 방대한 의료, 보험 및 운영 규칙 라이브러리에 기반해야 함), 다중 역할 구성(단일 작업이 에이전트로 하여금 핸드오프를 통해 여러 역할을 수행하도록 요구함), 그리고 다자간 상호작용(중간 워크플로 단계가 동료 검토 및 환자 접촉과 같은 다중 턴 대화로 이루어짐)이다. 우리는 χ-Bench를 소개한다. 이는 제공자 사전 승인, 지급자 이용 관리, 그리고 의료 관리라는 세 영역에 걸친 장기 지평 의료 워크플로 벤치마크이다. 각 작업은 에이전트에게 87개의 MCP 도구를 통해 노출된 20개의 의료 앱으로 구성된 고정밀 시뮬레이터에서 임상 사례를 제공하며, 에이전트는 1,290개 이상의 문서로 이루어진 관리 의료 운영 핸드북 스킬의 지침에 따라 도구 호출 및 역할 산출물 작성을 통해 해당 사례를 종료 상태로 이끌어야 한다. 30개의 에이전트 하네스/모델 구성 중 최고 성능 에이전트는 작업의 28.0%만 해결했으며, 엄격한 pass^3 기준에서 20%를 넘는 에이전트는 없었고, 모든 작업을 단일 세션에서 실행할 경우 성능은 3.8%로 급락했다. 이러한 결과는 유사한 격차가 정책 밀도가 높고 역할이 구성되며 되돌릴 수 없는 다른 기업 영역에서도 표면화될 가능성이 있다는 가설을 제기한다.

코드-방: 에이전트 코드 합성을 통한 탑뷰 이미지로부터의 3D 방 생성
Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

May 18

ByYixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

실용적이고 기능적인 3D 실내 공간을 설계하는 것은 인테리어 디자인, 가상현실, 게임, 그리고 구현 AI 등 다양한 응용 분야에서 필수적이다. 최근 MLLM 기반 접근법은 텍스트 설명이나 참조 이미지로부터 3D 공간을 합성하는 데 큰 잠재력을 보여주었지만, 텍스트 기반 방법은 정확한 공간 정보를 포착하는 데 어려움을 겪고, 기존 이미지 조건화 에이전트는 탑뷰 이미지로부터 전체 공간을 생성하는 작업에서 불안정성과 무한 루프 문제를 겪는다. 이러한 한계를 해결하기 위해, 우리는 구조화된 실행 하네스(harness)를 갖춘 MLLM 기반 에이전트 프레임워크인 Code-as-Room을 제안한다. 이 프레임워크는 3D 공간을 블렌더 코드로 표현한다. 탑뷰 공간 이미지가 주어지면, 프레임워크는 참조 이미지를 파싱하여 장면 요소와 그 공간적 관계를 추출하고, 원칙적인 다단계 파이프라인을 통해 형상, 재질, 조명에 대한 실행 가능한 블렌더 코드를 합성한다. 또한, 기존 에이전트 기반 프레임워크의 고질적인 맥락 망각 문제를 완화하기 위해 교차 단계 메모리 모듈을 유지한다. 우리는 다양한 평가 프로토콜을 포함하는 코드 기반 3D 공간 합성을 위한 전용 벤치마크를 추가로 도입한다. 이 벤치마크를 바탕으로, 기존 에이전트 기반 방법과의 포괄적 비교를 수행하여 제안된 실행 하네스의 효과성을 검증한다.

KVPO: KV 의미 탐색을 통한 자기회귀 비디오 정렬을 위한 ODE 네이티브 GRPO
KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

May 14

ByRuicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

스트리밍 자기회귀(AR) 비디오 생성기를 인간의 선호도에 맞추는 것은 어려운 과제이다. 기존 강화 학습 방법은 주로 잡음 기반 탐색과 정류된 AR 모델의 결정론적 상미분방정식(ODE) 동역학과 부합하지 않는 SDE 기반 대리 정책에 의존하며, 장기적 일관성에 중요한 고수준 의미론적 스토리라인 진행보다는 저수준 외형을 교란하는 경향이 있다. 이러한 한계를 극복하기 위해, 우리는 스트리밍 비디오 생성기를 정렬하기 위한 ODE-고유 온라인 그룹 상대 정책 최적화(GRPO) 프레임워크인 KVPO를 제안한다. 다양성 탐색을 위해, KVPO는 변동의 원천을 확률적 잡음에서 역사적 KV 캐시로 이동시키는 인과-의미론적 탐색 패러다임을 도입한다. 역사적 KV 엔트리를 확률적으로 라우팅함으로써, 데이터 다양체에 엄격히 머물면서 의미론적으로 다양한 생성 분기를 구성한다. 정책 모델링을 위해, KVPO는 궤적 속도 에너지(TVE)에 기반한 속도장 대리 정책을 도입한다. 이는 흐름 정합 속도 공간에서 분기 가능성을 정량화하고, 고유 ODE 공식과 완전히 일관된 보상 가중 대비 목적 함수를 생성한다. 여러 정류된 AR 비디오 생성기에 대한 실험에서 단일 프롬프트 짧은 비디오 및 다중 프롬프트 긴 비디오 설정 모두에서 시각적 품질, 모션 품질, 텍스트-비디오 정렬에서 일관된 성능 향상이 입증되었다.

OProver: 에이전트 기반 형식 정리 증명을 위한 통합 프레임워크
OProver: A Unified Framework for Agentic Formal Theorem Proving

May 17

ByDavid Ma, Kaijing Ma, Shawn Guo, Yunfeng Shi, Enduo Zhao, Jiajun Shi, Zhaoxiang Zhang, Gavin Cheung, Jiaheng Liu, Zili Wang

최근 형식 정리 증명 분야의 진전은 대규모 증명 생성과 검증기 인식 훈련의 이점을 활용해 왔지만, 에이전트 기반 증명은 추론 시에만 나타날 뿐 증명기 훈련에는 거의 통합되지 않았다. 본 논문에서는 Lean 4에서 에이전트 기반 형식 정리 증명을 위한 통합 프레임워크인 OProver를 제시한다. OProver는 실패한 증명 시도를 검색된 컴파일러 검증 증명과 Lean 컴파일러 피드백을 사용하여 반복적으로 수정한다. OProver는 지속적 사전 훈련 후 반복적 사후 훈련을 통해 훈련된다. 각 반복은 에이전트 기반 증명을 실행하고, 새로 검증된 증명을 OProofs와 검색 메모리에 색인하며, 수정 궤적을 SFT 데이터로 사용하고, 해결되지 않은 어려운 사례를 강화 학습에 사용한다. OProofs는 공개 Lean 리소스, 대규모 증명 합성, 에이전트 기반 증명 궤적으로 구축되었으며, 177만 개의 Lean 문장, 686만 개의 컴파일러 검증 증명, 검색 컨텍스트, 실패 시도, 피드백 및 수정이 포함된 직렬화된 궤적을 포함한다. 다섯 가지 벤치마크에서 OProver-32B는 MiniF2F(93.3%), ProverBench(58.2%), PutnamBench(11.3%)에서 최고의 Pass@32를 달성했으며, MathOlympiad(22.8%)와 ProofNet(33.2%)에서는 두 번째로 높은 순위를 기록하여 기존의 모든 공개 가중치 전체 증명 증명기보다 더 많은 최상위 순위를 차지했다.

사후 학습된 MoE 모델이 자기 증류를 통해 절반의 전문가를 생략할 수 있다
Post-Trained MoE Can Skip Half Experts via Self-Distillation

May 18

ByXingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou

전문가 혼합(MoE)은 희소 전문가 활성화를 통해 언어 모델을 효율적으로 확장하며, 동적 변형은 입력에 따라 활성화된 전문가를 조정함으로써 계산량을 더욱 줄인다. 기존의 동적 MoE 방법은 일반적으로 처음부터 사전 학습하거나 작업별 적응에 의존하며, 완전히 학습된 MoE의 실용적 변환은 충분히 탐구되지 않았다. 이러한 적응을 가능하게 하면 서빙 중 쉬운 토큰이 불필요한 전문가를 건너뛰도록 하여 추론 비용을 직접적으로 완화할 수 있다. 본 논문은 사전 학습된 정적 MoE 모델을 효율적인 동적 모델로 변환하는 저비용 프레임워크인 ZEDA(제로 전문가 자기 증류 적응)를 소개한다. 이 구조적 변환을 안정화하기 위해, ZEDA는 각 MoE 계층에 매개변수가 없는 제로 출력 전문가를 주입하고, 원본 MoE를 고정된 교사로 활용하며 그룹 수준 균형 손실을 적용하여 증강된 모델을 2단계 자기 증류를 통해 적응시킨다. Qwen3-30B-A3B 및 GLM-4.7-Flash에서 수학, 코드, 지시 따르기 등 11개 벤치마크에 걸쳐, ZEDA는 미미한 정확도 손실로 전문가 FLOPs의 50% 이상을 제거한다. 이는 두 모델에서 가장 강력한 동적 MoE 기준선보다 각각 6.1점 및 4.0점 더 높은 성능을 보이며, 약 1.20배의 종단 간 추론 속도 향상을 제공한다.

VideoSeeker: 네이티브 에이전트 도구 호출을 통한 인스턴스 수준 비디오 이해 유도
VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

May 15

ByYiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

대규모 시각-언어 모델(LVLM)은 비디오 이해에 있어 상당한 진전을 보였으나, 인스턴스 수준에서 정밀한 시공간적 위치 파악이 필요한 작업에서는 여전히 큰 어려움에 직면해 있다. 기존 방법들은 주로 텍스트 프롬프트를 활용한 인간-모델 상호작용에 의존하지만, 이러한 프롬프트는 정확한 공간적 및 시간적 참조를 제공하기 어려워 사용자 경험이 저하된다. 또한 현재의 접근법은 일반적으로 시각적 인식과 언어 추론을 분리하여, 시각적 콘텐츠가 아닌 언어를 중심으로 추론을 진행함으로써 모델이 세밀한 시각적 증거를 능동적으로 인식하는 능력을 제한한다. 이러한 문제를 해결하기 위해, 우리는 시각적 프롬프트를 통한 인스턴스 수준 비디오 이해를 위한 새로운 패러다임인 VideoSeeker를 제안한다. VideoSeeker는 에이전트 추론과 인스턴스 수준 비디오 이해 작업을 원활하게 통합하여, 모델이 필요에 따라 관련 비디오 구간을 능동적으로 인식하고 검색할 수 있게 한다. 우리는 대규모의 고품질 인스턴스 수준 비디오 데이터를 효율적으로 생성하기 위해 4단계의 완전 자동화된 데이터 합성 파이프라인을 구축하였다. 콜드 스타트 지도학습과 강화학습 훈련을 통해 도구 호출 및 능동적 인식 능력을 모델에 내재화함으로써 강력한 비디오 이해 모델을 구축하였다. 실험 결과, 우리의 모델은 인스턴스 수준 비디오 이해 작업에서 기준 모델 대비 평균 +13.7%의 성능 향상을 달성하였으며, GPT-4o 및 Gemini-2.5-Pro와 같은 강력한 폐쇄형 소스 모델을 능가하면서도 일반 비디오 이해 벤치마크에서 효과적인 전이 가능성을 보여주었다. 관련 데이터셋과 코드는 공개될 예정이다.

LiteFrame: 비디오 LLM에서 프레임 스케일링을 가능케 하는 효율적 비전 인코더
LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

May 17

ByJihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong

비디오 대규모 언어 모델(Video LLM)을 장시간 비디오로 확장하는 근본적인 과제는 시각적 토큰 컨텍스트 길이의 폭발적 증가를 관리하는 데 있다. 기존 전략은 주로 LLM의 계산 오버헤드를 완화하기 위해 특징 추출 후 시각적 토큰을 줄이는 '사후적(post-hoc)' 토큰 감소에 초점을 맞춘다. 이러한 방법들은 시각적 토큰 수를 효과적으로 줄이지만, 주요 지연 병목 현상이 LLM에서 비전 인코더의 프레임당 고비용 처리로 이동한다는 점을 관찰했다. 이를 해결하기 위해 우리는 Video LLM을 위한 강력하면서도 고효율의 비디오 인코더 백본인 LiteFrame을 도입한다. LiteFrame을 학습시키기 위해, 우리는 압축 토큰 증류(CTD)라는 새로운 학습 프레임워크를 제안한다. 이는 대형 교사 비전 모델이 생성한 정보 밀도가 높은 시공간적 압축 표현을 소형 학생 비전 인코더가 직접 예측하도록 가르쳐, 불필요한 계산을 효과적으로 우회한다. 이후 추가적인 언어 모델 적응(LMA)과 결합하면, 이 접근법은 새로운 지연-정확도 파레토 최적 경계를 창출한다. InternVL3-8B와 비교하여 LiteFrame은 8배 더 많은 프레임을 처리하면서 종단 간 지연 시간을 35% 줄이고, 여러 벤치마크에서 평균 비디오 이해 정확도를 향상시킨다. 이러한 결과는 고정된 계산 예산 하에서 장시간 비디오 이해를 가능하게 하는 새로운 잠재적 경로를 제시한다.

추론이 수렴할 때 멈추기: 추론 모델을 위한 의미 보존 조기 종료
Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

May 17

ByDehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng

대규모 추론 모델(LRMs)은 긴 사고 사슬(CoT)을 생성함으로써 뛰어난 성능을 달성하지만, 해결책이 이미 안정화된 이후에도 추론을 계속하여 토큰을 낭비하고 지연 시간을 증가시키는 과잉 사고를 자주 보인다. 기존의 추론 시 조기 종료 방법은 주로 신뢰도나 시도-응답 일관성과 같은 응답 수준 신호에 의존하여 중단 시점을 결정한다. 그러나 이러한 신호는 주로 추론 수렴보다는 응답 준비 상태를 반영하므로, 모델이 탐색이나 자기 수정을 완료하기 전에 조기 종료가 유발될 수 있으며, 이는 최종 답변 정확도를 저하시키고 유지된 추론 체인을 의미론적으로 불완전하게 만든다. 본 연구에서는 의미 보존 조기 종료를 위한 보완 신호로서 추론 수준의 의미론적 중복을 식별한다: 연속적인 단계가 더 이상 새로운 진전을 추가하지 않고 기존 결론을 재방문할 때, 추론 궤적은 수렴되었을 가능성이 높다. 이 통찰을 바탕으로, 우리는 경량 중복 감지기(Redundancy Detector)와 응답 수준 검증을 결합한 플러그 앤 플레이 프레임워크인 PUMA를 제안한다. 감지기는 의미론적으로 중복된 후보 종료 지점을 식별하고, 검증은 중단이 안전한지 확인하여, PUMA가 응답 정확도와 일관된 추론 접두사를 모두 보존하면서 중복된 연속 부분을 제거할 수 있도록 한다. 다섯 개의 LRM과 다섯 개의 까다로운 추론 벤치마크에 걸쳐, PUMA는 정확도와 유지된 CoT 품질을 보존하면서 평균 26.2%의 토큰 감소를 달성한다. 코드 생성, 제로샷 시각-언어 추론, 학습된 중단 정책 내재화에 대한 추가 실험은 추론 수준의 중복이 효율적 추론을 위한 강건하고 전이 가능하며 학습 가능한 신호임을 더욱 입증한다. 본 코드는 https://github.com/giovanni-vaccarino/PUMA에서 확인할 수 있다.

오픈 대규모 언어 모델에서의 최대 활성화 측정
Measuring Maximum Activations in Open Large Language Models

May 15

ByLuxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

활성화의 동적 범위는 저비트 양자화, 활성화 스케일링 및 안정적 LLM 추론에 있어 1차 제약 조건이다. 선행 연구는 2024년 이전 LLaMA 스타일 모델에서 이상치 특징과 거대 활성화를 특성화했으며, 다운스트림 활성화-양자화 스택은 포스트-LLaMA 오픈 모델 붐 이후 이를 재검토하지 않고 그 그림을 계승한다. 우리는 배포 지향적 질문을 제기한다: 현대 오픈 LLM에서 활성화가 얼마나 커질 수 있으며, 그 크기는 계열, 세대, 훈련 단계에 따라 어떻게 달라지는가? 통합 파이프라인(5,000개 샘플 다중 도메인 코퍼스, 계열별 토큰화, 임베딩, 은닉 상태, 어텐션, MLP/MoE, SwiGLU 게이트 및 최종 정규화에 걸친 동일한 후크) 하에서, 우리는 8개 오픈 계열(밀집, MoE, 비전-언어, 중간 훈련 및 명령어 튜닝 변형 포함)의 27개 체크포인트에서 전역 및 계층별 최댓값을 측정한다. 그 결과, (i) 전역 최댓값은 비교 가능한 파라미터 수에서 거의 네 자릿수에 걸쳐 있으며, Qwen3.5 및 MoE 체크포인트는 10^2에서 10^3 범위, Gemma3-27B-it은 약 7×10^5에 도달한다; (ii) 계열 간 및 세대 간 비교는 단순 단조적 스케일링을 깨뜨린다; (iii) MoE 체크포인트는 동일 규모의 밀집 대응 모델보다 14.0–23.4배 낮은 피크를 보이며, 잔차 스트림이 22/24 체크포인트에서 전역 최댓값을 전달한다. 경량 INT-8 검증을 통해 측정된 최댓값이 활성화 스케일 선택을 통해 저비트 재구성 오류와 공변함을 보인다. 우리는 최대 활성화 크기가 계열, 아키텍처 및 훈련 단계에 묶인 모델 속성이며, 단순한 크기의 부산물이 아니라는 결론을 내린다. 따라서 저비트 배포 전에 오픈 가중치 공개와 함께 이를 측정하고 보고해야 한다. 코드는 https://github.com/clx1415926/Max_act_llm에서 공개적으로 이용 가능하다.

StableVLA: 추가 데이터 없이 강건한 시각-언어-행동 모델을 위하여
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

May 18

ByYiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou

훈련 데이터셋 내에서 모든 가능한 교란을 포함하는 것은 실현 불가능하다. 이는 특히 불완전한 시각 조건 하에서, 학습되지 않은 실제 시각적 교란에 직면했을 때 시각-언어-행동( Vision-Language-Action, VLA) 모델의 강건성에 관한 중요한 질문을 제기한다. 본 연구에서는 최신 VLA 모델들을 기반으로 체계적인 연구를 수행하여, 훈련 데이터에 존재하지 않는 시각적 교란이 도입될 때 상당한 성능 저하가 발생함을 밝혀냈다. 이 문제를 완화하기 위해, 정보 이론에 기반한 경량 어댑터 모듈인 정보 병목 어댑터(IB-Adapter)를 제안하며, 이는 시각 입력에서 잠재적 노이즈를 선택적으로 필터링한다. 추가 데이터나 증강 전략 없이도 IB-Adapter는 베이스라인 대비 평균 30%의 성능 향상을 일관되게 달성하며, 1천만 개 미만의 파라미터만 추가하여 뛰어난 효율성과 효과성을 보여준다. 또한, 14배 더 작은 백본(0.5B 파라미터)과 Open X-Embodiment 데이터셋에 대한 사전 훈련 없이도, 당사의 모델 StableVLA는 7B 규모의 최신 VLA 모델과 경쟁할 만한 강건성을 달성한다. 미미한 파라미터 오버헤드(<10M)로, 장기 과제에서의 정확도를 유지하며, 합성 및 물리적 시각 손상 모두에서 OpenPi를 능가한다.

EndPrompt: 종단 앵커링을 통한 효율적인 장문맥 확장
EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

May 14

ByHan Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

대규모 언어 모델의 컨텍스트 윈도우를 확장하려면 일반적으로 목표 길이의 시퀀스에 대한 학습이 필요하며, 이는 제곱에 비례하는 메모리 및 계산 비용을 초래하여 긴 컨텍스트 적응을 비용이 많이 들고 재현하기 어렵게 만듭니다. 본 논문에서는 짧은 학습 시퀀스만으로 효과적인 컨텍스트 확장을 달성하는 방법인 EndPrompt를 제안합니다. 핵심 통찰은 모델이 장거리 상대적 위치 거리에 노출되기 위해 전체 길이의 입력을 구성할 필요가 없다는 점입니다. 즉, 원래의 짧은 컨텍스트를 온전한 첫 번째 세그먼트로 유지하고, 두 번째 세그먼트로 짧은 종단 프롬프트를 추가하여 목표 컨텍스트 길이에 가까운 위치 인덱스를 할당합니다. 이 2-세그먼트 구성은 연속적인 컨텍스트를 분할하는 청크 기반 시뮬레이션 접근 방식에는 없는 특성인 훈련 텍스트의 의미적 연속성을 유지하면서 짧은 물리적 시퀀스 내에서 국소적 및 장거리 상대적 거리를 모두 도입합니다. 우리는 Rotary Position Embedding과 Bernstein 부등식에 기반한 이론적 분석을 제공하며, 위치 보간이 어텐션 함수에 엄격한 평활성 제약을 유도하고 공유된 Transformer 파라미터가 관찰되지 않은 중간 거리에 대한 불안정한 외삽을 추가로 억제함을 보여줍니다. LLaMA 계열 모델에 적용되어 컨텍스트 윈도우를 8K에서 64K로 확장한 결과, EndPrompt는 평균 RULER 점수 76.03과 LongBench에서 가장 높은 평균 점수를 달성하여 LCEG(72.24), LongLoRA(72.95), 전체 길이 파인튜닝(69.23)을 능가하면서도 훨씬 적은 계산량을 필요로 합니다. 이러한 결과는 긴 컨텍스트 일반화가 희소한 위치 감독으로부터 유도될 수 있음을 보여주며, 신뢰할 수 있는 컨텍스트 윈도우 확장을 위해 조밀한 긴 시퀀스 학습이 필요하다는 기존의 가정에 도전합니다. 코드는 https://github.com/clx1415926/EndPrompt에서 확인할 수 있습니다.

모델 적응형 도구 필요성은 LLM 도구 사용에서 지식-실행 격차를 드러낸다
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

May 13

ByYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz

대규모 언어 모델(LLM)은 점점 더 자율 에이전트로서 직접 답변해야 하는 시점과 외부 도구를 호출해야 하는 시점을 결정해야 한다. 적응적 도구 사용에 관한 기존 연구는 대체로 도구 필요성을 모델 무관 속성으로 간주하여 인간 또는 LLM 판정자가 주석을 달았으며, 주로 답변이 명확한 경우(예: 날씨 정보 가져오기 대 텍스트 요약)를 다루었다. 그러나 실제 환경에서 도구 필요성은 모델 간 능력 경계의 차이로 인해 더 미묘하다. 강력한 모델이 자체적으로 해결할 수 있는 문제라도 약한 모델에게는 여전히 도구가 필요할 수 있기 때문이다. 본 연구에서는 각 모델의 경험적 성능에 기반한 모델 적응형 도구 필요성 정의를 도입한다. 이 정의에 따라 산술 및 사실 QA 데이터셋에서 네 가지 모델의 관찰된 도구 호출 행동과 필요성을 비교한 결과, 각각 26.5-54.0% 및 30.8-41.8%의 상당한 불일치를 발견했다. 실패를 진단하기 위해 도구 사용을 두 단계로 분해한다: 모델이 도구가 필요하다고 믿는지 여부를 반영하는 내부 인지 단계와 모델이 실제로 도구 호출 행동을 수행할지 결정하는 실행 단계. LLM 은닉 상태를 탐침함으로써 두 신호가 종종 선형적으로 디코딩 가능하지만, 다음 토큰 행동을 주도하는 후기 계층, 마지막 토큰 영역에서는 탐침 방향이 거의 직교하게 됨을 발견했다. 두 단계 과정에서 샘플의 궤적을 추적함으로써 불일치의 대부분이 인지 자체가 아닌 인지-행동 전환에 집중되어 있음을 추가로 발견했다. 이러한 결과는 LLM 도구 사용에 인지-실행 격차가 있음을 보여준다. 도구 사용의 신뢰성을 개선하기 위해서는 도구가 필요한 시점을 더 잘 인식하는 것뿐만 아니라 그 인식을 행동으로 더 잘 전환하는 것도 필요하다.

AstraFlow: 에이전트 LLM을 위한 데이터플로우 중심 강화 학습
AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

May 15

ByHaizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

강화학습(RL)은 대규모 언어 모델의 추론, 코딩 및 도구 사용 능력을 향상시키기 위해 점점 더 많이 사용되고 있지만, 에이전트 기반 강화학습은 여전히 엄청난 비용이 소요된다. RL을 에이전트 기반 대규모 언어 모델로 확장하려면 다중 정책 협력 학습을 포함한 복잡한 워크로드를 지원하면서도 탄력적이고 이기종이며 지역 간 컴퓨팅 자원을 효율적으로 활용해야 한다. 기존의 대규모 언어 모델 RL 시스템은 이러한 기능 중 일부를 지원하지만, 새로운 확장이 추가될 때마다 종종 전용 시스템 엔지니어링이 필요하다. 이러한 부담은 트레이너 중심 제어 아키텍처와 RL 시스템 구성 요소에 대한 원칙적인 추상화 부족에서 비롯된다. 이러한 한계를 해결하기 위해 우리는 기존의 트레이너 중심 제어를 원칙적인 구성 요소 추상화로 대체하는 데이터 흐름 지향 RL 시스템인 AstraFlow를 제안한다. AstraFlow에서 롤아웃 서비스, 데이터 흐름 관리, 학습은 자율적인 구성 요소로 분리되어, 시스템이 복잡한 다중 정책 에이전트 기반 RL 워크로드를 자연스럽게 지원하고 다양한 컴퓨팅 자원을 효율적으로 활용할 수 있게 한다. 우리는 AstraFlow를 수학, 코드, 검색, AgentBench 워크로드에서 평가하여, 시스템 수준의 코드 변경 없이도 동일한 시스템이 다중 정책 학습, 탄력적 확장, 이기종 지역 간 실행, 구성 가능한 데이터 알고리즘을 지원함을 보였다. 다중 정책 협력 학습에서 AstraFlow는 기존 RL 시스템과 비교하여 동등하거나 더 나은 정확도를 달성하면서도 학습 시간을 2.7배 단축하였다.

확산이 언어 모델에 어디에서 들어가야 하는가? 기하학 기반 은닉 상태 대체
Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

May 14

ByInjin Kong, Hyoungjoon Lee, Yohan Jo

연속 확산 언어 모델은 자기회귀 트랜스포머에 비해 뒤처져 있는데, 그 이유 중 하나는 확산이 언어 잡음 제거 및 토큰 복구에 부적합한 공간에서 적용되기 때문이다. 우리는 사전 훈련된 트랜스포머의 어느 지점에 확산이 진입해야 하는지 묻는 기하학 기반 확산-트랜스포머 하이브리드 DiHAL을 제안한다. DiHAL은 기하학 기반 프록시로 층을 평가하고, 확산에 친화적인 은닉 상태 인터페이스를 선택하며, 상부 층과 원래 LM 헤드는 유지한 채 하부 트랜스포머 프리픽스를 확산 브리지로 대체한다. DiHAL은 토큰 대신 선택된 층의 은닉 상태를 재구성함으로써 직접적인 연속-이산 복구를 회피한다. 8B 규모 백본에 대한 실험은 기하학 점수가 고정된 브리지 훈련 프로토콜 하에서 효과적인 얕은 삽입 층을 예측하며, 확산/복구 훈련 예산을 일치시킨 진단 비교에서 은닉 상태 복구가 연속 확산 기준선보다 향상됨을 보여준다. 이러한 결과는 은닉 상태 기하학이 사전 훈련된 언어 모델 내부에서 확산 기반 대체가 가능한 지점을 식별하는 데 도움이 됨을 시사한다.

대조 쌍 탐색을 통한 표적 뉴런 조절
Targeted Neuron Modulation via Contrastive Pair Search

May 12

BySam Herring, Jake Naviasky, Karan Malhotra

언어 모델은 유해한 요청을 거부하도록 명령어 미세조정(instruction-tuning)되지만, 이러한 행동의 기반 메커니즘은 여전히 제대로 이해되지 않고 있다. 널리 사용되는 조향 방법들은 잔차 스트림에서 작동하며 높은 개입 강도에서 출력 일관성을 저하시켜 실용적 사용을 제한한다. 본 연구에서는 대비적 뉴런 기여도(CNA)를 소개한다. 이는 유해 프롬프트와 무해 프롬프트를 가장 잘 구분하는 MLP 뉴런의 0.1%를 식별하며, 기울기나 보조 학습 없이 순전파만을 필요로 한다. 명령어 모델에서 발견된 회로를 제거하면 표준 탈옥 벤치마크에서 거부율이 50% 이상 감소하는 동시에 모든 조향 강도에서 유창성과 비퇴화성을 유지한다. CNA를 Llama 및 Qwen 아키텍처(1B에서 72B 파라미터)의 대응하는 베이스 모델과 명령어 모델에 적용한 결과, 베이스 모델이 유사한 후층(후기 계층) 판별 구조를 포함하지만 이러한 뉴런을 조향하면 내용 변화만 유발할 뿐 행동 변화는 일으키지 않는다는 것을 발견했다. 이러한 결과는 뉴런 수준의 개입이 잔차 스트림 방법의 품질 트레이드오프 없이 신뢰할 수 있는 행동 조향을 가능하게 함을 보여준다. 보다 넓게, 본 연구 결과는 정렬 미세조정이 기존의 판별 구조를 희소하고 표적화 가능한 거부 게이트로 변환함을 시사한다.

CompactAttention: 블록-유니온 KV 선택을 통한 청크 프리필 가속화
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

May 16

ByJiwon Song, Dongwon Jo, Beomseok Kang, Jae-Joon Kim

청크 기반 프리필(chunked prefill)은 장기 컨텍스트 대규모 언어 모델을 위한 널리 채택된 서빙 전략이 되었지만, 이 체계에서 효율적인 어텐션 계산은 여전히 어려운 과제로 남아 있다. 기존의 희소 어텐션(sparse attention) 방법은 주로 원샷 프리필(one-shot prefill)을 위해 설계되었으며, 청크 프리필에서는 효율적으로 적용되지 않는다: 블록 희소 커널(block-sparse kernel)은 쿼리 길이가 청크 크기로 제한될 때 효율성이 떨어지고, 미세 패턴 탐색은 모든 청크에서 누적된 KV 캐시에 대해 반복될 때 비용이 많이 든다. 최근 청크 프리필을 직접 대상으로 하는 QUOKA는 희소 커널 오버헤드를 피하지만, 쿼리 서브샘플링(query-subsampled) 기반의 토큰 수준 KV 선택에 의존하여 쿼리별 KV 항목을 놓칠 수 있고 명시적인 KV 복사 오버헤드를 초래한다. 이러한 한계를 해결하기 위해, 우리는 블록 유니온 KV 선택(Block-Union KV Selection)에 기반한 청크 프리필 어텐션 메커니즘인 CompactAttention을 제안한다. CompactAttention은 2D 블록 희소 마스크를 직접적인 희소 커널 실행 계획이 아닌 KV 선택 신호로 취급하고, 이를 Q-블록 유니온(Q-block union)과 그룹 내 유니온(intra-group union)을 통해 GQA 인식(GQA-aware) 그룹별 KV 블록 테이블로 변환한다. 이 구성은 페이지 실행 제약 하에서 입력 마스크에 의해 선택된 모든 KV 블록을 보존하는 최소 블록 테이블을 생성하며, 선택된 KV 블록이 명시적 KV 압축 없이 제자리에서 접근될 수 있게 한다. LLaMA-3.1-8B-Instruct에서 CompactAttention은 RULER 벤치마크에서 정밀 어텐션에 가까운 정확도를 유지하면서, 청크 프리필 환경에서 128K 컨텍스트 길이 기준 최대 2.72배의 어텐션 속도 향상을 제공한다.

실행 가능에서 배포 가능으로: 요구사항으로부터 풀스택 웹 애플리케이션을 생성하기 위한 다중 에이전트 테스트 주도 개발
From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

May 17

ByYuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R Lyu

코딩 에이전트는 자연어 설명으로 웹 애플리케이션을 생성할 수 있지만, 최근의 벤치마크 연구에 따르면 생성된 애플리케이션의 70% 이상이 기능 요구사항을 충족하지 못한다. 핵심 어려움은 웹 정확성이 소스 파일이나 터미널 출력만으로 평가될 수 없다는 점이다. 애플리케이션을 배포하고, 시뮬레이션된 브라우저 상호작용을 통해 실행해야 하며, 실패를 실행 가능한 수리 신호로 변환해야 하는데, 현재 에이전트는 인간의 중재 없이는 이러한 단계를 수행할 수 없다. 본 연구에서는 이 폐쇄 루프를 자동화하는 프레임워크인 TDDev를 제안한다. 이 프레임워크는 세 단계로 구성된다: (1) 코드 작성 전에 높은 수준의 요구사항을 구조화된 승인 테스트로 변환, (2) 애플리케이션을 배포하고 브라우저 기반 상호작용 시뮬레이션을 통해 검증, (3) 브라우저에서 관찰된 실패를 코딩 에이전트를 위한 구조화된 수리 보고서로 변환한다. TDDev를 통해 웹 애플리케이션 생성을 위한 테스트 주도 개발(TDD) 전략에 대한 최초의 통제된 실증 연구를 수행하였으며, 두 개의 코딩 에이전트, 두 개의 백본 모델, 두 개의 벤치마크에서 네 가지 개발 프로토콜을 비교하였다. TDD 인프라는 TDD가 없는 기준선 대비 생성 품질을 일관되게 34~48% 포인트 향상시켰다. 핵심 발견은 최적의 프로토콜이 모델의 생성 스타일에 의존한다는 것이다. 애플리케이션을 전체적으로 구축하는 모델은 에이전트 기반 강제 방식을 통해 가장 큰 이점을 얻는 반면, 코드를 보수적으로 확장하는 모델은 점진적 강제 방식에서 이점을 얻는다. 프로토콜과 생성 스타일의 불일치는 TDD 이점을 완전히 제거할 뿐만 아니라 토큰 비용을 최대 25배까지 증가시킨다. 사용자 연구는 TDDev가 수동 개발자 개입을 0으로 줄여, 작업 부하를 지속적인 프롬프트 엔지니어링에서 자율적이고 피드백 기반의 개선으로 전환함을 확인한다.

NGM: 대규모 언어 모델(LLMs)을 위한 플러그 앤 플레이 방식의 학습 불필요 메모리 모듈
NGM: A Plug-and-Play Training-Free Memory Module for LLMs

May 16

ByYuwen Qu, Wenhui Dong, Chenyang Si, Caifeng Shan

최근 연구들은 지식 저장소를 신경 계산으로부터 분리하는 조건부 메모리 모듈을 도입하여 보다 직접적인 지식 접근을 가능하게 한다. 동적 계산 경로에 의존하는 MoE와 달리, 명시적 조회는 더 효율적인 지식 검색 메커니즘을 제공한다. 그러나 이러한 접근 방식은 여전히 학습된 메모리 임베딩에 의존하며, 추가 학습이 필요하고 유연성을 제한한다. 이 문제를 해결하기 위해 우리는 N-gram Memory (NGM)를 제안한다. 이는 학습이 필요 없는 플러그 앤 플레이 모듈로, 인과적 N-그램 인코더(Causal N-Gram Encoder)와 코사인 게이트 메모리 인젝터(Cosine-Gated Memory Injector)로 구성된다. 인과적 N-그램 인코더는 백본 모델의 사전 학습된 토큰 임베딩을 직접 평균하여 N-그램 표현을 구성함으로써, 별도의 N-그램 임베딩을 처음부터 학습할 필요를 없앤다. 이 설계는 추가 메모리 테이블이나 검색 파이프라인이 필요하지 않다. 그 다음 코사인 게이트 메모리 인젝터는 ReLU가 적용된 비모수적 코사인 게이트를 사용하여 검색된 임베딩을 맥락 표현에 변조하여 통합한다. 우리는 Qwen3 시리즈(0.6B ~ 14B)를 대상으로 8개의 벤치마크에서 NGM을 평가했다. NGM은 평균 성능을 0.5~1.2포인트 향상시켰으며, 특히 코드 생성 및 지식 집약적 작업에서 뚜렷한 성능 향상을 보였다(예: Qwen3-14B의 LiveCodeBench에서 +3.0, GPQA에서 +3.03). 또한 NGM은 멀티모달 벤치마크에서도 성능을 개선했다(예: Qwen3-VL-2B의 MMStar +1.53).

WavFlow: 파형 공간에서의 오디오 생성
WavFlow: Audio Generation in Waveform Space

May 18

ByFeiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng

현대 오디오 생성은 주로 잠재 공간 압축에 의존하며, 이는 추가적인 복잡성과 잠재적 정보 손실을 초래한다. 본 연구에서는 중간 표현 없이 원시 파형 공간에서 직접 고충실도 오디오를 생성하는 프레임워크 WavFlow를 통해 이러한 패러다임에 도전한다. 고차원 저에너지 신호를 모델링하는 본질적 어려움을 극복하기 위해, 파형 패치화(waveform patchify)를 통해 오디오를 2D 토큰 그리드로 재구성하고 진폭 리프팅(amplitude lifting)을 도입하여 신호 스케일을 정렬함으로써, 흐름 매칭(flow matching)에서 직접 x-예측을 통한 안정적 최적화를 가능하게 한다. 복잡한 의미 정렬과 시간적 동기화를 포착하기 위해, 자동화된 데이터 파이프라인을 활용하여 500만 개의 고품질 비디오-텍스트-오디오 트리플릿을 큐레이션함으로써 모델이 처음부터 세밀한 음향 패턴을 학습할 수 있도록 한다. 실험 결과, WavFlow는 비디오-투-오디오 벤치마크 VGGSound(FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44)와 텍스트-투-오디오 벤치마크 AudioCaps(FD_PANNs: 10.63, IS_PANNs: 12.62)에서 경쟁력 있는 성능을 달성하며, 기존의 잠재 기반 방법과 동등하거나 이를 능가하는 결과를 보여준다. 본 연구는 중간 압축이 고품질 합성의 전제 조건이 아님을 입증하며, 다중 모달 오디오 생성을 위한 더 간단하고 확장 가능한 대안을 제시한다.

TOBench: 실세계 도구 사용 에이전트를 위한 과제 지향 옴니모달 벤치마크
TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

May 16

ByZhiqiang Liu, Wenhui Dong, Yilang Tan, Yuwen Qu, Haochen Yin, Chenyang Si

도구 사용 에이전트는 실제 전문 작업 흐름에서 작동해야 하는 경우가 점점 더 많아지고 있으며, 이 과정에서 멀티모달 입력을 해석하고, 외부 도구를 조정하며, 중간 결과물을 검사하고, 최종 결과를 생성하기 전에 동작을 수정해야 합니다. 그러나 기존 벤치마크는 도구 사용, 컴퓨터 사용 및 멀티모달 추론을 개별적으로 평가하는 경우가 많아, 벤치마크 환경과 실제 세계에서의 종단간 전방위(omni-modal) 도구 사용 간에 격차가 존재합니다. 이러한 격차를 해소하기 위해 우리는 작업 지향적 전방위 도구 사용을 위한 벤치마크 및 평가 도구인 MM-ToolBench를 소개합니다. MM-ToolBench는 고객 서비스와 지능형 창작이라는 두 가지 거시 작업군에서 추출한 100개의 실행 가능한 작업을 포함하며, 20개의 하위 범주를 아우르고 27개의 MCP 서버와 324개의 도구로 구성됩니다. MM-ToolBench의 핵심 설계는 폐루프(closed-loop) 멀티모달 검증입니다. 에이전트는 도구를 실행하고, 렌더링 또는 변환된 결과물을 검사하며, 출력이 작업별 요구 사항을 충족하지 못할 경우 스스로 수정해야 합니다. 이러한 평가를 확장 가능하고 검증 가능하게 만들기 위해 MM-ToolBench는 MCP 기반 실행과 작업별 기반 평가자(grounded evaluator), 그리고 시나리오 발견, 작업 구체화, 평가자 합성 및 인간 감사를 위한 반자동화된 구축 파이프라인을 결합합니다. 15개의 최신 에이전트 모델에 대한 실험 결과, MM-ToolBench는 여전히 높은 난이도를 유지하고 있습니다. 일반적으로 가장 강력한 코딩 에이전트 모델 중 하나로 여겨지는 Claude Opus 4.6조차 32.0%의 작업 성공률을 기록했으며, 이는 인간 기준 94.0%에 크게 미치지 못합니다. 우리는 MM-ToolBench가 폐루프 멀티모달 검증을 통해 차세대 전방위 도구 사용 에이전트를 평가하고 발전시키기 위한 실용적인 기반이 될 것이라고 기대합니다.

AtlasVA: 교사 없는 VLM 에이전트를 위한 자기 진화적 시각 기술 메모리
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

May 18

ByPan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen

비전-언어 모델(VLM) 에이전트는 장기 과제에서 경험을 재사용하기 위해 점점 메모리 증강 강화 학습에 의존하고 있지만, 대부분의 기존 프레임워크는 메모리를 텍스트로 저장하고 이를 요약하거나 정제하기 위해 독점적인 교사 모델에 의존한다. 이러한 설계는 공간적 의사 결정에 부적합하다. 기하학적 사전 지식이 손실이 큰 언어로 압축되고, 희소한 상호작용은 조밀한 시각적 신호가 아닌 지연된 텍스트 피드백을 통해 종종 감독되기 때문이다. 우리는 VLM 에이전트의 재사용 가능한 경험이 시각적으로 기반을 두어야 한다고 주장한다. 이 통찰을 바탕으로, 우리는 교사 없는 시각적 스킬 메모리 프레임워크인 AtlasVA를 제안한다. AtlasVA는 메모리를 세 가지 보완적인 계층, 즉 공간 히트맵, 시각적 예시, 기호 텍스트 스킬로 구성한다. 또한 AtlasVA는 궤적 통계와 경량 격자 휴리스틱으로부터 직접 위험 및 친화도 아틀라스를 진화시키고, 이러한 자기 진화형 아틀라스를 강화 학습을 위한 잠재 기반 형성 보상으로 재사용한다. 이는 외부 LLM 감독 없이 지각, 메모리, 최적화를 통합한다. Sokoban, FrozenLake, 3D 체화된 탐색, 3D 로봇 조작 벤치마크 실험 결과, AtlasVA가 텍스트 중심 메모리 기준선 및 경쟁력 있는 VLM 에이전트보다 일관되게 우수한 성능을 보였으며, 특히 공간 집약적 과제에서 큰 향상을 나타냈다. 홈페이지: https://wangpan-ustc.github.io/AtlasvaWeb

MixSD: 혼합 맥락적 자기 증류를 통한 지식 주입
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

May 16

ByJiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

지도 미세 조정(Supervised Fine-Tuning, SFT)은 언어 모델에 새로운 지식을 주입하기 위해 널리 사용되지만, 종종 추론 능력과 일반 도메인 성능과 같은 사전 훈련된 능력을 저하시킵니다. 우리는 이러한 망각이 인간 또는 외부 시스템에서 비롯된 미세 조정 목표가 모델의 자기회귀 분포와 괴리되어, 옵티마이저가 낮은 확률의 토큰 시퀀스를 모방하도록 강제하기 때문에 발생한다고 주장합니다. 이 문제를 해결하기 위해, 우리는 간단한 외부 교사 없는 분포 정렬 지식 주입 방법인 MixSD를 제안합니다. MixSD는 고정된 목표를 학습하는 대신, 기본 모델 자체의 두 조건부, 즉 주입된 사실을 문맥에서 관찰하는 전문가 조건부와 모델의 원래 사전 지식을 반영하는 순수 조건부에서 토큰을 혼합하여 동적으로 지도 신호를 구성합니다. 결과적으로 생성된 지도 시퀀스는 사실 학습 신호를 유지하면서도 기본 모델의 분포에 훨씬 더 가깝게 유지됩니다. 우리는 통제된 환경에서 사실 회상 및 산술 함수 습득을 연구하기 위해 자체 구축한 두 개의 합성 말뭉치와 함께, 개방형 도메인 사실 질의응답 및 지식 편집을 위한 기존 벤치마크에서 MixSD를 평가합니다. 여러 모델 규모와 설정에 걸쳐, MixSD는 SFT 및 온-정책 자기 증류 기준선에 비해 더 나은 암기-유지 균형을 일관되게 달성하며, 기본 모델의 미보유 능력을 최대 100% 유지하면서도 거의 완벽한 훈련 정확도를 유지합니다. 반면, 표준 SFT는 1%만 유지합니다. 우리는 또한 MixSD가 기본 모델 하에서 실질적으로 더 낮은 NLL 지도 목표를 생성하고, Fisher 민감 매개변수 방향을 따라 유해한 이동을 줄인다는 것을 보여줍니다. 이러한 결과는 지도 신호를 모델의 고유 생성 분포에 맞추는 것이 파괴적 망각을 완화하는 지식 주입을 위한 간단하면서도 효과적인 원칙임을 시사합니다.

MementoGUI: 장기적 GUI 에이전트를 위한 에이전트적 멀티모달 메모리 제어 학습
MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

May 18

ByZiyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

최근 GUI 에이전트는 시각적 근거와 행동 예측에서 상당한 진전을 이루었으나, 다수의 인터페이스 전환에 걸쳐 작업 상태를 유지해야 하는 장기적 과제에서는 여전히 취약한 모습을 보인다. 기존 에이전트는 일반적으로 원시 히스토리 재생이나 텍스트 전용 메모리에 의존하며, 이는 중복된 스크린샷으로 모델을 압도하거나 향후 결정에 필요한 국소적 시각 증거를 폐기하는 결과를 초래한다. 이러한 한계를 극복하기 위해, 우리는 MementoGUI를 소개한다. 이는 MLLM 기반 GUI 에이전트에 MementoCore를 장착한 플러그인 에이전틱 메모리 프레임워크로, MementoCore는 온라인 메모리 선택, 압축, 검색을 위한 학습된 컨트롤러이다. MementoGUI는 상호작용 히스토리를 고정된 컨텍스트로 취급하는 대신, 장기적 GUI 제어를 온라인 메모리 제어 문제로 정식화한다. 작업 메모리는 텍스트 요약 및 ROI 수준의 시각적 증거를 통해 작업 관련 인터페이스 이벤트를 선택적으로 보존하며, 일화 메모리는 학습된 관련성 선택을 통해 재사용 가능한 과거 궤적을 검색한다. MementoCore는 메모리 제어를 단계 처리, 메모리 압축, 일화적 쓰기, 일화적 선택을 위한 전문화된 연산자로 모듈화하여, GUI 에이전트 백본을 미세 조정하지 않고도 플러그인 메모리 증강을 가능하게 한다. 또한, 컴퓨터 사용 궤적을 메모리 컨트롤러 학습 데이터로 변환하는 확장 가능한 데이터 큐레이션 파이프라인을 개발하고, GUI 에이전트의 장기적 의사 결정 평가를 위한 MementoGUI-Bench를 도입하며, 의미적 행동 매칭, 작업 진행 상황, 메모리 일관성을 위한 MLLM 기반 메트릭을 설계한다. GUI-Odyssey, MM-Mind2Web, MementoGUI-Bench에 대한 실험 결과, MementoGUI는 히스토리 없음, 히스토리 재생, 텍스트 전용 메모리 기준선에 비해 GUI 에이전트를 일관되게 개선하며, 더 큰 MementoCore 백본은 메모리 증강 GUI 제어를 더욱 강화한다.

FINESSE-Bench: 대규모 언어 모델의 금융 도메인 지식 및 기술적 분석을 위한 계층적 벤치마크 스위트
FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

May 14

ByDmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov

대규모 언어 모델(LLM)은 재무 분석, 보고, 투자 의사 결정 지원, 위험 관리, 규정 준수 및 전문 교육에 점점 더 많이 적용되고 있다. 그러나 금융 분야에서 이들의 도메인 역량에 대한 강건한 평가는 여전히 불완전하다. FinQA, ConvFinQA, TAT-QA와 같은 널리 사용되는 공개 벤치마크는 금융 질의응답 및 수치 추론의 발전에 중요한 역할을 해왔지만, 주로 재무 보고서에 대한 질의응답에 초점을 맞추고 있으며 전문적 난이도의 명시적 계층을 제공하지 않는다. FinanceBench, PIXIU, FinBen, FLaME를 포함한 보다 포괄적인 자원은 금융 과제의 범위를 확장하지만, 기초 지식에서 전문가 수준의 금융 추론으로의 전환을 평가하는 문제는 여전히 해결되지 않은 과제로 남아 있다. 본 연구에서는 LLM의 금융 역량을 계층적으로 평가하기 위해 8개의 특화 벤치마크로 구성된 FINESSE-Bench를 제시한다. FINESSE-Bench는 총 3,993개의 질문으로 이루어져 있으며, 전문 자격증에서 영감을 받은 시험 중심 데이터셋(CFA 수준 1-3, CMT 수준 2, CFTe 수준 1), 응용 트레이딩 과제 모음, 그리고 러시아어 올림피아드 벤치마크를 결합한다. 이러한 설계를 통해 도메인 폭, 난이도 증가에 따른 성능 저하, 계산 과제 해결 능력, 특화 금융 분야에서의 모델 행동을 평가할 수 있다. 또한 객관식 질문, 수치형 답변, 짧은 개방형 응답을 포함하는 통합 평가 프로토콜과 LLM-as-judge 패러다임에 기반한 자유 형식 답변의 자동 채점 방식을 설명한다. FINESSE-Bench는 기존의 공개 금융 벤치마크를 보완함과 동시에 대규모 언어 모델의 전문적으로 관련된 금융 역량을 보다 실질적으로 평가하기 위한 도구로 활용될 것을 목표로 한다.

Agent Bazaar: 다중 에이전트 마켓플레이스에서의 경제적 일치 실현
Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

May 17

BySeth Karten, Cameron Crow, Chi Jin

대규모 언어 모델(LLM)을 자율적 경제 행위자로 배치하는 것은 개별 능력 실패를 넘어서는 체계적 위험을 초래한다. 이러한 행위자들이 시장과 직접 상호작용하는 방향으로 전환됨에 따라, 그들의 집단적 행동은 변동성을 증폭시키고 대규모 속임수를 은폐할 수 있다. 우리는 에이전트 바자(Agent Bazaar)를 소개한다. 이는 다중 에이전트 시뮬레이션 프레임워크로, 시장 안정성과 건전성을 유지하는 에이전트 시스템의 능력, 즉 경제적 정렬(Economic Alignment)을 평가하기 위해 설계되었다. 우리는 두 가지 실패 모드를 식별한다: (1) B2C 시장에서의 알고리즘 불안정성("크래시")으로, 기업이 가격 변동성을 증폭시켜 시장이 붕괴하는 경우, (2) C2C 시장에서의 시빌 기만("레몬 시장")으로, 단일 기만적 에이전트가 여러 조정된 판매자 신원을 통제하여 사기성 목록으로 시장을 범람시키고 신뢰와 소비자 후생을 침식하는 경우이다. 우리는 두 시나리오에서 최첨단 모델과 오픈 가중치 모델을 평가한 결과, 모델들이 대체로 자체 규제에 실패하며, 실패 심각도는 모델 크기보다는 모델 유형에 따라 달라짐을 발견했다. 우리는 경제적으로 정렬된 하네스(harness), 즉 안정화 기업(Stabilizing Firms)과 회의적 수호자(Skeptical Guardians)를 제안하며, 이는 결과를 개선하지만 더 어려운 시장 조건에서는 취약성을 보인다. 이러한 격차를 해소하기 위해, 우리는 적응형 커리큘럼을 사용한 REINFORCE++로 에이전트를 훈련시켜, 평가된 모든 최첨단 및 오픈 가중치 모델을 능가하는 9B 모델을 생성했다. 우리는 4가지 구성요소로 이루어진 스칼라 지표인 경제적 정렬 점수(Economic Alignment Score, EAS)를 제안하며, 이는 안정성, 건전성, 후생, 수익성을 통합하여 모델 간 직접 비교를 가능하게 한다. 우리의 결과는 경제적 정렬이 일반 능력과 직교하며, 표적 강화 학습을 통해 직접 훈련될 수 있음을 보여준다.

DexHoldem: 정교한 체화 시스템을 통한 텍사스 홀덤 플레이
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18

ByFeng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

실제 고도의 손재주 하드웨어에서 체화된 시스템을 평가하려면 고립된 기본 기술 이상이 필요하다. 에이전트는 변화하는 탁자 위 장면을 인식하고, 상황에 적합한 동작을 선택하며, 손재주가 뛰어난 손으로 이를 실행하고, 이후의 결정에 사용할 수 있도록 장면을 유지해야 한다. 본 논문에서는 ShadowHand를 사용한 텍사스 홀덤 고난도 조작을 기반으로 구축된 실제 세계 시스템 수준의 벤치마크인 DexHoldem을 소개한다. DexHoldem은 14가지 텍사스 홀덤 조작 기본 동작에 걸친 1,470회의 원격 조작 시연, 표준화된 물리적 정책 벤치마크, 그리고 에이전트가 체화된 의사 결정에 필요한 구조화된 게임 상태를 복구할 수 있는지 테스트하는 에이전트 지각 벤치마크를 제공한다. 기본 동작 실행에서 π_{0.5}는 가장 높은 작업 완료율(61.2%)을 달성한 반면, π_{0.5}와 π_0는 장면 유지 성공률(47.5%)에서 동률을 기록했다. 에이전트 지각에서는 Opus 4.7이 가장 높은 엄격한 문제 수준 정확도(34.3%)를 기록했고, GPT 5.5가 가장 높은 평균 필드별 정확도(66.8%)를 기록하여, 고립된 시각적 하위 능력과 완전한 라우팅 관련 상태 복구 사이의 격차를 드러냈다. 마지막으로, 세 가지 사례 연구에서 완전한 체화된 에이전트 루프를 구현했으며, 여기서 대기, 복구 디스패치, 인간 도움 요청 및 반복적인 기본 동작 실행이 폐쇄 루프 배포 중에 지각 및 정책 오류가 어떻게 축적되는지 보여준다. 따라서 DexHoldem은 공유된 물리적 환경에서 고난도 탁자 위 실행, 에이전트 지각 및 체화된 의사 결정 라우팅을 평가한다. 프로젝트 페이지: https://dexholdem.github.io/Dexholdem/.

주문: 다중 개체 비디오 세계 모델을 위한 행동 인터페이스로서의 자연어
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

May 18

ByShangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng

최신 인터랙티브 비디오 세계 모델은 인상적인 시각적 충실도를 달성했지만, 미세한 다중 엔티티 제어와 엔티티 간, 세계 간 일반화가 부족합니다. 우리는 이러한 격차를 액션 인터페이스에서 비롯된 것으로 추적합니다. 표준 제어 프로토콜(예: 애니메이션 ID, 장치 입력, 장면 수준 캡션)은 설계 시점에 특정 엔티티 또는 엔진에 액션 의미를 바인딩합니다. 우리는 자연어를 인터페이스로 제안하여 이전 인터페이스가 달성할 수 없는 표현력을 해제하고, Incantation을 제시합니다. 이는 최초의 인터랙티브 비디오 세계 모델로, 잠재 프레임당(0.25초) 자연어 조건화를 지원하며, 동시 다중 엔티티 제어와 고정된 렌더링 파이프라인을 넘어서는 개념 수준의 엔티티 간 전이를 가능하게 합니다. 사전 훈련된 양방향 비디오 백본을 프레임 로컬 텍스트 교차 주의와 결합하고, ODE 초기화된 자기 강제 증류와 RoPE 분리 슬라이딩 KV-캐시를 통해 실시간 장시간 스트리밍을 구현합니다. 엔티티 간 전이(89% 대 43%) 및 어휘 외 프롬프트(90% 대 0%)에서 액션 인덱스 기준을 능가하며, 2단계 학생 모델은 480p에서 19.7 FPS를 유지하고 2시간 롤아웃 동안 안정적인 FVD를 보여줍니다. 또한 동일한 아키텍처와 훈련 레시피를 KOF(더 킹 오브 파이터즈)에 적용하여, 엔티티별 액션 어휘 슬롯만 변경했습니다. Incantation 데이터셋의 미리보기 하위 집합을 https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes 에서 공개했으며, 수동으로 수집한 엘든 링 플레이어-보스 전투 클립과 구조화된 액션 지향 메타데이터를 포함합니다. 더 큰 규모의 엘든 링 및 KOF 데이터는 전체 프로젝트와 함께 공개될 예정입니다.

상호작용형 AI 에이전트에서 인지 연령 정합성 평가
Evaluating Cognitive Age Alignment in Interactive AI Agents

May 18

ByYifan Shen, Jiawen Zhang, Jian Xu, Junho Kim, Ismini Lourentzou, Xu Cao, Meihuan Huang

에이전트 AI와 그 핵심 기술인 다중 모달 대규모 언어 모델(MLLM)은 일상생활에서 첨단 과학 연구에 이르기까지 다양한 영역에서 언어 및 시각 추론에 있어 놀라운 가능성을 보여주었으나, 인공지능과 인간 지능 사이에는 여전히 큰 격차가 존재한다. 강력한 도구와 고급 MLLM이 통합되었음에도 불구하고, 최첨단 AI 에이전트는 어린아이가 쉽게 해결할 수 있는 기초적이고 단순해 보이는 과제에서 자주 실패한다. 본 연구는 웩슬러 아동 지능 검사(WISC)에서 영감을 얻어, MLLM 기반 에이전트의 인지 연령 일치도를 평가하는 최초의 심리측정학적 기반 대화형 벤치마크인 ChildAgentEval을 제안한다. ChildAgentEval은 다양한 MLLM 기반 대화형 에이전트의 추론 성능을 연령별 인간 발달 단계와 체계적으로 비교하여, 현재 에이전트 AI 시스템이 연령별 인지 행동을 어디까지 모사할 수 있고 모사할 수 없는지를 드러낸다.

실행 가능한 세계 표현
Actionable World Representation

May 18

ByKunqi Xu, Jitao Li, Jianglong Ye, Tianshu Tang, Isabella Liu, Sifei Liu, Xueyan Zou

대규모 언어 모델에서 인간 지능을 일반화하는 창발적 행동에 영감을 받아, 연구 커뮤니티는 물리적 세계 모델링에 중점을 두고 세계 모델 내에서 유사한 창발적 능력을 추구하고 있다. 물리적 세계 모델의 범위 내에서 객체는 물리적 현실을 구성하는 기본 요소이다. 인간에서 컴퓨터에 이르기까지 우리가 상호작용하는 거의 모든 것은 객체이다. 이러한 객체는 거의 정적이지 않으며, 고유 속성에 의해 결정되는 다양한 상태를 가진 행동 가능한 개체이다. 현재 방법들은 비디오 생성이나 동적 장면 재구성을 통해 객체의 행동 상태를 접근하지만, 통일되고 원칙적인 방식으로 이 기본 요소를 명시적으로 모델링하여 행동 가능한 객체 표현을 구축하지는 않는다. 우리는 포인트 클라우드나 RGB-D 비디오 스트림에서 직접 학습함으로써 실제 세계 객체의 상태 다양체를 모델링할 수 있는 신경망 아키텍처인 WorldString을 제안한다. 다용도 디지털 트윈으로 기능하며, 물리적 세계 모델의 기본 구성 요소 역할을 하기에 이를 WorldString이라고 명명하였다. 흥미롭게도, 이 완전 미분 가능 구조는 향후 정책 학습 및 신경 역학과의 원활한 통합을 가능하게 한다.

SafeDiffusion-R1: 안전한 확산 모델 사후 훈련을 위한 온라인 보상 유도
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

May 18

ByKomal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar

확산 모델은 사전 학습 중 습득된 유해 콘텐츠를 제거하기 위해 광범위하게 연구되어 왔다. 기존 방법은 유해 텍스트와 안전 이미지 쌍 또는 부정/긍정 이미지 쌍 중 하나인 고비용 지도 데이터를 필요로 하여 확장성이 떨어진다. 더욱이, 오프라인 강화 학습 및 오프라인에서 합성 데이터를 생성하는 지도 미세 조정 방식은 치명적 망각을 초래하여 생성 품질을 저하시킨다. 본 논문에서는 부정 및 긍정 텍스트 프롬프트 모두에 대해 GRPO(Group Relative Policy Optimization)를 활용한 사후 학습을 통해 데이터 부족과 모델 성능 저하를 모두 해결하는 새로운 온라인 강화 학습 프레임워크를 제안한다. 특화된 안전/유해 보상 모델을 미세 조정할 필요를 없애기 위해, CLIP 임베딩의 고유한 속성, 즉 임베딩 공간에서 텍스트 표현을 긍정적 안전 방향으로 유도하고 부정적 방향에서 멀어지게 하는 속성을 활용하는 스티어링 보상 메커니즘을 도입한다. 우리의 온라인 정책 접근 방식은 명시적 유해 콘텐츠를 포함한 다양한 프롬프트로부터 모델이 학습할 수 있게 하면서도 치명적 망각을 방지한다. 광범위한 실험 결과, 본 방법은 부적절한 콘텐츠를 18.07%로(SD v1.4의 48.9% 대비), 나체 탐지를 15회(기준 646회 대비)로 줄이면서 GenEval에서 구성 생성 품질을 42.08%에서 47.83%로 향상시킨다. 주목할 점은, 이러한 안전성 향상이 7가지 유해 범주에 걸쳐 분포 외 유해 프롬프트로 일반화되어, 지도 쌍 데이터나 보상 튜닝 없이도 최첨단 성능을 달성한다는 것이다. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.

A2RBench: 형식적으로 검증 가능한 추상 추론 벤치마크 생성을 위한 자동 패러다임
A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

May 17

ByQingchuan Ma, Yuexiao Ma, Yongkang Xie, Tianyu Xie, Xiawu Zheng, Rongrong Ji

추상 추론 능력은 대규모 언어 모델(LLM)이 추상적 규칙을 추출하고 적용하는 지능 및 일반화 능력을 반영한다. 그러나 이러한 능력을 정확히 측정하는 것은 여전히 어려운 과제로, 기존 벤치마크는 비용이 많이 드는 수동 주석에 의존하여 규모가 제한되거나, 진정한 추론이 아닌 암기(memorization)를 측정할 위험이 있다. 이를 해결하기 위해, 우리는 생성(generation), 확장(expansion), 평가(evaluation), 분석(analysis)을 포괄하는 자동화된 파이프라인인 A2RBench를 소개한다. 구체적으로, 생성 단계에서는 LLM이 진정한 추론을 요구하는 다양한 작업을 만들고, 확장 단계에서는 LLM이 검증된 규칙을 재사용하고 새로운 입력 공간을 확장하여 작업 변형을 생성함으로써 확장성을 달성한다. 그러나 이러한 과정은 환각(hallucination)을 초래할 수 있다. 이를 제거하기 위해, 우리는 추가로 이론적 프레임워크를 구축하고, 역연산이 순방향 연산을 완벽히 역전시키는지(순환 일관성, cycle consistency)를 테스트하는 프로그램적 검증이 유일한 해를 보장함을 증명한다. 주요 LLM에 대한 광범위한 평가를 통해 우리는 다음과 같은 사실을 발견했다: (1) 현재 LLM은 추상 추론에 있어 근본적인 결함을 보이며, 최고 모델조차도 대표적인 부분 집합에서 인간에 비해 현저히 낮은 성능을 보인다(39.8% 대 68.5%). (2) 현재 LLM은 생성된 3차원 작업의 복잡성에서 2차원 및 1차원 수준에 크게 미치지 못하며, 이는 고차원 작업에 대한 이해 부족을 드러낸다. (3) 직관과 반대로, 정보 복잡성이 높은 입력이 오히려 추론 과정을 단순화할 수 있다.

OSCAR: 오프라인 스펙트럼 공분산 인지 회전 기반 2비트 KV 캐시 양자화
OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

May 18

ByZhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

INT2 KV-캐시 양자화는 장문맥 LLM 서빙에 매력적이지만, 정확성과 배포 가능성을 동시에 확보하기 어렵다. 아다마르 변환과 같은 단순한 회전은 이상치를 줄이지만, 다운스트림 어텐션과 정렬되지 않아 INT2에서 여전히 성능이 저하된다. 본 논문에서는 오프라인에서 어텐션을 고려한 공분산 구조를 추정하고, 이를 이용해 고정 회전과 양자화를 위한 클리핑 임계값을 도출하는 초저비트 KV 캐시 양자화 방법인 OSCAR를 제안한다. 이를 통해 KV 양자화를 어텐션이 실제로 소비하는 공분산 구조와 정렬한다. 더욱 중요한 점은, 이론적 정당성을 제공할 뿐만 아니라 페이지 기반 KV 캐시 서빙 및 융합 커널 파이프라인과 호환되는 맞춤형 INT2 어텐션 커널을 갖춘 완전히 배포 가능한 OSCAR 시스템을 개발하여, SGLang 및 vLLM과 같은 현대 LLM 서빙 프레임워크에 원활하게 통합할 수 있다는 것이다. 제안 방법을 최대 32k 토큰의 추론 트레이스를 사용하는 5개 작업의 최신 추론 모델에서 평가한다. Qwen3-4B-Thinking-2507 및 Qwen3-8B에서 OSCAR는 BF16 정확도 격차를 각각 3.78 및 1.42 포인트로 줄이는 반면, 단순 회전 INT2는 거의 0으로 붕괴된다. 또한 OSCAR를 Qwen3-32B 및 GLM-4.7(358B 파라미터)로 확장했으며, 여기서도 BF16과 실질적으로 동등한 성능을 유지한다. 최대 128K의 긴 컨텍스트 RULER-NIAH에서 OSCAR는 두 Qwen3 모델 모두에서 강건함을 유지하는 반면, 단순 회전 INT2는 붕괴된다. 시스템 측면에서 OSCAR는 KV 캐시 메모리를 약 8배 줄이고, 동일한 메모리 예산 하에서 대규모 배치 크기에서 처리량을 최대 7배 향상시키며, 메모리 대역폭 오버헤드 감소로 인해 BF16 대비 배치 크기 1 디코딩을 최대 3배 가속화한다.

AgentKernelArena: GPU 커널 최적화 에이전트의 일반화 인식 벤치마킹
AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

May 16

BySharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

GPU 커널 최적화는 효율적인 딥러닝 시스템을 위해 점점 더 중요해지고 있지만, 고성능 커널을 작성하려면 여전히 상당한 수준의 저수준 전문 지식이 필요하다. 최근 AI 코딩 에이전트는 코드를 반복적으로 읽고, 컴파일러와 프로파일러를 호출하며, 구현을 개선할 수 있지만, 기존 커널 벤치마크는 전체 에이전트 워크플로가 아닌 단일 LLM 호출만 평가하며, 커널 간 최적화와 미관찰 설정 일반화 테스트를 모두 포함하는 벤치마크는 없다. 본 논문에서는 GPU 커널 최적화에서 AI 코딩 에이전트를 측정하기 위한 오픈소스 벤치마크인 AgentKernelArena를 제시한다. 이 벤치마크는 HIP 간 최적화, Triton 간 최적화, PyTorch-to-HIP 변환을 포괄하는 196개의 작업을 포함하며, 게이트형 컴파일, 정확성 및 성능 검사, 중앙 집중식 채점, 그리고 에이전트가 한 번도 관찰하지 못한 입력 설정으로 최적화가 전이되는지 테스트하는 미관찰 설정 일반화 프로토콜을 사용하여 격리된 작업 공간에서 전체 에이전트 워크플로를 평가한다. Cursor Agent, Claude Code, Codex Agent 등 상용 에이전트를 대상으로 한 평가에서 대부분의 작업 범주에서 거의 완벽한 컴파일과 높은 정확성을 확인했으며, 가장 강력한 구성은 PyTorch-to-HIP 작업에서 최대 6.89배, HIP 간 작업에서 6.69배, Triton 간 작업에서 2.13배의 평균 속도 향상을 달성했다. 미관찰 설정 평가 결과, HIP 간 및 Triton 간 최적화는 대부분 미관찰 입력 형태로 전이되는 반면, PyTorch-to-HIP는 정확성이 크게 떨어지는 것으로 나타났는데, 이는 에이전트가 처음부터 커널을 생성할 때 형태별 가정을 자주 하드코딩하기 때문이다. AgentKernelArena는 에이전트, 작업, 하드웨어 대상 전반에 걸친 에이전트형 GPU 커널 최적화의 엄격한 평가를 위한 모듈식이고 확장 가능한 프레임워크로 설계되었다.

SNLP: 구조화된 뉴턴 보정을 통한 계층 병렬 추론
SNLP: Layer-Parallel Inference via Structured Newton Corrections

May 18

ByLigong Han, Kai Xu, Hao Wang, Akash Srivastava

자기회귀 언어 모델은 트랜스포머 층을 순차적으로 실행하여 지연 병목을 유발하며, 이는 기존의 텐서 또는 파이프라인 병렬화로 제거되지 않습니다. 우리는 층 간 은닉 상태 추적을 비선형 잔차 방정식의 해로 간주하고 병렬 뉴턴 방식 업데이트로 이를 해결함으로써 층별 의존성을 완화할 수 있는지 연구합니다. 이러한 관점은 원칙적으로 타당하지만, 정확한 뉴턴 보정은 값비싼 야코비안-벡터 곱을 필요로 하며, 순진한 고정점 반복은 학습된 트랜스포머에서 불안정합니다. 우리는 정확한 층 야코비안을 저렴한 구조 유도 대리 동역학으로 대체하는 훈련 및 추론 프레임워크인 구조화된 뉴턴 층 병렬화(SNLP)를 도입합니다. 잔차 트랜스포머에서 이는 항등 뉴턴(IDN)을 도출하며, 여기서 보정은 접두사 합계 형태 업데이트로 축소됩니다. mHC 스타일 구조에서는 모델의 잔차 혼합 행렬을 사용하는 HC 뉴턴(HCN)이 적용됩니다. 또한 SNLP 인식 정규화를 도입하여, 모델이 하나 또는 소수의 구조화된 뉴턴 반복만으로 순차적 순방향을 정확하게 근사하도록 훈련합니다. 나노챗 규모 트랜스포머 실험에서 SNLP 정규화는 층 병렬 호환성을 개선하고 표준 순차 혼란도도 향상시켜 기준선 PPL을 4.7%~23.4% 감소시킵니다. 추론 시 SNLP는 층 융합 및 청크 단위 분해와 결합하여 실질적인 실제 시간 속도 향상을 달성합니다. 0.5B 나노챗 모델에서는 2.3배 속도 향상을 달성하면서도 PPL을 6.1% 개선합니다. 이러한 결과는 층 병렬 추론이 단순히 순차 실행의 수치적 근사가 아니라, 유용한 해법 유도 추론 편향으로 작용할 수 있음을 시사합니다. 또한 한계점을 특성화합니다. 기성 사전 학습 모델은 이 절차에 덜 적합하며, 정확한 수렴은 단조 추론 시간 스케일링 대신 순차 계산을 회복합니다.

기하학적 상전이가 해마의 극한 기억 용량을 가능하게 한다
Geometric Phase Transition Enables Extreme Hippocampal Memory Capacity

May 16

ByPrashant C. Raju

기억 시스템은 유사한 하드웨어 제약 조건에도 불구하고 엄청나게 다른 양의 정보를 저장할 수 있다. 여기서 우리는 뛰어난 공간 기억이 해마 집단 기하학의 뚜렷한 경직화, 즉 무질서한 집단 코딩에서 결정질 집단 코딩으로의 전환에서 비롯된다는 것을 보여준다. 먹이 저장성 박새(chickadee)와 먹이를 저장하지 않는 얼룩말 되새(zebra finch)를 비교한 결과, 저장성 해마는 유의미하게 더 높은 기하학적 안정성(Shesha 0.245 대 0.166)과 거의 두 배에 가까운 시간적 일관성(Shesha 0.393 대 0.209)을 갖는 위상적으로 경직된 "결정질" 기하학을 유지하는 반면, 비저장성 해마는 무질서한 "안개"와 유사함을 발견했다. 이러한 안정성은 상승적 회로 역학에 의해 능동적으로 구축된다: 흥분성 뉴런이 공간적 지지대를 형성하는 반면, 억제성 집단은 직교 탈상관에 기여하는데, 이는 흥분성 및 억제성 집단이 대부분 겹치지 않는 표상 부분공간을 차지하는 회로 모티프이다. 각 기억의 기저에 전용 뉴런 앙상블이 있다고 예측하는 모델인 Valiant의 Stable Memory Allocator를 사용한 이중 해리는 이러한 이점이 불연속적인 뉴런 할당보다는 연속적인 위상적 조직을 반영함을 확인한다: 저장성 네트워크는 기하학적 우월성에도 불구하고 거의 0에 가까운 반분 할당 신뢰도를 보인다. 10,000개 구성에 걸친 계산 모델링은 위상적 경직성이 규모를 위한 수학적 전제 조건임을 밝힌다: 결정질 코드는 M=1,000개 위치 이상에서 고충실도 판독을 유지하는 반면, 안개 코드는 M=10 미만에서 실패하며, 이는 100배 이상의 용량 이점이다. 이 용량은 169배의 표상 중복성을 필요로 하는데, 이는 생물학적 잡음에 대해 다양체를 안정화하는 "기하학적 세금"이다. 이러한 결과는 기하학적 안정성을 생물학적 기억의 후보 조직 원리로 확립한다: 진화는 뉴런을 증식함으로써가 아니라 신경 코드 자체의 기하학을 설계함으로써 고용량 기억을 달성한다.

최적화기 설계를 위한 대칭 호환 원리: 임베딩, 언어 모델 헤드, SwiGLU 다층 퍼셉트론 및 MoE 라우터
Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

May 18

ByTim Tsz-Kit Lau, Weijie Su

딥러닝 실무에서는 오랫동안 눈에 띄는 기하학적 불일치가 지속되어 왔다. 현대 신경망 아키텍처는 자연스럽게 풍부한 대칭성과 등변성 성질을 나타내는 반면, Adam 및 그 변형과 같은 널리 사용되는 최적화기는 본질적으로 좌표 단위로 동작하여 매개변수 공간의 등변성 구조를 존중하지 못한다. 우리는 대칭 호환 가능한 최적화기 설계 원칙, 즉 기울기 갱신 규칙이 해당 가중치 블록에 작용하는 대칭군 하에서 등변성이어야 한다는 원칙을 도입함으로써 이러한 불일치를 해결한다. 이 원칙에 따라, 먼저 확률적 스펙트럴 강하, Muon, Scion, 극좌표 기울기 방법에서 사용되는 일반 행렬 계층에 대한 쌍직교 등변 갱신에 대한 통일된 관점을 제시한다. 더 중요하게는, 직교군에서 순열 및 공유 이동 대칭으로 전환함으로써, 일반 행렬 계층과 다른 대칭을 가진 매개변수 블록, 즉 임베딩 및 LM 헤드 행렬, SwiGLU MLP 투영, MoE 라우터 행렬에 대한 대칭 호환 최적화기를 유도한다. 이러한 구성에는 단측 스펙트럴 갱신, 행 노름 갱신, 하이브리드 행 노름/스펙트럴 갱신, 행 인식 갱신, 열 인식 갱신, 중심화된 행 노름 갱신, 좌스펙트럴 갱신이 포함된다. 이는 각 주요 행렬값 매개변수 클래스에 등변성이 해당 대칭군과 일치하는 갱신이 할당된 종단 간 계층별 최적화기 스택을 산출한다. 우리는 Qwen3-0.6B 스타일, Gemma 3 1B 스타일, OLMoE-1B-7B 스타일, 축소된 gpt-oss 아키텍처를 포함한 밀집 및 희소 MoE 언어 모델에 대한 사전 학습 실험을 통해 이 원칙을 뒷받침한다. 이러한 실험 전반에 걸쳐, 대칭 호환 갱신은 해당 AdamW 갱신에 비해 최종 검증 손실을 일관되게 개선하고, 여러 경우 학습 안정성도 향상시킨다.

E-PMQ: 병합 가중치 앵커링을 활용한 전문가 안내 병합 후 양자화
E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

May 16

ByWenjun Wang, Yanggan Gu, Shuo Cai, Yuanyi Wang, Pengkai Wang, Jianmin Wu, Hongxia Yang

저자원 배포 제약으로 인해 모델 양자화는 성능을 유지하면서 신경망을 배포하는 데 필수적인 요소가 되었다. 한편, 모델 병합은 공동 훈련이나 다중 모델 서빙 없이도 여러 작업 또는 도메인 특화 전문가를 단일 모델로 통합하는 실용적인 저자원 전략으로 부상하고 있다. 양자화와 모델 병합을 함께 적용하면 여러 전문가를 단일 저비트 모델로 통합함으로써 효율적인 저자원 배포 파이프라인을 구현할 수 있다. 우리는 이 설정을 병합 후 양자화(PMQ)로 공식화한다. 병합된 모델에 학습 후 양자화(PTQ)를 직접 적용하는 것은 저비트 재구성으로 인한 양자화 편차와 모델 병합에서 비롯된 전문가 상대 병합 편차라는 두 가지 서로 다른 편차가 연결되어 신뢰할 수 없음을 보인다. 이러한 편차를 완화하기 위해, 우리는 계층별 보정 중에 소스 전문가 가중치를 활용하여 전문가 기반 출력 목표를 제공하고, 병합 가중치 고정을 통해 보정을 안정화하며 병합된 모델의 통합된 동작을 유지하는 E-PMQ, 즉 전문가 기반 PMQ 프레임워크를 제안한다. CLIP-ViT-B/32 8개 작업 병합에서 E-PMQ는 Task Arithmetic 하에서 4비트 GPTQ를 65.0%에서 73.6%로, TIES-Merging 하에서 69.1%에서 74.8%로 향상시킨다. 더 까다로운 설정에서 E-PMQ는 20개 작업 CLIP-ViT-L/14의 GPTQ를 34.8%에서 76.7%로, FLAN-T5-base GLUE의 GPTQ를 78.26%에서 83.34%로 향상시킨다. 이러한 결과는 E-PMQ가 효과적인 병합 후 양자화와 저비트 배포를 가능케 함을 입증한다.

다중 모드 LLM 평가자 감사: 임상 서열 점수화에서의 중심화 경향 편향
Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring

May 11

ByJiaqing Zhang, Sandeep Elluri, Bhanu Cherukuvada, Yonah Joffe, Jessica Sena, Miguel Contreras, Scott Siegel, Subhash Nerella, Catherine Price, Parisa Rashidi

다중 모달 대규모 언어 모델(LLM)이 임상 환경에서 자동 평가 도구로 점점 더 탐구되고 있지만, 순서형 임상 척도에서의 점수화 행동은 아직 잘 이해되지 않고 있다. 본 연구에서는 세 가지 최첨단 LLM 계열을 지도 학습 딥러닝 모델과 비교하여, 두 개의 공개 데이터셋에서 Shulman 채점 기준을 사용한 시계 그리기 검사(CDT) 이미지 점수화를 벤치마킹한다. 완전 미세 조정된 비전 트랜스포머가 최상의 보정(MAE 0.52, ±1 범위 정확도 91%)을 달성하는 반면, 제로샷 LLM은 절대 오차가 더 높음에도 불구하고 허용 오차 기반 일치도에서 경쟁력을 유지한다(GPT-5 MAE 0.67, ±1 범위 정확도 92%). 그러나 점수별 분석 결과, 세 LLM 계열 모두 뚜렷한 중심화 경향 효과(체계적 끝점 압축)를 나타냄이 밝혀졌다. 즉, 예측값이 척도의 중간으로 체계적으로 압축되어, 낮은 점수(0에서 1)에서는 과대 예측되고 높은 점수(5에서 4)에서는 과소 예측되는 현상이 발생한다. 이 효과는 인지 장애 선별 결정에 정확한 점수화가 가장 큰 영향을 미치는 임상적으로 중요한 끝점에서 불균형적으로 크게 나타난다. 표적 절제 실험 결과, 전체 점수 범위를 포함하는 퓨샷 예시를 제공하거나 프롬프트에서 임상 용어를 제거해도 이 효과가 사라지지 않았다. 본 연구 결과는 LLM을 판사로 사용할 때의 편향에 관한 기존 NLP 평가 문헌을 임상 평가 영역으로 확장하며, 고위험 선별 작업흐름에 LLM 기반 평가자를 배포하기 전에 보정 인식 평가와 사후 보정의 필요성을 강조한다.

내적 독백 모니터링: 프로브 궤적이 드러내는 추론 역학
Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

May 18

ByMaciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert

대규모 추론 모델(LRM)은 Chain of Thought(CoT) 추론을 통해 안전 모니터링에 새로운 기회를 제공한다. 그러나 CoT가 항상 모델의 최종 출력에 충실한 것은 아니며, 이는 모니터링 도구로서의 신뢰성을 저하시킨다. 이 문제를 해결하기 위해, 우리는 LRM의 은닉 표현을 조사하여 프롬프트 및 CoT 표현으로부터 미래 행동을 예측할 수 있는지 확인한다. 생성된 각 토큰에서 프로브를 평가함으로써, 추론 과정 전반에 걸친 개념 확률의 연속적 진화인 프로브 궤적을 구성한다. 미래 모델 행동은 단일 정적 예측보다 전체 궤적에 걸쳐 조사할 때 더 잘 구별된다. 이러한 시간적 역학을 특성화하기 위해, 변동성, 추세, 정상 상태 행동을 포착하는 신호 처리 특징을 추출하여 미래 모델 상태의 분리를 크게 개선한다. 또한 두 가지 방법론적 통찰을 제시한다. 첫째, 템플릿 기반 훈련 데이터는 동적으로 생성된 모델 응답과 거의 동등한 성능을 달성하여, 비용이 많이 드는 초기 추론 및 레이블링 과정을 제거한다. 둘째, 풀링 연산의 선택이 중요하다: 평균 풀링과 마지막 토큰 방법은 무작위에 가까운 성능으로 떨어지는 반면, 맥스 풀링은 최대 95%의 AUROC를 달성하고 안정적인 프로브 궤적을 생성한다. 안전 및 수학 도메인에 걸친 네 개의 데이터셋과 네 개의 추론 모델을 사용하여, 궤적 특징이 결과 분리성을 개선하는 작업별 역학을 인코딩함을 입증한다. 이러한 발견은 프로브 궤적을 LRM 행동 모니터링을 위한 보완적 프레임워크로 확립한다. 경고: 본 논문은 잠재적으로 유해한 내용을 포함하고 있습니다.

SCICONVBENCH: 전산 과학에서의 작업 정식화를 위한 다중 턴 명확화에 대한 LLM 벤치마킹
SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

May 18

ByNithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

대규모 언어 모델(LLM)이 과학적 AI 어시스턴트로 점점 더 많이 배치되고 있으며, 지식 검색, 추론, 코드 생성, 도구 사용 등 다양한 측면에서 이들의 역량을 평가하는 벤치마크가 증가하고 있다. 그러나 이러한 평가는 일반적으로 과학적 문제가 이미 잘 정의되어 있다고 가정하는 반면, 실제 과학적 지원은 종종 잘못 정의된 사용자 요청에서 시작되며, 이는 계산, 분석 또는 실험을 신뢰성 있게 수행하기 전에 대화를 통해 정제되어야 한다. 본 논문은 유체 역학, 고체 역학, 재료 과학, 편미분 방정식(PDE)의 네 가지 계산 과학 문제 영역에서 과학적 작업 정립을 위한 다중 턴 명료화 벤치마크인 SCICONVBENCH를 소개한다. SCICONVBENCH는 두 가지 상호 보완적 역량, 즉 누락된 정보를 이끌어내는 것(명확화)과 내부적으로 모순된 정보를 포함한 잘못된 요청을 탐지하고 수정하는 것(불일치 해결)을 목표로 한다. 본 벤치마크는 구조화된 작업 온톨로지와 루브릭 기반 평가 프레임워크를 결합하여 명료화 행동, 대화 기반 근거, 최종 명세 충실도의 세 가지 차원에서 LLM 성능을 체계적으로 측정할 수 있게 한다. 현재 최첨단 모델들은 불일치 해결에서 비교적 좋은 성능을 보이지만, 최고 성능 모델조차 유체 역학 분야의 명확화 사례 중 52.7%만 해결한다. 또한 최첨단 LLM은 사용자와의 대화에 근거하지 않은 묵시적 가정을 자주 하거나 암시적 명세 수정을 수행하는 것으로 나타났다. SCICONVBENCH는 신뢰할 수 있는 계산 과학 어시스턴트가 요구하는 상위 대화 추론 능력을 평가하기 위한 기반을 마련한다. 코드와 데이터는 https://github.com/csml-rpi/SciConvBench에서 확인할 수 있다.

AR-VLA: 시각-언어-행동 모델을 위한 진정한 자기회귀 행동 전문가
AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

May 11

ByYutong Hu, Jan-Nico Zaech, Nikolay Nikolov, Yuanqi Yao, Sombit Dey, Giuliano Albanese, Renaud Detry, Luc Van Gool, Danda Paudel

우리는 지속적인 인과적 시퀀스로 행동을 생성하면서, 새로운 시각-언어 프리픽스(prefix)에 조건화된 독립형 자기회귀(AR) Action Expert를 제안한다. 기존의 시각-언어-행동(VLA) 모델이나 확산 정책(diffusion policy)이 새로운 관측에 따라 시간적 맥락을 초기화하고 반응적으로 행동을 예측하는 것과 달리, 우리의 Action Expert는 장기 메모리를 통해 자체적인 이력을 유지하며 본질적으로 맥락을 인지한다. 이러한 구조는 빠른 제어와 느린 추론 간의 빈도 불일치를 해결하며, 운동학적 통사론(kinematic syntax)의 효율적인 독립적 사전학습과 무거운 인식 백본(perception backbone)과의 모듈식 통합을 가능하게 하고, 프레임 간 시공간적으로 일관된 행동 생성을 자연스럽게 보장한다. 이러한 비동기적 혼합 V-L-A 양식을 동기화하기 위해, 훈련과 추론 모두에서 인식 지연(perception staleness)을 수학적으로 처리하는 재정착 메커니즘(re‑anchoring mechanism)을 활용한다. 시뮬레이션 및 실제 로봇 조작 작업에 대한 실험은 제안 방법이 전문가 및 범용 정책 모두에서 기존의 청크 기반 행동 헤드를 효과적으로 대체할 수 있음을 보여준다. AR-VLA는 최신 반응형 VLA와 동등하거나 더 높은 작업 성공률을 유지하면서, 우수한 이력 인식 능력과 현저히 부드러운 행동 궤적을 나타낸다. 종합적으로, 본 연구는 확장 가능하고 맥락을 인지하는 행동 생성 스키마를 제시하며, 이는 효과적인 로봇 정책 훈련을 위한 견고한 구조적 기반을 제공한다. 코드와 비디오는 https://arvla.insait.ai 에서 확인할 수 있다.

GRASP: 다중 인물 비언어적 상호작용에서 사회적 추론을 기반화하는 학습
GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

May 15

ByJunho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg

사회적 상호작용을 이해하려면 미묘한 비언어적 단서에 대한 추론이 필요하지만, 현재의 멀티모달 대규모 언어 모델(MLLM)은 다인 영상에서 누가 누구와 상호작용하는지 식별하는 데 종종 실패한다. 본 논문에서는 고수준의 사회적 질의응답(QA)을 미세한 시선 및 지시적 제스처 사건과 연결하는 대규모 사회적 추론 데이터셋 GRASP를 소개한다. GRASP는 총 749시간 분량의 46,000개 영상에 대해 29만 개의 질문-답변 쌍을 포함하며, 시선, 제스처, 그리고 시선-제스처 결합 추론을 아우르는 16개 범주의 분류 체계로 구성된다. 또한 평가를 위한 GRASP-Bench를 함께 제공한다. 고립된 단서나 고수준의 사회적 QA만을 다룬 기존 자원과 달리, GRASP는 정체성이 일관된 시선 궤적, 지시적 제스처, 그리고 이들이 결합된 사회적 사건으로부터 질문을 구성한다. 나아가, 각 상호작용에 참여하는 주체에 대한 추론을 모델에 장려하기 위해 사회적 사건을 활용하는 학습 신호인 Social Grounding Reward(SGR)를 제안한다. 실험 결과, SGR은 GRASP-Bench에서의 성능을 향상시키면서 관련 사회적 영상 QA 벤치마크에서의 제로샷 성능을 유지함을 보여준다.

TopoPrimer: 예측 모델에서 누락된 위상적 맥락
TopoPrimer: The Missing Topological Context in Forecasting Models

May 14

ByZara Zetlin, Kayhan Moharreri, Maria Safi

우리는 TopoPrimer를 소개한다. 이 프레임워크는 시계열 집단의 전역적 위상 구조를 모든 예측 모델에 명시적 입력으로 제공한다. TopoPrimer는 다양한 도메인에서 정확도를 향상시키고, 계절적 수요 급증 상황에서 예측을 안정화하며, 콜드 스타트 격차를 해소한다. 지속 호몰로지와 스펙트럼 시프 좌표를 통해 도메인당 한 번 사전 계산된 TopoPrimer는 완전 학습 모델의 경우 토큰별로 배포되고, 사전 학습된 백본의 경우 경량 어댑터로 배포된다. 이 두 구성 요소 중 시프 좌표가 정확도의 주요 동인이다. Chronos와 TimesFM에 대한 네 가지 공개 벤치마크에서 TopoPrimer는 일관되게 예측 정확도를 향상시키며, ECL에서 MSE 기준 최대 7.3%의 향상을 보인다. 위상 이점은 제로샷과 미세 조정된 백본에서 거의 동일한 크기로 유지되며, 이는 위상 정보와 계열별 훈련이 상호 보완적인 신호를 포착함을 시사한다. 이러한 향상은 어려운 상황에서 가장 두드러진다. 계절적 수요 최고점에서 고전적 모델과 제로샷 모델은 최대 50%까지 성능이 저하되는 반면, TopoPrimer는 10% 이내로 유지된다. 항목 이력이 없는 콜드 스타트 상황에서 TopoPrimer는 위상 정보가 없는 기준선 대비 MAE를 27% 감소시킨다.