HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

43 papers found

CiteVQA: 신뢰할 수 있는 문서 지능을 위한 증거 귀속 벤치마킹
CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

May 13

ByDongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang, Wentao Zhang, Bin Wang, Conghui He

161

멀티모달 대규모 언어 모델(MLLM)은 문서 이해를 크게 발전시켰으나, 현재의 Doc-VQA 평가는 최종 답변만 채점할 뿐 뒷받침하는 증거는 확인하지 않는다. 이러한 답변 전용 접근 방식은 중대한 실패 모드를 가린다. 모델이 정답을 도출하면서도 잘못된 구절에 근거할 수 있으며, 이는 법률, 금융, 의학과 같이 모든 결론이 특정 출처 영역으로 추적 가능해야 하는 고위험 분야에서 치명적인 위험이다. 이 문제를 해결하기 위해 우리는 모델이 각 답변과 함께 요소 수준의 경계 상자 인용을 반환하도록 요구하고, 둘을 함께 평가하는 벤치마크인 CiteVQA를 소개한다. CiteVQA는 7개 도메인과 2개 언어에 걸친 711개의 PDF에 걸쳐 1,897개의 질문으로 구성되며, 문서당 평균 40.6페이지이다. 충실도와 확장성을 보장하기 위해, 정답 인용은 마스킹 소거를 통해 중요한 증거를 식별하는 자동화된 파이프라인으로 생성되며, 이후 전문가 검토를 통해 검증된다. 평가의 핵심은 예측이 정답과 인용 영역이 모두 올바른 경우에만 인정하는 Strict Attributed Accuracy(SAA)이다. 20개의 MLLM을 분석한 결과, 속성 환각(Attribution Hallucination)이 만연함을 발견했다. 모델이 올바른 답을 생성하면서도 잘못된 영역을 인용하는 경우가 빈번하다. 가장 강력한 시스템(Gemini-3.1-Pro-Preview)은 SAA가 76.0에 불과하며, 가장 강력한 오픈소스 MLLM은 22.5에 그친다. 궁극적으로 신뢰할 수 있는 문서 지능을 위해, CiteVQA는 답변 전용 평가가 간과하는 신뢰성 격차를 드러내며, 이를 해소하는 데 필요한 도구를 제공한다. 우리의 저장소는 https://github.com/opendatalab/CiteVQA에서 이용할 수 있다.

PhysBrain 1.0 기술 보고서
PhysBrain 1.0 Technical Report

May 14

ByShijie Lian, Bin Yu, Xiaopeng Lin, Changti Wu, Hang Yuan, Xiaolin Hu, Zhaolong Shen, Yuzhuo Miao, Haishan Liu, Yuxuan Tian, Yukun Shi, Cong Huang, Kai Chen

129

비전-언어-행동 모델은 빠르게 발전해 왔지만, 로봇 궤적만으로는 광범위한 물리적 이해를 학습하기에 제한적인 정보를 제공한다. PhysBrain 1.0은 로봇 적응 전에 대규모 인간 자기중심 비디오를 구조화된 물리적 상식 감독 신호로 변환하는 상보적 경로를 연구한다. 우리의 데이터 엔진은 장면 요소, 공간 역학, 행동 실행, 깊이 인식 관계를 추출한 후, 이를 질문-응답 감독 신호로 변환하여 PhysBrain VLM을 훈련한다. 이렇게 얻어진 물리적 사전 지식은 능력 보존 및 언어 민감 적응 설계를 통해 VLA 정책으로 추가 전이된다. ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, RoboCasa를 포함한 다중 모달 QA 벤치마크 및 구현 제어 벤치마크 전반에서 PhysBrain 1.0은 최첨단 결과를 달성했으며, 특히 SimplerEnv에서 뛰어난 도메인 외 성능을 보였다. 이러한 결과는 인간 상호작용 비디오로부터 물리적 상식을 확장하는 것이 다중 모달 이해에서 로봇 행동으로의 효과적인 다리를 제공할 수 있음을 시사한다.

MMSkills: 범용 시각 에이전트를 위한 멀티모달 기술
MMSkills: Towards Multimodal Skills for General Visual Agents

May 14

ByKangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu, Weiwen Liu, Weinan Zhang, Yong Yu

재사용 가능한 스킬은 에이전트의 능력을 향상시키는 핵심 기반이 되었지만, 대부분의 기존 스킬 패키지는 재사용 가능한 행동을 주로 텍스트 프롬프트, 실행 가능한 코드, 또는 학습된 루틴으로 인코딩한다. 그러나 시각적 에이전트의 경우 절차적 지식은 본질적으로 멀티모달이다. 재사용은 어떤 작업을 수행할지뿐만 아니라 관련 상태를 인식하고, 진행 상황이나 실패에 대한 시각적 증거를 해석하며, 다음에 무엇을 해야 할지 결정하는 데 달려 있다. 우리는 이러한 요구 사항을 멀티모달 절차적 지식으로 공식화하고 세 가지 실제적 과제를 다룬다: (I) 멀티모달 스킬 패키지가 무엇을 포함해야 하는지, (II) 이러한 패키지를 공개 상호작용 경험에서 어디서 파생할 수 있는지, (III) 에이전트가 추론 시점에 과도한 이미지 컨텍스트나 참조 스크린샷에 대한 과도한 고정 없이 멀티모달 증거를 어떻게 참고할 수 있는지. 우리는 재사용 가능한 멀티모달 절차를 표현, 생성, 그리고 실행 시 시각적 의사 결정에 사용하기 위한 프레임워크인 MMSkills를 소개한다. 각 MMSkill은 텍스트 절차를 실행 시 상태 카드 및 다중 뷰 키프레임과 결합한 간결한 상태 조건부 패키지이다. 이러한 패키지를 구축하기 위해 우리는 에이전트 궤적-스킬 생성기를 개발하여 공개 비평가 궤적을 워크플로 그룹화, 절차 귀납, 시각적 근거화, 메타 스킬 기반 감사를 통해 재사용 가능한 멀티모달 스킬로 변환한다. 이를 사용하기 위해 우리는 브랜치 로딩 멀티모달 스킬 에이전트를 도입한다. 선택된 상태 카드와 키프레임은 임시 브랜치에서 검사되고, 실제 환경과 정렬된 후, 주 에이전트를 위한 구조화된 지침으로 증류된다. GUI 및 게임 기반 시각 에이전트 벤치마크에 걸친 실험은 MMSkills가 최첨단 및 소규모 멀티모달 에이전트 모두를 지속적으로 개선함을 보여주며, 이는 외부 멀티모달 절차적 지식이 모델 내부 사전 지식을 보완함을 시사한다.

FashionChameleon: 실시간 및 상호작용적 인간-의상 비디오 맞춤화를 위하여
FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization

May 15

ByQuanjian Song, Yefeng Shen, Mengting Chen, Hao Sun, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Liujuan Cao

인간 중심의 비디오 맞춤화, 특히 의상 수준에서의 맞춤화는 상당한 상업적 가치를 보여주고 있다. 그러나 기존 접근 방식은 전자상거래 및 콘텐츠 제작과 같은 응용 분야에서 중요한 저지연 및 대화형 의상 제어를 지원하지 못한다. 본 논문은 단일 의상 비디오 데이터만을 사용하여 움직임 일관성을 유지하면서 대화형 다중 의상 비디오 맞춤화를 달성하는 방법을 연구한다. 본 연구진은 자기회귀 비디오 생성에서 인간 의상 맞춤화를 위한 실시간 대화형 프레임워크인 FashionChameleon을 제안하며, 사용자는 생성 과정에서 대화형으로 의상을 전환할 수 있다. FashionChameleon은 세 가지 핵심 기술로 구성된다: (i) 다중 의상 비디오 데이터로 학습하는 대신, 단일 참조-의상 쌍에 대해 맥락 내 학습을 적용한 Teacher 모델을 학습시킨다. 이미지-비디오 학습 패러다임을 유지하면서 참조 이미지와 의상 이미지 간의 불일치를 강제함으로써, 모델은 단일 의상 전환 중에 암묵적으로 일관성을 유지하도록 유도된다. (ii) 생성 중 일관성과 효율성을 달성하기 위해 맥락 내 학습이 적용된 스트리밍 증류(Streaming Distillation with In-Context Learning)를 도입한다. 이는 맥락 내 교사 강제를 통해 모델을 미세 조정하고, 그래디언트 재가중 분포 매칭 증류를 통해 외삽 일관성을 개선한다. (iii) 대화형 다중 의상 비디오 맞춤화를 위해 모델을 확장하기 위해, 학습 없는 KV 캐시 재스케줄링(Training-Free KV Cache Rescheduling)을 제안한다. 이는 의상 KV 리프레시, 과거 KV 철회, 참조 KV 분리를 포함하여 움직임 일관성을 유지하면서 의상 전환을 구현한다. 제안하는 FashionChameleon은 대화형 맞춤화와 일관된 장기 비디오 외삽을 고유하게 지원하며, 단일 GPU에서 23.8 FPS의 실시간 생성을 달성하여 기존 기준 모델보다 30~180배 빠르다.

미리 내다보는 학습: 온-정책 증류의 효율성 개방을 밝히다
Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

May 13

ByYuchen Cai, Ding Cao, Liang Lin, Chunxi Luo, Xin Xu, Kai Yang, Weijie Liu, Saiyong Yang, Tianxiang Zhao, Guangzhong Sun, Guiquan Liu, Junfeng Fang

온-정책 증류(OPD)는 대규모 언어 모델을 위한 효율적인 사후 학습 패러다임으로 부상하였다. 그러나 기존 연구들은 이러한 이점을 주로 더 조밀하고 안정적인 감독(supervision)에 귀속시키는 반면, OPD의 효율성 이면에 있는 매개변수 수준의 메커니즘은 아직 제대로 이해되지 않고 있다. 본 연구에서는 OPD의 효율성이 일종의 '예지력'에서 비롯된다고 주장한다. 즉, OPD는 학습 초기에 최종 모델을 향한 안정적인 업데이트 궤적을 확립한다는 것이다. 이러한 예지력은 두 가지 측면에서 나타난다. 첫째, 모듈 할당 수준(Module-Allocation Level)에서 OPD는 한계 효용이 낮은 영역을 식별하고 추론에 더 중요한 모듈에 업데이트를 집중시킨다. 둘째, 업데이트 방향 수준(Update-Direction Level)에서 OPD는 더 강한 저랭크 집중(low-rank concentration)을 보이며, 학습 초기에 그 지배적 부분공간이 최종 업데이트 부분공간과 밀접하게 정렬된다. 이러한 발견을 바탕으로, 본 연구에서는 외삽 스텝 크기를 적응적으로 선택하고 현재 업데이트 방향을 따라 이동함으로써 OPD를 가속화하는 플러그 앤 플레이(plug-and-play) 방식의 가속 방법인 EffOPD를 제안한다. EffOPD는 추가적인 학습 가능 모듈이나 복잡한 하이퍼파라미터 튜닝이 필요하지 않으며, 최종 성능을 유지하면서 평균 3배의 학습 가속을 달성한다. 전반적으로, 본 연구의 결과는 OPD의 효율성을 이해하기 위한 매개변수 동역학 관점을 제공하며, 대규모 언어 모델을 위한 보다 효율적인 사후 학습 방법을 설계하는 데 실질적인 통찰력을 제시한다.

DexJoCo: MuJoCo에서의 작업 지향적 정밀 조작을 위한 벤치마크 및 툴킷
DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

May 15

ByHanwen Wang, Weizhi Zhao, Xiangyu Wang, Siyuan Huang, He Lin, Boyuan Zheng, Rongtao Xu, Gang Wang, Yao Mu, He Wang, Lue Fan, Hongsheng Li, Zhaoxiang Zhang, Tieniu Tan

인간 수준의 조작 능력을 달성하려면 복잡한 물체 상호작용이 가능한 고도의 손재주를 가진 로봇 손이 필요하다. 이러한 능력을 더욱 발전시키기 위해서는 체계적인 평가를 위한 표준화된 벤치마크가 요구된다. 그러나 기존의 고난이도 조작 벤치마크는 평행 그리퍼와 비교하여 고난이도 손만이 갖는 독특한 조작 능력을 반영하는 과제와 포괄적인 평가 파이프라인이 부족하다. 본 논문에서는 작업 지향적 고난이도 조작을 위한 벤치마크이자 툴킷인 DexJoCo를 제시한다. DexJoCo는 도구 사용, 양손 협응, 장기적 실행, 추론을 평가하는 11개의 기능 기반 과제로 구성된다. 또한 저비용 데이터 수집 시스템을 개발하여 이러한 과제 전반에 걸쳐 1,100개의 궤적을 수집하였으며, 강건성 평가를 위한 도메인 무작위화를 지원한다. 다양한 설정, 즉 시각 및 역학 무작위화, 다중 과제 학습, 행동 헤드 적응을 포함한 환경에서 최신 모델들을 벤치마킹하였다. 광범위한 실증 분석을 통해 고난이도 조작에서 현재 정책들의 중요한 통찰과 공통적인 한계를 파악하였으며, 이는 향후 고난이도 손 로봇 학습 연구의 주요 과제를 강조한다. 프로젝트 페이지는 https://dexjoco.github.io 에서 확인할 수 있다.

협력적 단계별 다중 교사 디코딩을 통한 긴 사고 사슬 추론 증류
Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding

May 4

ByTaewon Yun, Jisu Shin, Jeonghwan Choi, Seunghwan Bang, Hwanjun Song

대규모 추론 모델(Long-CoT)을 실용적으로 만들기 위해서는 증류(distillation)가 필수적이며, 이는 전체 추론(inference)이 계산적으로 여전히 비용이 많이 들기 때문이다. 기존의 큐레이션 기반 접근 방식은 사후적으로 완전한 추론 과정을 선택하지만, 이질적인 교사 모델 간의 협력을 간과하고 동적 탐색이 부족하여 중복 샘플링과 상호 보완적 추론의 누락이 발생한다. 본 논문에서는 CoRD(협력적 다중 교사 디코딩 프레임워크)를 제안하며, 이는 예측적 혼란도 기반 점수와 빔 탐색(beam search)을 활용하여 단계별 추론 합성을 수행한다. 이를 통해 이질적인 대규모 추론 모델이 다양한 잠재 가능성을 효율적으로 유지하면서 일관된 추론 궤적을 공동으로 구성할 수 있다. 실험 결과, CoRD는 더 높은 품질의 추론 데이터를 생성하고, 더 적고 구조화된 지도 신호로 교사 수준에 근접한 학생 모델 성능을 달성하며, 상당한 효율성 오버헤드를 유발하지 않음을 보여준다. 또한 CoRD는 도메인 외 환경과 개방형 설정에서도 잘 일반화된다. 데이터셋과 모델은 https://github.com/DISL-Lab/CoRD에서 확인할 수 있다.

InsightTok: 자기회귀 이미지 생성을 위한 이산 토큰화에서 텍스트 및 얼굴 충실도 향상
InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation

May 14

ByYang Yue, Fangyun Wei, Tianyu He, Jinjing Zhao, Zanlin Ni, Zeyu Liu, Jiayi Guo, Lei Shi, Yue Dong, Li Chen, Ji Li, Gao Huang, Dong Chen

텍스트와 얼굴은 시각적 생성에서 지각적으로 가장 두드러지고 실질적으로 중요한 패턴 중 하나이지만, 이산 토큰화를 기반으로 구축된 자기회귀 생성기에서는 여전히 어려움을 겪고 있다. 핵심 병목 현상은 토크나이저에 있다: 과도한 다운샘플링과 양자화는 종종 판독 가능한 문자 형태와 독특한 얼굴 특징을 보존하는 데 필요한 세밀한 구조를 버린다. 우리는 이러한 격차를 표준 이산 토크나이저 목표가 텍스트 가독성 및 얼굴 충실도와 약하게 정렬되어 있기 때문으로 본다. 이러한 목표는 일반적으로 다양한 콘텐츠를 균일하게 압축하면서 일반적인 재구성을 최적화하기 때문이다. 이를 해결하기 위해, 우리는 지역화된 콘텐츠 인식 지각적 손실을 통해 텍스트와 얼굴 충실도를 향상시키는 간단하면서도 효과적인 이산 시각적 토큰화 프레임워크인 InsightTok을 제안한다. 16k의 컴팩트한 코드북과 16배 다운샘플링 비율을 갖춘 InsightTok은 일반 재구성 품질을 저하시키지 않으면서 텍스트 및 얼굴 재구성에서 이전 토크나이저를 크게 능가한다. 이러한 이점은 InsightAR에서 자기회귀 이미지 생성으로 일관되게 전이되어, 더 선명한 텍스트와 더 충실한 얼굴 디테일을 가진 이미지를 생성한다. 전반적으로, 우리의 결과는 이산 이미지 생성을 발전시키기 위한 토크나이저 훈련에서 특화된 감독의 잠재력을 강조한다.

Flash-GRPO: 단일 단계 정책 최적화를 통한 비디오 확산의 효율적 정렬
Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

May 15

ByXiaoxuan He, Siming Fu, Zeyue Xue, Weijie Wang, Ruizhe He, Yuming Li, Dacheng Yin, Shuai Dong, Haoyang Huang, Hongfa Wang, Nan Duan, Bohan Zhuang

그룹 상대 정책 최적화(Group Relative Policy Optimization)는 비디오 확산 모델을 인간 선호도에 맞추는 데 필수적인 방법으로 부상했지만, 심각한 계산 병목 현상에 직면해 있다: 140억 파라미터 모델을 훈련하려면 실험당 수백 GPU 일(日)이 소요된다. 기존 효율성 방법들은 슬라이딩 윈도우 서브샘플링을 통해 훈련 타임스텝을 줄여 비용을 낮추지만, 최적화를 근본적으로 손상시켜 심각한 불안정성을 보이며 전체 궤적 성능에 도달하지 못한다. 본 논문에서는 Flash-GRPO를 제안한다. 이는 단일 스텝 훈련 프레임워크로, 낮은 계산 예산에서 정렬 품질 측면에서 전체 궤적 훈련을 능가하면서 훈련 효율성을 크게 향상시킨다. Flash-GRPO는 두 가지 핵심 과제를 해결한다: 등시적 그룹화(iso-temporal grouping)는 프롬프트 단위 시간적 일관성을 강제하여 타임스텝 혼재 분산(timestep-confounded variance)을 제거함으로써 정책 성능과 타임스텝 난이도를 분리한다; 시간적 기울기 정정(temporal gradient rectification)은 타임스텝 간에 극도로 불일치하는 기울기 크기를 유발하는 시간 의존적 스케일링 인자를 중화한다. 1.3B에서 14B 파라미터 모델에 대한 실험을 통해 Flash-GRPO의 효과성을 검증했으며, 일관된 안정성 및 최첨단 정렬 품질과 함께 상당한 훈련 가속화를 입증했다.

안전지대 너머로의 넛지: RLVR을 위한 효율적인 전략 기반 탐색
Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

May 15

ByChanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang

검증 가능한 보상 기반 강화학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 확장 가능한 패러다임으로 부상했다. 그러나 그 효과성은 탐색에 의해 근본적으로 제한된다. 정책은 이미 샘플링한 궤적에 대해서만 개선될 수 있기 때문이다. 롤아웃 수를 늘리는 것이 이러한 문제를 완화하지만, 이러한 brute-force 방식의 확장은 계산 비용이 많이 들며, 최적화 목표를 수정하는 기존 접근법들은 무엇을 탐색할지에 대한 제어가 제한적이다. 본 연구에서는 RLVR에서 구조화되고 다양성을 촉진하는 탐색을 위한 프레임워크인 NudgeRL을 제안한다. 우리의 접근 방식은 전략 넛징(Strategy Nudging)을 도입하여, 각 롤아웃을 경량화된 전략 수준의 컨텍스트에 조건화함으로써 고비용의 오라클 감독에 의존하지 않고 다양한 추론 궤적을 유도한다. 이러한 구조화된 탐색으로부터 효과적으로 학습하기 위해, 우리는 보상 신호를 컨텍스트 간 및 컨텍스트 내 구성 요소로 분해하고, 발견된 행동을 기본 정책으로 전이하기 위한 증류 목표를 통합하는 통합 목표 함수를 추가로 제안한다. 실험적으로 NudgeRL은 최대 8배 더 큰 롤아웃 예산을 사용하는 표준 GRPO보다 우수한 성능을 보였으며, 다섯 가지 어려운 수학 벤치마크에서 평균적으로 오라클 기반 강화학습 기준선을 능가했다. 이러한 결과는 구조화되고 컨텍스트 기반의 탐색이 brute-force 롤아웃 확장 및 특권 정보에 기반한 실현 가능성 중심 방법 모두에 대한 효율적이고 확장 가능한 대안이 될 수 있음을 보여준다. 코드는 https://github.com/tally0818/NudgeRL에서 확인할 수 있다.

ReactiveGWM: 반응형 게임 세계 모델에서 NPC 조종
ReactiveGWM: Steering NPC in Reactive Game World Models

May 14

ByZeqing Wang, Danze Chen, Zhaohu Xing, Zizhao Tong, Yinhan Zhang, Xingyi Yang, Yeying Jin

현재 게임 월드 모델은 주관적이고 플레이어 중심의 관점에서 환경을 시뮬레이션한다. 그러나 NPC(Non-Player Character)를 단순한 배경 픽셀로 취급함으로써, 이러한 모델들은 플레이어와 NPC 간의 상호작용을 포착할 수 없다. 이러한 점에서 이들은 실제 시뮬레이션 엔진이라기보다는 수동적인 비디오 렌더러 역할을 하며, 행동에 의해 유발되는 NPC 반응을 모델링하는 데 필요한 물리적 이해를 결여한다. 우리는 플레이어와 NPC 간의 동적 상호작용을 합성하는 반응형 게임 월드 모델인 ReactiveGWM을 소개한다. ReactiveGWM은 모든 상호작용 동역학을 혼동시키는 대신, 플레이어의 제어와 NPC의 행동을 명시적으로 분리한다. 플레이어 행동은 경량의 가산적 편향(additive bias)을 통해 확산 백본에 주입되며, 고수준의 NPC 응답(예: 공격, 제어, 방어)은 교차 주의 모듈을 통해 기반화된다. 결정적으로, 이러한 모듈은 상호작용 논리의 게임에 무관한 표현을 학습한다. 이는 제로샷 전략 전이를 가능하게 한다. 즉, 학습된 모듈을 서로 다른 게임의 기성품이며 주석이 없는 월드 모델에 직접 연결할 수 있다. 이는 도메인 특화 재학습 없이 즉시 제어 가능한 NPC 상호작용을 가능하게 한다. 두 개의 스트리트 파이터 게임에서 평가한 결과, ReactiveGWM은 세밀한 플레이어 제어 가능성을 유지하면서도 강력하고 프롬프트에 부합하는 NPC 전략 준수를 달성하여, 확장 가능하고 전략이 풍부한 NPC와의 상호작용을 위한 길을 열어준다.

횔더 정책 최적화
Hölder Policy Optimisation

May 12

ByYuxiang Chen, Dingli Liang, Yihang Chen, Ziqin Gong, Chenyang Le, Zhaokai Wang, Jiachen Zhu, Lingyu Yang, Jianghao Lin, Weinan Zhang, Jun Wang

그룹 상대 정책 최적화(GRPO)는 샘플링된 궤적 그룹 전체에 걸쳐 이점을 추정함으로써 대규모 언어 모델을 향상시킨다. 그러나 이러한 궤적 수준의 이점을 정책 업데이트에 매핑하려면 각 시퀀스 내의 토큰 수준 확률을 집계해야 한다. 이 단계에서 고정된 집계 메커니즘에 의존하는 것은 알고리즘의 적응성을 근본적으로 제한한다. 실증적으로, 우리는 중요한 트레이드오프를 관찰한다. 특정 고정 집계 방식은 훈련 붕괴를 자주 겪는 반면, 다른 방식은 만족스러운 성능을 내지 못한다. 이러한 문제를 해결하기 위해, 우리는 획덜 평균을 통해 토큰 수준 확률 집계를 통합하는 일반화된 정책 최적화 프레임워크인 HölderPO를 제안한다. 매개변수 p를 명시적으로 조절함으로써, 우리의 프레임워크는 기울기 집중도와 분산 한계 간의 트레이드오프에 대한 연속적인 제어를 제공한다. 이론적으로, 우리는 더 큰 p가 기울기를 집중시켜 희소 학습 신호를 증폭시키는 반면, 더 작은 p는 기울기 분산을 엄격하게 제한함을 증명한다. 정적 구성으로는 이러한 집중-안정성 트레이드오프를 보편적으로 해결할 수 없기 때문에, 우리는 훈련 수명 주기 전반에 걸쳐 p를 점진적으로 스케줄링하는 동적 어닐링 알고리즘으로 이 프레임워크를 구체화한다. 광범위한 평가는 기존 기준선 대비 우수한 안정성과 수렴성을 입증한다. 특히, 우리의 접근 방식은 여러 수학적 벤치마크에서 최첨단 평균 정확도인 54.9%를 달성하여 표준 GRPO 대비 7.2%의 실질적인 상대적 이득을 얻었으며, ALFWorld에서는 93.8%라는 탁월한 성공률을 확보했다.

Solvita: 에이전틱 진화를 통한 경쟁 프로그래밍용 대규모 언어 모델 향상
Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

May 14

ByHan Li, Jinyu Tian, Rili Feng, Yuqiao Du, Chong Zheng, Chenyu Wang, Chenchen Liu, Shihao Li, Xinping Lei, Yifan Yao, Weihao Xie, Letian Zhu, Jiaheng Liu

대규모 언어 모델(LLM)은 여전히 어려운 경쟁적 프로그래밍에서 요구되는 엄격한 추론 능력에 어려움을 겪고 있다. 최근의 다중 에이전트 프레임워크는 이러한 신뢰성 격차를 해소하려 시도하지만, 근본적으로 상태 비저장(stateless) 방식을 유지한다. 즉, 정적 검색에 의존하며 이전 작업에서 얻은 귀중한 문제 해결 및 디버깅 경험을 폐기한다. 이 문제를 해결하기 위해, 우리는 기본 LLM의 가중치 업데이트 없이도 연속 학습을 가능하게 하는 에이전트 기반 진화 프레임워크인 Solvita를 제안한다. Solvita는 문제 해결을 네 가지 특화된 에이전트(Planner, Solver, Oracle, Hacker)가 수행하는 전략 선택, 프로그램 합성, 인증된 감독, 표적 해킹의 폐루프 시스템으로 재구성한다. 핵심적으로, 각 에이전트는 학습 가능한 그래프 구조의 지식 네트워크와 연결된다. 시스템이 작동함에 따라 통과/실패 판정, 테스트 인증 품질, Hacker가 발견한 적대적 취약점과 같은 결과 신호는 이러한 네트워크 가중치에 대한 강화 학습 업데이트로 변환된다. 이를 통해 에이전트는 과거의 성공과 실패를 바탕으로 향후 쿼리를 동적으로 라우팅할 수 있으며, 시간이 지남에 따라 전이 가능한 추론 경험을 효과적으로 축적한다. CodeContests, APPS, AetherCode 및 실시간 Codeforces 라운드에서 평가된 Solvita는 코드 생성 에이전트 중 새로운 최첨단 성능을 수립하며, 기존 다중 에이전트 파이프라인을 능가하고 단일 패스 기준선의 정확도를 거의 두 배로 향상시켰다.

계획에서 픽셀로: 개방형 이미지 편집을 위한 계획 및 조정 학습
From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

May 14

ByAnirudh Sundara Rajan, Krishna Kumar Singh, Yong Jae Lee

현대 이미지 편집 모델은 사실적인 결과를 생성하지만 추상적이고 다단계적인 명령(예: "이 광고를 더 채식 친화적으로 만드세요")을 처리하는 데 어려움을 겪는다. 기존의 에이전트 기반 방법은 이러한 작업을 분해하지만 수작업 파이프라인이나 교사 모방에 의존하여 유연성을 제한하고 학습을 실제 편집 결과로부터 분리시킨다. 본 논문에서는 장기적 이미지 편집을 위한 경험 기반 프레임워크를 제안한다. 이 프레임워크에서 플래너는 구조화된 원자적 분해를 생성하고, 오케스트레이터는 각 단계를 실행할 도구와 영역을 선택한다. 시각 언어 판별기는 명령 준수 및 시각적 품질에 대해 결과 기반 보상을 제공한다. 오케스트레이터는 이러한 보상을 최대화하도록 훈련되며, 성공적인 궤적은 플래너를 개선하는 데 사용된다. 계획을 보상 기반 실행과 긴밀하게 연결함으로써, 우리의 접근 방식은 단일 단계 또는 규칙 기반 다단계 기준선보다 더 일관되고 신뢰할 수 있는 편집을 제공한다.

PAGER: 점-정밀 기하학적 GUI 제어에서 의미-실행 격차 연결
PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control

May 15

ByJingxuan Wei, Xi Bai, Shan Liu, Caijun Jia, Zheng Sun, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Cheng Tan

대규모 시각-언어 모델은 GUI 에이전트를 크게 발전시켜 웹, 모바일, 데스크톱 인터페이스 전반에서 실행 가능한 상호작용을 가능하게 했다. 그러나 이러한 성과는 동일한 구성 요소 내의 인접 픽셀들이 여전히 유효한 관대한 영역 허용 패러다임에 크게 의존한다. 정밀한 기하학적 구성은 이러한 가정을 깨뜨린다. 즉, 동작이 관대한 영역이 아닌 연속적인 캔버스 공간의 점에 정확히 위치해야 하기 때문이다. 기하학적 기본 요소는 존재론적 의존성을 수반하므로, 국소적 좌표 오류는 연쇄적인 위상 실패를 유발하여 하위 객체를 왜곡하고 최종 구성을 무효화할 수 있다. 우리는 이러한 체계를 점 수준의 정확성, 형상 인식 검증, 의존성 기반 오류 전파에 대한 강건성을 요구하는 정밀 민감 GUI 작업으로 규정한다. 이를 벤치마킹하기 위해 4,906개의 문제와 224,000개 이상의 프로세스 감독 픽셀 수준 GUI 행동을 포함한 PAGE Bench를 소개한다. 또한, 구성을 의존성 구조화 계획과 픽셀 수준 실행으로 분해하는 토폴로지 인식 에이전트 PAGER를 제안한다. 픽셀 기반 지도 학습 튜닝은 실행 가능한 행동 문법을 확립하고, 정밀 정렬 강화 학습은 상태 조건 기하학적 피드백을 통해 롤아웃 유발 노출 편향을 완화한다. 실험 결과, 두드러진 의미-실행 격차가 드러났다: 일반 멀티모달 모델은 88% 이상의 행동 유형 정확도를 달성하지만 작업 성공률은 6% 미만으로 유지된다. PAGER는 이 격차를 해소하여, 가장 강력한 평가된 일반 기준선 대비 4.1배 높은 작업 성공률을 제공하고, GUI 특화 에이전트의 단계 성공률을 9% 미만에서 62% 이상으로 끌어올려 점 정밀 GUI 제어 분야에서 새로운 최첨단을 확립한다.

CM-EVS: 완전한 장면 커버를 위한 희소 파노라마 RGB-D 포즈 데이터
CM-EVS: Sparse Panoramic RGB-D-Pose Data for Complete Scene Coverage

May 15

ByJiale Liu, Jungang Li, Jieming Yu, Xinglin Yu, Zihao Dongfang, Zongjian Ding, Kaifeng Ding, Yi Yang, Lidong Chen, Yang Zou, Shunwen Bai, Jiahuan Zhang, Haoran Huang, Shan Huang, Yudong Gao, Mingjun Cheng

현대 3D 시각 학습은 미터법 3D 자산에서 샘플링된 관측에 의존하지만, 기존의 스캔, 메시, 포인트 클라우드, 시뮬레이션 및 재구성은 희소하고 비교 가능하며 기하학적으로 일관된 파노라마 학습 인터페이스를 직접 제공하지 않는다. 밀집된 궤적은 유사한 시점을 중복하고, 소스별 렌더링 정책은 이질적인 주석을 생성하며, 휴리스틱 기반 희소 방법은 중요한 영역을 놓치거나 깊이 불일치 관측을 초래할 수 있다. 본 연구는 3D 자산을 희소한 파노라마 RGB-D-포즈 데이터로 변환하는 방법을 연구하며, 이 데이터는 낮은 중복성과 감사 가능한 출처를 유지하면서 전체 장면을 포괄한다. 우리는 COVER(커버리지 지향 시점 선별과 ERP 범위-깊이 워핑)를 제안한다. 이는 훈련이 필요 없는 ERP 시점 선별기로서, 선택된 시점에서 관찰된 기하를 후보 ERP 프로브로 투영하고, 증분 커버리지를 점수화하며, 깊이 충돌에 패널티를 부여한다. 제한된 근사 오차 하에서, 그리디 커버리지 근사는 표준 커버리지 스타일의 근사 동작을 가산 오차 항까지 보존한다. COVER를 사용하여 우리는 CM-EVS(커버리지 선별 미터법 ERP 시점 집합)를 구축한다. 이는 Blender indoor, HM3D, ScanNet++의 1,275개 실내 장면에서 추출한 36,373개의 선별된 ERP 프레임과, TartanGround 및 OB3D에서 동일 스키마로 재인코딩된 실외 파노라마로 구성된 파노라마 RGB-D-포즈 데이터셋이다. 각 프레임은 전구체 RGB, 미터법 거리 깊이, 보정된 포즈를 제공하며, COVER가 생성한 실내 프레임은 단계별 출처 로그를 포함한다. 실내 장면당 중앙값 25프레임만으로도 CM-EVS는 13개의 통합된 방 유형을 모두 포괄하면서 장면 수준의 컴팩트한 커버리지를 유지한다. 실험 결과 COVER는 커버리지-충돌 트레이드오프를 개선하여, CM-EVS를 기하학적으로 일관된 파노라마 3D 학습을 위한 희소하고 컴팩트하며 감사 가능한 RGB-D-포즈 자원으로 만든다.

시각-언어 모델에서 밀집 미터법 깊이 추정 구현
Unlocking Dense Metric Depth Estimation in VLMs

May 15

ByHanxun Yu, Xuan Qu, Yuxin Wang, Jianke Zhu, Lei ke

시각-언어 모델(VLM)은 접지 및 캡셔닝과 같은 2차원 작업에서 뛰어난 성능을 보이지만, 3차원 이해에는 여전히 한계가 있다. 주요 제약 요인은 텍스트 전용 감독 패러다임으로, 이는 세밀한 시각적 인식을 충분히 제약하지 못하고 밀집 기하 구조를 복원하는 것을 방해한다. 기존 방법들은 외부 시각 모델로부터 기하 정보를 추출하여 오류를 누적시키거나, 비효율적인 픽셀별 질의 또는 조밀하지 않은 토큰 수준의 출력을 통해 직접 예측을 가능하게 하였다. 본 논문에서는 DepthVLM을 제안한다. 이는 단일 VLM을 다중 모달 기능을 유지하면서도 본질적인 밀집 기하 예측기로 변환하는 간단하면서도 효과적인 프레임워크이다. LLM 백본에 경량 깊이 헤드를 부착하고, 2단계 일정으로 통합 시각-텍스트 감독 패러다임 하에 훈련함으로써, DepthVLM은 단일 순방향 전달로 언어 출력과 함께 전체 해상도의 깊이 맵을 생성한다. 또한 VLM 호환 형식의 통합 실내-실외 미터법 깊이 벤치마크를 도입한다. 실험 결과, DepthVLM은 기존 VLM 대비 현저히 높은 추론 효율성을 보이며, 선도적인 순수 시각 모델을 능가하고, 복잡한 3차원 공간 추론을 개선하여 진정한 통합 기반 모델로 나아가고 있음을 입증한다. 모든 코드와 체크포인트는 공개될 예정이다.

MetaAgent-X: 종단간 강화 학습을 통한 자동 다중 에이전트 시스템의 한계 돌파
MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

May 14

ByYaolun Zhang, Yujie Zhao, Nan Wang, Yiran Wu, Jiayu Chang, Yizhao Chen, Qingyun Wu, Jishen Zhao, Huazheng Wang

자동 다중 에이전트 시스템은 수동으로 설계되거나 고정된 오케스트레이션에 의존하지 않고 에이전트 워크플로우를 인스턴스화하는 것을 목표로 한다. 그러나 기존의 자동 MAS 접근법은 부분적으로만 적응적이다. 즉, 훈련 없이 테스트 시간 탐색을 수행하거나, 하위 실행 에이전트를 고정시킨 상태에서 메타 수준 설계자를 최적화하여, 고정된 실행자 한계를 초래하고 자기 설계 및 자기 실행 에이전트 모델의 종단 간 훈련을 탐구하지 않은 상태로 남겨둔다. 이를 해결하기 위해, 우리는 자동 MAS 설계와 실행을 공동으로 최적화하는 종단 간 강화 학습 프레임워크인 MetaAgent-X를 소개한다. MetaAgent-X는 스크립트 기반 MAS 생성, 실행 롤아웃 수집, 그리고 설계자와 실행자 궤적 모두에 대한 신용 할당을 가능하게 한다. 안정적이고 확장 가능한 최적화를 지원하기 위해, 우리는 훈련 안정성을 개선하고 설계자-실행자 공진화의 동역학을 드러내는 실행자-설계자 계층적 롤아웃 및 단계별 공진화를 제안한다. MetaAgent-X는 기존의 자동 MAS 기준선을 일관되게 능가하여 최대 21.7%의 성능 향상을 달성한다. 포괄적인 절제 연구는 설계자와 실행자 모두 훈련 과정 전반에 걸쳐 개선되며, 효과적인 자동 MAS 학습이 단계별 공진화 과정을 따른다는 것을 보여준다. 이러한 결과는 종단 간 훈련 가능한 자동 MAS를 자기 설계 및 자기 실행 에이전트 모델을 구축하기 위한 실용적인 패러다임으로 확립한다.

조정된 LLM 활성화는 비전사적이다
Steered LLM Activations are Non-Surjective

May 7

ByAayush Mishra, Daniel Khashabi, Anqi Liu

활성화 조작(activation steering)은 모델의 활성화를 수정하여 행동의 추상적 변화를 유도하는 인기 있는 화이트박스 제어 기법이다. 또한 해석 가능성 연구(예: 진실성 탐색, 활성화를 인간이 읽을 수 있는 설명으로 변환) 및 안전 연구(예: 탈옥 가능성)에서 표준 도구로 자리 잡았다. 그러나 조작된 행동이 텍스트 프롬프트에 의해 실현 가능한지 여부는 명확하지 않다. 본 연구에서는 이 문제를 전사성(surjectivity) 문제로 정식화한다: 고정된 모델에 대해, 모든 조작된 활성화가 모델의 자연적 순방향 전파 하에서 원상(preimage)을 허용하는가? 실제적인 가정 하에, 우리는 활성화 조작이 잔차 스트림을 이산 프롬프트에서 도달 가능한 상태의 다양체(manifold)에서 벗어나게 밀어낸다는 것을 증명한다. 거의 확실히, 어떤 프롬프트도 조작에 의해 유도된 동일한 내부 행동을 재현할 수 없다. 또한 세 가지 널리 사용되는 LLM에서 실험적으로 이 결과를 확인한다. 본 연구 결과는 화이트박스 조작 가능성과 블랙박스 프롬프팅 간의 형식적 분리를 확립한다. 따라서 활성화 조작의 용이성과 성공을 프롬프트 기반 해석 가능성 또는 취약성의 증거로 해석하는 것에 대해 주의를 촉구하며, 화이트박스와 블랙박스 개입을 명시적으로 분리하는 평가 프로토콜을 제안한다.

DiagnosticIQ: 심볼릭 규칙 기반 LLM 산업 유지보수 행동 추천을 위한 벤치마크
DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules

May 9

ByDevin Yasith De Silva, Dhaval Patel, Christodoulos Constantinides, Shuxin Lin, Nianjun Zhou, Paul J Adams, Sal Rosato, Nicolas Constantinides, Deborah L. McGuinness, Jayant Kalagnanam

복잡한 산업 자산의 모니터링은 공학자가 작성한 기호 규칙에 의존하는데, 이 규칙들은 센서 조건에 따라 작동하여 기술자에게 시정 조치를 수행하도록 지시한다. 병목 지점은 탐지가 아니라 대응에 있다. 즉, 규칙을 유지보수 단계로 변환하려면 수년간의 경험을 통해 습득한 자산별 지식이 필요하다. 본 연구는 LLM이 이러한 규칙-행위 변환 단계에서 의사결정 지원 도구로 활용될 수 있는지 조사하고, 16개 자산 유형에 걸친 118개 규칙-행위 쌍에서 추출한 6,690개의 전문가 검증 다지선다형 문제로 구성된 벤치마크를 소개한다. 주요 기여는 다음과 같다: (i) 기호 형식을 분리곱표준형(Disjunctive Normal Form)으로 정규화하고 임베딩 기반 방해 항목 샘플링을 적용하는 기호-다지선다형(MCQA) 변환 파이프라인, (ii) 서로 다른 오류 유형(Pro, Pert, Verbose, Aug, Rationale)을 탐지하는 다섯 가지 변형, (iii) 29개의 LLM과 4개의 임베딩 기준 모델에 대한 벤치마크 결과. 9명의 실무자를 대상으로 한 인간 평가(평균 45.0%)는 본 벤치마크가 운영 경험 이상의 전문 지식을 요구함을 확인했다. 세 가지 주요 발견점이 도출되었다. 최첨단 모델 간 격차는 좁혀져 상위 3개 LLM이 1 Macro 포인트 이내에 분포하며, Bradley-Terry Elo 점수 기준 claude-opus-4-6이 차순위 모델보다 30점 높게 나타났다. 그러나 Pro 변형에서 취약성이 드러나, 방해 항목 확장 시 모든 모델이 상대 정확도 13~60%를 손실했다. Aug 변형은 패턴 매칭 문제를 노출했는데, 조건 반전 상황에서 최첨단 모델도 원래 정답을 49~63%의 빈도로 선택했다. 배포의 병목은 성능이 아니라 교정(calibration)에 있다. 최첨단 모델은 템플릿 기반 고장 탐지는 처리하지만, 구조적 변형에는 실패한다.

MobileEgo Anywhere: 상용 하드웨어에서 장기 에고센트릭 데이터를 위한 오픈 인프라
MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware

May 7

BySenthil Palanisamy, Abhishek Anand, Satpal Singh Rathor, Pratyush Patnaik, Shubhanshu Khatana

최근 시각-언어-행동(Vision Language Action, VLA) 모델의 발전으로 대규모 자기중심적(egocentric) 데이터셋에 대한 중요한 요구가 대두되었다. 그러나 기존 데이터셋은 일반적으로 수 분에 불과한 짧은 에피소드 길이로 제한되어, 복잡한 로봇 작업 실행에 필요한 장기적 시간 의존성(long horizon temporal dependencies)을 포착하지 못한다. 이러한 격차를 해소하기 위해 본 논문에서는 일반 모바일 하드웨어를 사용하여 1시간 이상의 강건한 자기중심적 궤적을 수집할 수 있는 프레임워크인 MobileEgo Anywhere를 제시한다. 현대 스마트폰의 보편적인 센서 제품군을 활용하여 고정밀의 장기 카메라 포즈 추적(camera pose tracking)을 제공함으로써, 전통적인 로봇 데이터 수집과 관련된 높은 하드웨어 장벽을 효과적으로 제거한다. 본 연구의 기여는 세 가지로 요약된다: (1) 지속적인 상태 추적이 포함된 200시간 분량의 다양하고 긴 형식의 자기중심적 데이터로 구성된 새로운 데이터셋을 공개하고, (2) 모든 사용자가 자기중심적 데이터를 기록할 수 있는 모바일 애플리케이션을 오픈소스로 제공하며, (3) 원시 모바일 캡처 데이터를 시각-언어-행동 모델 및 기초 모델 연구를 위한 표준화된 학습 준비 형식으로 변환하는 포괄적인 처리 파이프라인을 제공한다. 데이터 수집 과정을 대중화함으로써, 본 연구는 다양한 글로벌 환경에서 대규모 장기 데이터 획득을 가능하게 하여 일반화 가능한 로봇 정책의 개발을 가속화한다.

구체 잠재 인코더를 이용한 효율적인 이미지 합성
Efficient Image Synthesis with Sphere Latent Encoder

May 15

ByTung Do, Thuan Hoang Nguyen, Hao Li

소수의 단계로 이미지를 생성하는 기술은 급속도로 발전해 왔으며, 특히 consistency 및 meanflow 기반 방법들은 샘플링 단계 수를 크게 줄이는 데 성공했다. 이러한 접근법은 추론 비용이 낮다는 장점에도 불구하고, 훈련 안정성이 부족하고 확장성에 한계를 보이는 경우가 많다. Sphere Encoder는 최근 등장한 대안으로, 소수의 단계만으로도 고품질 이미지를 생성하지만, 추론 과정에서 픽셀 공간과 잠재 공간 간의 반복적인 전환이 필요할 뿐만 아니라, 단일 아키텍처 내에서 재구성과 생성을 동시에 최적화해야 한다. 이러한 설계는 계산 비효율성을 초래하고, 재구성과 생성 목표 간의 충돌을 야기한다. 이러한 한계를 극복하기 위해, 우리는 프레임워크를 고정된 사전 학습 이미지 인코더와 구면 잠재 공간에서 완전히 학습된 별도의 잠재 변환 잡음 제거 모델로 분리한다. 우리의 접근법은 훈련 및 추론 과정에서 반복적인 픽셀 공간 연산을 제거하여 효율성을 향상시키고, 재구성과 생성이 각각 독립적으로 특화될 수 있도록 한다. Animal-Faces, Oxford-Flowers, ImageNet-1K 데이터셋에서 우리의 방법은 생성 품질과 추론 속도 모두에서 Sphere Encoder를 크게 능가하며, 강력한 소수 단계 및 다수 단계 기준선과 비교하여 경쟁력 있는 결과를 달성한다.

희소 오토인코더는 CLIP 모델의 강건하고 해석 가능한 미세 조정을 가능하게 한다.
Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models

May 15

ByFabian Morelli, Arnas Uselis, Ankit Sonthalia, Seong Joon Oh

대규모 사전 학습된 CLIP과 같은 시각-언어 모델은 다양한 작업에서 놀라운 제로샷 성능을 보여준다. 그러나 이러한 모델을 미세 조정하여 하위 작업 성능을 향상시키면 분포 변화에 대한 강건성이 저하되는 경우가 많다. 최근 접근법들은 이러한 트레이드오프를 완화하려 시도했지만, 대개 계산 비용이 높은 텍스트 안내에 의존한다. 본 논문에서는 모델의 시각적 표현에만 작용하는 새로운 강건 미세 조정 방법인 SAE-FT를 제안한다. SAE-FT는 사전 학습된 모델로 훈련된 희소 오토인코더가 식별한 의미론적으로 의미 있는 특징의 추가 및 제거에 페널티를 부과함으로써 이러한 표현의 변화를 정규화한다. 이러한 제약 조건은 파괴적 망각을 방지하고 미세 조정 과정을 해석 가능하게 만들어 의미 변화의 직접적 분석을 가능하게 한다. SAE-FT는 기계론적으로 투명하면서도 계산 효율적이며, ImageNet 및 관련 분포 변화 벤치마크에서 최신 기술 수준과 동등하거나 이를 능가하는 성능을 달성한다. 코드는 다음에서 공개적으로 이용 가능하다: https://github.com/Fabian-Mor/sae-ft.

FFAvatar: 소수 샘플, 피드포워드, 일반화 가능한 아바타 재구성
FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

May 14

ByThuan Hoang Nguyen, Jiahao Luo, Yinyu Nie, Hao Li, Gordon Guocheng Qian, Jian Wang

아바타 재구성은 전통적으로 수 시간의 계산을 필요로 하는 개별 객체 최적화나 확장성을 제한하는 고가의 전처리에 의존해 왔습니다. 본 논문에서는 소수의 무포즈 초상화 이미지로부터 몇 초 만에 고품질의 애니메이션 가능한 3D 가우시안 헤드 아바타를 재구성하는 일반화 가능한 피드포워드 프레임워크인 FFAvatar를 소개합니다. FFAvatar는 멀티뷰 Query-Former를 통해 여러 소스 이미지의 정보를 통합된 정준 가우시안 표현으로 융합하며, 이는 픽셀로부터 엔드투엔드로 직접 예측된 FLAME 파라미터를 통해 애니메이션되어 오프라인 FLAME 추출의 오버헤드를 제거합니다. 또한, 광범위한 일반화와 고충실도 재구성을 모두 달성하는 3단계 훈련 커리큘럼을 제안합니다: (i) 100만 개 이상의 신원에 대한 광범위한 단안 비디오 데이터에서 강력한 일반화 가능 사전 지식을 학습하기 위한 확장 가능한 사전 훈련; (ii) 기하학적 충실도와 극단 뷰 인식을 향상시키기 위해 소규모지만 고품질의 360도 캡처 데이터셋에서의 다중 뷰 미세 조정; (iii) 최대 충실도를 위해 500개의 최적화 단계 내에서 특정 신원에 적응하는 선택적 개인화. 광범위한 실험을 통해 FFAvatar가 신원 보존, 기하학적 일관성 및 애니메이션 충실도에 대한 새로운 기준을 제시함을 입증합니다. NeRSemble 벤치마크에서 최신 기술인 LAM보다 PSNR 5.5의 상당한 향상을 보여줍니다. 또한, FFAvatar는 실시간 배포를 가능하게 하여, 개인화 없이 2초, 개인화 시 10초 만에 아바타를 재구성하며, 단일 NVIDIA A100 GPU에서 49 FPS 애니메이션을 지원합니다.

뛰기 전에 살펴보라: LLM 에이전트의 자율 탐색
Look Before You Leap: Autonomous Exploration for LLM Agents

May 15

ByZiang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, Fuli Feng

대규모 언어 모델 기반 에이전트는 충분한 환경 특화 정보를 획득하기 전에 사전 지식에 기반하여 행동하려는 경향, 즉 조기 활용( premature exploitation)으로 인해 익숙하지 않은 환경에서 종종 실패한다. 본 연구는 적응형 에이전트 구축을 위한 핵심이면서도 충분히 탐구되지 않은 능력으로서 자율적 탐색(autonomous exploration)을 식별한다. 이 능력을 공식화하고 정량화하기 위해, 에이전트가 주요 상태, 객체 및 행동 가능성(affordances)을 얼마나 폭넓게 발견하는지 측정하는 검증 가능한 지표인 탐색 체크포인트 커버리지(Exploration Checkpoint Coverage)를 도입한다. 체계적 평가 결과, 표준 과제 지향 강화 학습(task-oriented reinforcement learning)으로 훈련된 에이전트는 일관되게 좁고 반복적인 행동을 보여 하위 과제 성능을 저해함을 확인했다. 이러한 한계를 해결하기 위해, 과제 실행 롤아웃(task-execution rollouts)과 탐색 롤아웃(exploration rollouts)을 교차 배치하는 훈련 전략을 개발하며, 각 롤아웃 유형은 해당하는 검증 가능한 보상(verifiable reward)에 의해 최적화된다. 이 훈련 전략을 기반으로, 정보 수집과 과제 실행을 분리하는 탐색 후 행동(Explore-then-Act) 패러다임을 제안한다. 즉, 에이전트는 먼저 상호작용 예산(interaction budget)을 활용하여 근거 기반 환경 지식을 획득한 후, 이를 과제 해결에 활용한다. 본 연구 결과는 체계적 탐색을 학습하는 것이 일반화 가능하고 실제 환경에 적용 가능한 에이전트를 구축하는 데 필수적임을 보여준다.

WorldAct: 모놀리식 3D 세계를 상호작용 가능한 객체 중심 장면으로 활성화
WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes

May 15

ByJichen Hu, Jiawei Guo, Jiazhong Cen, Chen Yang, Sikuang Li, Wei Shen

최근 Marble과 같은 생성적 장면 합성 기반의 3D 세계 모델링 시스템은 일관성 있고 탐색 가능한 3D 환경을 생성할 수 있지만, 그 출력물은 일반적으로 편집 가능성과 물리적 상호작용이 제한된 정적인 모놀리식 자산(monolithic assets)이다. 이는 생성된 세계를 능동적으로 수정하고 조작해야 하는 몰입형 콘텐츠 제작 및 구현 시뮬레이션(embodied simulation)에서의 활용을 제한한다. 이러한 과제를 해결하기 위해, 우리는 정적으로 생성된 3D 세계를 편집 및 상호작용이 가능한 장면으로 변환하는 프레임워크인 WorldAct를 제시한다. WorldAct는 멀티모달 에이전트를 사용하여 장면 분해를 안내하고, 조작 가능한 객체를 식별하며, 상호작용을 위해 기하학적으로 정렬된 객체 수준의 메시를 재구성하고, 3D 인페인팅을 통해 잔여 배경을 복원한다. 결과 장면은 객체 수준 편집, 충돌 인식 조작, 구현 작업 수행(embodied task execution)을 지원하면서 전역 장면의 일관성을 유지한다. 실험 결과는 WorldAct가 원래 생성된 장면보다 더 풍부한 상호작용 시나리오를 가능하게 함을 보여주며, 이는 편집 가능하고 상호작용적인 3D 세계 모델을 향한 실용적인 경로를 시사한다.

실패로부터 배우기: 검증 가능한 보상을 이용한 수정 중심 정책 최적화
Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

May 14

ByMengjie Ren, Jie Lou, Boxi Cao, Xueru Wen, Hongyu Lin, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu

검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 효과적인 패러다임으로 부상했다. 그러나 RLVR 훈련은 종종 희소 이진 보상과 약한 신용 할당으로 인해 제약을 받으며, 그 결과 모호한 최적화 신호와 실패 궤적에 포함된 유용한 정보의 저활용이 초래된다. 이러한 문제를 해결하기 위해, 우리는 RLVR에 대한 간단하면서도 효과적인 확장인 수정 지향 정책 최적화(CIPO)를 제안한다. CIPO는 외부 신호에 의존하지 않고 정책상 실패 궤적을 수정 지향 감독으로 변환한다. 모델 자체의 실패 시도로부터 도출된 수정 샘플을 표준 RLVR 목적 함수와 함께 공동으로 최적화함으로써, CIPO는 학습 효과성을 개선하는 동시에 모델이 자체 오류를 수정하는 능력을 명시적으로 향상시킨다. 수학적 추론과 코드 생성을 아우르는 11개 벤치마크에 걸친 광범위한 실험은 CIPO가 추론 및 수정 성능 모두에서 강력한 기준선을 일관되고 유의미하게 능가함을 보여준다. 또한 CIPO는 더 강력한 pass@K 이득을 산출하는데, 이는 모델의 내재적 추론 능력을 단순히 기존 정답에 대한 확률 질량을 재분배하는 것이 아니라 향상시킨다는 것을 시사한다.

신경망 아키텍처의 에이전트 기반 발견: AIRA-Compose와 AIRA-Design
Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

May 15

ByAlberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach

재귀적 자기 개선을 향한 연구로서, 본 논문은 LLM 에이전트가 표준 Transformer를 넘어서는 파운데이션 모델을 자율적으로 설계하는 방안을 탐구한다. 이를 위해 고수준 아키텍처 탐색을 위한 AIRA-Compose와 저수준 메커니즘 구현을 위한 AIRA-Design이라는 이중 프레임워크 접근법을 도입한다. AIRA-Compose는 24시간 예산 내에서 11개의 에이전트를 활용하여 기본 계산 프리미티브를 탐색한다. 에이전트는 수백만 파라미터 후보를 평가하고, 최상위 설계를 350M, 1B, 3B 규모로 확장한다. 이를 통해 Transformer 기반 AIRaformer 계열과 Transformer-Mamba 하이브리드 AIRAhybrid 계열의 14개 아키텍처를 도출한다. 1B 규모로 사전 학습된 이 모델들은 Llama 3.2 및 Composer 기준선을 일관되게 능가한다. 다운스트림 태스크에서 AIRAformer-D와 AIRAhybrid-D는 Llama 3.2 대비 정확도를 각각 2.4% 및 3.8% 향상시킨다. 또한 AIRA-Compose는 고효율 확장 경계를 가진 모델을 발견한다: AIRAformer-C는 Llama 3.2 및 Composer의 최고 Transformer보다 각각 54% 및 71% 더 빠르게 확장되며, AIRAhybrid-C는 Nemotron-2보다 23%, Composer의 최고 하이브리드보다 37% 더 빠른 확장 속도를 보인다. AIRA-Design은 20개의 에이전트에 장거리 의존성을 위한 새로운 어텐션 메커니즘과 고성능 훈련 스크립트 작성을 할당한다. Long Range Arena 벤치마크에서 에이전트가 설계한 아키텍처는 문서 매칭 및 텍스트 분류에서 인간 수준의 최고 성능에 각각 2.3% 및 2.6% 이내로 도달한다. Autoresearch 벤치마크에서 Greedy Opus 4.5는 고정 시간 예산 하에서 0.968의 검증 비트-퍼-바이트를 달성하여 기존 최저 발표치를 능가한다. 이들 프레임워크를 통해 AI 에이전트가 수동 설계 기준선과 동등하거나 이를 능가하는 아키텍처와 알고리즘 최적화를 자율적으로 발견할 수 있음을 보여준다. 이는 차세대 파운데이션 모델 발견을 위한 강력한 패러다임을 확립하며, 재귀적 자기 개선을 향한 명확한 발걸음이 된다.

관측으로부터 언어 모델 사전 정보를 활용한 POMDP 세계 모델 학습
Learning POMDP World Models from Observations with Language-Model Priors

May 13

ByValentin Six, Frederik Panse, Mathis Fajeau, Lancelot Da Costa, Mridul Sharma, Alfonso Amayuelas, Tim Z. Xiao, David Hyland, Philipp Hennig, Bernhard Schölkopf

건물 내비게이션, 로봇 조작, 게임 플레이 등 환경에서 효과적으로 행동하는 에이전트는 먼저 해당 환경이 어떻게 작동하는지에 대한 내부 모델을 학습해야 한다. 부분 관측 마르코프 결정 과정(POMDP)은 이러한 내부 세계 모델에 대한 유연한 모델링 클래스를 제공하지만, 관측-행동 궤적만으로 이를 학습하는 것은 어려우며 일반적으로 광범위한 환경 상호작용이 필요하다. 본 연구에서는 언어 모델 사전 지식(prior)이 사전 지식을 활용하여 비용이 많이 드는 상호작용을 줄일 수 있는지 묻고, Pinductor(POMDP-inductor)를 소개한다: 대규모 언어 모델(LLM)이 소수의 관측-행동 궤적으로부터 후보 POMDP 모델을 제안하고, 이를 반복적으로 개선하여 신념 기반 우도 점수(belief-based likelihood score)를 최적화한다. 엄격히 적은 정보를 사용함에도 불구하고 Pinductor는 은닉 상태에 대한 특권적 접근(privileged access)을 가정하는 LLM 기반 POMDP 학습 방법의 성능 및 샘플 효율성과 일치하며, 테이블 형태 POMDP 기준선(tabular POMDP baselines)의 샘플 효율성을 크게 능가한다. 추가 결과는 성능이 LLM 역량에 따라 확장되며, 환경에 대한 의미 정보(semantic information)가 차단될 때 우아하게 저하됨을 보여준다. 이러한 결과는 언어 모델 사전 지식을 부분 관측 하에서 샘플 효율적인 세계 모델 학습을 위한 실용적 도구로 자리매김하게 하며, 실제 환경에서의 범용 에이전트(generalist agent)를 향한 한 걸음이 된다. 코드는 https://github.com/atomresearch/pinductor에서 확인할 수 있다.

HodgeCover: 고차 위상적 커버리지가 주도하는 희소 혼합 전문가 압축
HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

May 13

ByTao Zhong, Dongzhe Zheng, Christine Allen-Blanchette

희소 전문가 혼합(Sparse Mixture-of-Experts, MoE) 계층은 토큰을 소수의 전문가를 통해 라우팅하며, 이러한 계층에 대한 학습 없는 압축은 재학습 없이 추론 비용을 줄인다. 이 계열의 모든 기존 압축기를 막는 미묘한 장애물이 존재한다. 세 전문가가 각각 쌍별로 호환 가능하더라도 함께 병합될 때 환원 불가능한 순환 구조를 형성할 수 있기 때문에, 쌍별 신호에 기반하여 전문가를 순위화하는 모든 점수는 어떤 삼중항이 공동으로 병합 가능한지에 대해 구조적으로 파악하지 못한다. 본 연구는 이 장애물이 정확한 수학적 객체, 즉 정점이 전문가이고 에지가 KL 병합 장벽을, 면이 삼중항 장벽을 갖는 2-복합체 상의 단순체 라플라시안(simplicial Laplacian)의 조화 커널(harmonic kernel)임을 보인다. 에지 장벽 신호에 호지 분해(Hodge decomposition)를 적용하면 이 커널을 정확히 분리할 수 있다. 우리는 이 진단법을 선택 목표로 전환한다. HodgeCover는 조화-임계 에지와 삼중항-임계 삼각형을 탐욕적으로 커버하며, 이에 대한 하이브리드 변형은 잔존 전문가에 대한 기성 가중치 가지치기와 결합된다. 공격적인 전문가 축소 환경에서 세 가지 공개 가중치 Sparse MoE 백본을 대상으로 한 실험에서, HodgeCover는 전문가 축소 측면에서 최신 학습 없는 기준선과 동등한 성능을 보이고, 하이브리드 축의 공격적 압축 최전선에서 선도하며, 네 가지 호지 성분 전체에 걸쳐 유지되는 질량을 고유하게 균형 잡는다. 이러한 결과는 학습된 MoE 구조의 조화 커널을 드러내는 것이 가장 중요한 영역에서 어떤 압축기가 승리하는지를 변화시킴을 보여준다.

OmniHumanoid: 페어 없는 적응을 통한 스트리밍 교차 신체 비디오 생성
OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

May 12

ByYiren Song, Xiyao Deng, Pei Yang, Yihan Wang, Mike Zheng Shou

교차 구현 비디오 생성은 인간-로봇 및 로봇-로봇 간 다양한 인간형 구현체 전반에 걸쳐 동작을 전이하는 것을 목표로 하며, 이를 통해 구현 지능을 위한 확장 가능한 데이터 생성을 가능하게 한다. 이러한 설정에서의 주요 난제는 동작 역학이 구현체 간 부분적으로 전이 가능한 반면, 외형과 형태는 구현체 특정적이라는 점이다. 기존 접근법은 이러한 요인들을 종종 얽히게 하며, 많은 경우 모든 대상 구현체에 대해 쌍을 이룬 데이터가 필요하므로 새로운 로봇으로의 확장성에 제한이 있다. 본 논문에서는 전이 가능한 동작 학습과 구현체 특정 적응을 분해하는 프레임워크인 OmniHumanoid를 제안한다. 본 방법은 여러 구현체에 걸쳐 동작 정렬된 쌍 비디오로부터 공유 동작 전이 모델을 학습하는 동시에, 경량의 구현체 특정 어댑터를 통해 짝 없는 비디오만을 사용하여 새로운 구현체에 적응한다. 동작 전이와 구현체 적응 간의 간섭을 줄이기 위해, 동작 조건화와 구현체 특정 변조를 분리하는 분기 분리 주의 설계를 추가로 도입한다. 또한, 다양한 인간형 자산, 장면 및 시점에 걸쳐 렌더링된 동작 정렬 쌍 비디오로 구성된 합성 교차 구현 데이터셋을 구축한다. 합성 및 실제 벤치마크 실험 결과, OmniHumanoid는 높은 동작 충실도와 구현 일관성을 달성하면서, 공유 동작 모델을 재학습하지 않고도 보이지 않는 인간형 구현체로의 확장 가능한 적응을 가능하게 함을 보여준다.

ChangeFlow -- 원격 탐사에서 변화 탐지를 위한 잠재 정류 흐름
ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing

May 14

ByBlaž Rolih, Matic Fučka, Filip Wolf, Luka Čehovin Zajc

원격 탐사 변화 탐지(RSCD)는 동일한 지리적 영역의 두 이미지 간 변화를 위치화하는 것을 목표로 한다. 실제로 변화 마스크는 순수한 국소적 외관 차이보다는 영역 수준 주석 규칙을 따르는 경우가 많아, 문맥 의존적이며 때로는 모호하다. 대부분의 최신 방법은 픽셀 단위 판별 분류를 활용하는데, 이는 입력당 단일 예측을 생성하며 변화된 영역을 일관된 전체로 명시적으로 모델링하지 못한다. 자연스러운 대안은 생성적 정식화(generative formulation)로, 이는 가능한 마스크의 분포를 모델링하여 샘플링을 통해 모호성을 포착하고 전역적 일관성을 장려할 수 있다. 그러나 기존의 생성적 RSCD 접근법은 일반적으로 픽셀 공간 생성의 높은 계산 비용과 조건화 메커니즘의 복잡성으로 인해 강력한 판별 기준선에 뒤처진다. 기존 판별 및 생성 방법의 한계를 해결하기 위해, 우리는 변화 탐지를 교정 흐름(rectified flow)을 통해 잠재 공간에서 변화 마스크의 합성으로 재구성하는 생성적 프레임워크인 ChangeFlow를 제안한다. ChangeFlow는 구조화되었으면서도 가벼운 조건 신호에 의해 유도되며, 확률적 설계는 자연스럽게 샘플링 기반 예측 앙상블을 지원한다. 즉, 여러 예측된 변화 마스크를 집계하면 강건성이 향상되고, 샘플 일치도는 모호한 영역을 강조하는 실용적인 신뢰도 추정을 제공한다. 네 가지 벤치마크에서 ChangeFlow는 평균 F1 80.4%를 달성하여 이전 최고 방법 대비 평균 1.3포인트 개선되었으며, 최근 강력한 기준선과 비슷한 추론 속도를 유지한다. 프로젝트 페이지: https://blaz-r.github.io/changeflow_cd

에이전트 하네스 안전 감사
Auditing Agent Harness Safety

May 14

ByChengzhi Liu, Yichen Guo, Yepeng Liu, Yuzhe Yang, Qianqi Yan, Xuandong Zhao, Wenyue Hua, Sheng Liu, Sharon Li, Yuheng Bu, Xin Eric Wang

LLM 에이전트는 점점 더 도구를 분배하고, 리소스를 할당하며, 전문화된 구성 요소 간에 메시지를 라우팅하는 실행 하네스 내에서 실행됩니다. 그러나 하네스는 허가되지 않은 리소스에 접근하거나 컨텍스트를 잘못된 에이전트에 유출하는 궤적을 통해 올바르고 무해한 답변을 반환할 수 있습니다. 출력 수준 평가는 이러한 실패를 감지할 수 없지만, 대부분의 안전 벤치마크는 최종 출력이나 종료 상태만 평가하며, 많은 위반이 종료 시점이 아닌 궤적 중간에 발생합니다. 핵심 질문은 하네스가 실행 전반에 걸쳐 사용자 의도, 권한 경계 및 정보 흐름 제약 조건을 준수하는지 여부입니다. 이러한 격차를 해결하기 위해, 우리는 경계 준수, 실행 충실도 및 시스템 안정성에 걸쳐 전체 실행 궤적을 감사하는 프레임워크인 HarnessAudit을 제안하며, 이러한 위험이 가장 두드러지는 다중 에이전트 하네스에 중점을 둡니다. 또한 우리는 내장된 안전 제약 조건을 갖춘 단일 에이전트 및 다중 에이전트 구성으로 구현된 8개의 실제 도메인에 걸친 210개의 작업으로 구성된 벤치마크인 HarnessAudit-Bench를 소개합니다. 최첨단 모델과 세 가지 다중 에이전트 프레임워크에 걸쳐 열 가지 하네스 구성을 평가한 결과, 다음과 같은 사실을 발견했습니다: (i) 작업 완료가 안전한 실행과 일치하지 않으며, 궤적 길이에 따라 위반이 누적됩니다; (ii) 안전 위험은 도메인, 작업 유형 및 에이전트 역할에 따라 다릅니다; (iii) 대부분의 위반은 리소스 접근 및 에이전트 간 정보 전송에 집중됩니다; (iv) 다중 에이전트 협업은 안전 위험 표면을 확장하는 반면, 하네스 설계는 안전 배포의 상한을 설정합니다.

Physics-R1: 시각적 물리 추론을 위한 검증된 올림피아드 말뭉치와 방법
Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

May 13

ByShan Yang

우리는 다중 모드 물리 평가 파이프라인을 종단 간 감사하고, 이 분야가 시각-언어 추론을 측정하는 방식을 왜곡하는 세 가지 미발견된 구성 관행, 즉 훈련-평가 오염, 번역 드리프트, MCQ 포화를 문서화한다. (1) 공개 훈련 풀(UGPhysics-Train, SciInstruct, MMK12)은 6개 모든 공개 물리 평가에서 단일 단계 5-그램 자카드 감사를 적중 횟수 0으로 통과한다. 그러나 3단계 감사(자카드 -> mxbai-embed-large 코사인 유사도 -> Haiku-4.5 LLM 판정기)는 SciInstruct에서만 134개의 근사 중복과 4,846개의 의역 후보를 드러낸다. (2) 59개의 쌍체 에스토니아어-영어 올림피아드 문제에서 17 pp의 Sonnet 4.5 차이(30.5% 대 13.6%; 부호 검정 p=0.011, McNemar 검정 p=0.021, 쌍체 부트스트랩 95% 신뢰구간 [+5.1, +28.9] pp). (3) 동일한 Sonnet 가중치에서 MCQ(PhyX에서 79.7%)와 개방형 올림피아드 평가(PhysOlym-A에서 33.4%) 간의 46 pp 형식 및 참신성 기울기. 우리는 이러한 격차를 해결하는 네 가지 산출물을 공개한다: PhysCorp-A(6,432개 레코드의 3단계 감사된 다중 모드 코퍼스), PhysR1Corp(2,268개 레코드의 폐쇄형 RL 풀), PhysOlym-A(500개 문제, 99.8% 새로운 출처의 보류 올림피아드 평가, 원어 난이도 레이블 및 EN/ET 이중 언어 하위 집합 포함), 그리고 Qwen3-VL-8B-Thinking에서 콜드 스타트된 참조 GSPO+DAPO 레시피인 Physics-R1. 3개 시드에 걸쳐, Physics-R1은 감사된 코퍼스를 8B 기준선 대비 PhysOlym-A 관대 평가에서 +18.3 pp 향상시킨다(8.0에서 26.3 +/- 1.7로; Sonnet 4.5보다 7.1 pp 낮음). PhysReason에서는 +15.7 pp(23.9에서 39.6 +/- 6.4로; Qwen3-VL-32B 및 Gemini 2.5 Pro를 앞지름). OlympiadBench-Physics에서는 +6.9 pp(46.2 +/- 1.5). PhyX MCQ에서는 +4.1 pp(77.8 +/- 0.3).

GQLA: 하드웨어 적응형 대규모 언어 모델 디코딩을 위한 그룹-쿼리 잠재 어텐션
GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

May 14

ByFanxu Meng

멀티헤드 잠재 어텐션(Multi-head Latent Attention, MLA)은 DeepSeek-V2/V3에서 사용된 어텐션 기법으로, 키와 값을 저차원 잠재 변수로 공동 압축하며 H100의 루프라인을 거의 완벽하게 충족한다. 그러나 학습된 가중치는 오직 하나의 디코딩 경로, 즉 흡수된 MQA 형태만 노출하며, 이는 효율적인 추론을 H100급 연산-대역폭 비율에 종속시키고, 헤드 축을 따른 텐서 병렬화를 불가능하게 하며, 수출 제한된 H20과 같은 범용 추론 GPU에서 멀티 토큰 예측(MTP) 이점을 전혀 제공하지 못한다. 본 논문에서는 MLA의 최소 수정안인 그룹 쿼리 잠재 어텐션(Group-Query Latent Attention, GQLA)을 제안한다. GQLA의 학습된 가중치는 동일한 매개변수에 대해 두 개의 대수적으로 동등한 디코딩 경로를 노출한다. 하나는 MLA와 동일한 MQA 흡수 경로이고, 다른 하나는 그룹별로 확장된 캐시를 갖는 GQA 경로이다. 런타임은 대상 하드웨어에 맞는 경로를 선택하며, 재훈련이나 커스텀 커널이 필요하지 않다. 따라서 단일 GQLA 가중치 집합으로 H100(s_q=1인 MQA 흡수)과 H20(s_q=2인 GQA + MTP) 두 하드웨어의 루프라인을 모두 충족하면서, GQA 경로에서는 최대 8방향 제로 중복 텐서 병렬화를 지원한다. 처음부터 사전 훈련을 피하기 위해 TransMLA를 TransGQLA로 확장하여, 사전 훈련된 GQA 체크포인트를 GQLA 모델로 변환한다. LLaMA-3-8B에서 이 방법은 MQA 흡수 경로에서 토큰당 KV 캐시를 GQA 기준 대비 28.125%로 압축하면서, 그룹별 경로에서는 GQA 수준의 트래픽을 구조적으로 유지한다.

고착되는 망각: 회로 귀속을 통한 양자화 영구 망각
Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution

May 14

BySaisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu

표준 언러닝 평가는 모든 배포된 언어 모델이 먼저 양자화됨에도 불구하고, 훈련 직후의 완전 정밀도에서 행동 억제를 측정합니다. 최근 연구는 4비트 학습 후 양자화가 기계 언러닝을 되돌릴 수 있음을 보여주었습니다. 본 논문은 이것이 튜닝 아티팩트가 아니라 체계적인 이중 실패임을 제시합니다. 즉, 의미 있는 망각을 달성하는 경사 기반 방법은 압축 하에서 이를 상실하는 반면, 양자화에서 생존하는 방법은 모델을 거의 변화시키지 않습니다. 두 실패 모두 동일한 근본 원인에 기인합니다. 모든 기준선에서 매개변수별 업데이트가 NF4 양자화 빈 폭보다 47~828배 작으며, 수십억 개의 매개변수에 분산된 업데이트는 양자화 빈 경계를 넘을 수 없으며, 이는 희소성-영속성 상충 관계로 정식화됩니다. 본 논문은 두 모드를 모두 해결하는 MANSU(Mechanistic-Aligned Null-Space Unlearning)를 제시합니다. 이는 인과 회로 귀속을 통해 최소 망각 집합 하위 그래프를 분리하고, 대각 피셔 보존 경계가 적용된 회로 제한 널 공간 투영을 수행하며, 구성적으로 양자화 생존을 보장하는 매개변수별 크기 하한을 적용합니다. 또한, 기존 평가 지표로는 구분할 수 없는 구조적 삭제와 행동 억제를 구별하는 기계론적 검증 지표인 회로 귀속 발산(CAD)을 도입합니다. 여러 모델 패밀리 및 위험 벤치마크에서 MANSU는 각 속성에 여유를 두고 네 가지 속성(의미 있는 망각, 보존 유지, 비양의 PTQ 격차, 구조적 삭제)을 모두 만족시키는 최초의 방법이며, 경사 기반 기준선은 압축 하에서 최대 +0.05 정확도를 회복합니다.

평균을 따르라: 참조 기반 플로우 매칭
Follow the Mean: Reference-Guided Flow Matching

May 12

ByPedro M. P. Curvo, Maksim Zhdanov, Floor Eijkelboom, Jan-Willem van de Meent

기존의 제어 가능한 생성 접근법은 일반적으로 파인튜닝, 보조 네트워크 또는 테스트 시간 탐색(test-time search)에 의존한다. 본 연구에서는 플로우 매칭(flow matching)이 다른 제어 인터페이스, 즉 예시를 통한 적응(adaptation through examples)을 허용함을 보인다. 결정론적 보간자(deterministic interpolants)의 경우 속도장(velocity field)은 오로지 조건부 끝점 평균(conditional endpoint mean)에 의해 결정되며, 이 평균을 이동시키면 플로우 자체도 이동한다. 이는 제어 가능한 생성을 위한 간단한 원칙을 제공한다: 사전 학습된 모델이 따르는 참조 집합(reference set)을 변경하여 모델을 조종하는 것이다. 이 아이디어를 두 가지 형태로 구현한다. 참조 평균 가이던스(Reference-Mean Guidance)는 학습이 필요 없으며, 참조 뱅크(reference bank)로부터 닫힌 형태의 끝점 평균 보정(endpoint-mean correction)을 계산하여 동결된 FLUX.2-klein (4B) 모델에 적용함으로써 프롬프트, 시드 및 가중치를 고정한 상태에서 색상, 정체성, 스타일 및 구조를 제어할 수 있게 한다. 반모수적 가이던스(Semi-Parametric Guidance)는 명시적 평균 앵커(explicit mean anchor)와 학습된 잔차 정제기(learned residual refiner)를 통해 동일한 아이디어를 분할 정복(amortize)하며, AFHQv2에서 비조건부 DiT-B/4 수준의 품질을 달성하면서도 추론 시 참조 집합을 교체할 수 있게 한다. 이러한 결과는 보다 넓은 방향성을 시사한다: 매개변수 업데이트가 아닌 데이터를 통해 적응하는 생성 모델.

Raster2Seq: 평면도 재구성을 위한 폴리곤 시퀀스 생성
Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction

May 11

ByHao Phung, Hadar Averbuch-Elor

래스터화된 평면도 이미지로부터 구조화된 벡터 그래픽 표현을 재구성하는 것은 일반적으로 자동 이해 또는 CAD 워크플로우와 같은 평면도 관련 계산 작업의 중요한 전제 조건이다. 그러나 기존 기술은 많은 방과 다양한 수의 다각형 모서리를 가진 대규모 실내 공간을 묘사하는 복잡한 평면도가 전달하는 구조와 의미를 충실하게 생성하는 데 어려움을 겪는다. 이를 위해 우리는 Raster2Seq를 제안하며, 평면도 재구성을 시퀀스-투-시퀀스 작업으로 구성한다. 여기서 방, 창문, 문과 같은 평면도 요소는 기하학과 의미를 함께 인코딩하는 레이블이 지정된 다각형 시퀀스로 표현된다. 우리의 접근 방식은 학습 가능한 앵커의 안내를 사용하여 이미지 특징과 이전에 생성된 모서리에 조건부로 다음 모서리를 예측하는 방법을 학습하는 자기회귀 디코더를 도입한다. 이러한 앵커는 이미지 공간의 공간 좌표를 나타내므로, 주의 메커니즘이 정보가 풍부한 이미지 영역에 집중하도록 효과적으로 유도할 수 있다. 자기회귀 메커니즘을 채택함으로써 우리의 방법은 출력 형식에 유연성을 제공하여, 많은 방과 다양한 다각형 구조를 가진 복잡한 평면도를 효율적으로 처리할 수 있다. 우리의 방법은 Structure3D, CubiCasa5K 및 Raster2Graph와 같은 표준 벤치마크에서 최첨단 성능을 달성할 뿐만 아니라, 다양한 방 구조와 복잡한 기하학적 변형을 포함하는 WAFFLE과 같은 더 까다로운 데이터셋에 대한 강력한 일반화 능력을 입증한다.

AuralSAM2: 피라미드 시청각 특징 프롬프팅을 통한 SAM2의 청각 기능 활성화
AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

May 14

ByYuyuan Liu, Yuanhong Chen, Chong Wang, Junlin Han, Junde Wu, Can Peng, Jingkun Chen, Yu Tian, Gustavo Carneiro

세그먼트 애니씽 모델 2(SAM2)는 비디오 클립에서 프롬프트 가능 분할에 대해 강력한 일반화 성능을 보이지만, 오디오 모달리티와의 통합은 아직 충분히 탐구되지 않았다. 기존 접근법은 기반 모델을 통해 오디오를 시각적 프롬프트(예: 박스)로 변환하거나, 이미지 인코더에 어댑터를 주입하여 시청각 융합을 수행한다. 그러나 두 접근법 모두 제한된 프롬프트 정확도와 증가된 추론 오버헤드로 인해 인간 개입 시나리오에서 부족함을 보인다. 특히, 이러한 어댑터 기반 방법은 네트워크를 통해 신호가 전파됨에 따라 점차 약화되는 오디오 프롬프트 희석 현상을 자주 겪는다. 본 연구에서는 AuralSAM2를 제안한다. 이는 SAM2의 프롬프트 가능 분할 능력을 대부분 유지하면서 오디오를 통합한다. 핵심 모듈인 AuralFuser는 오디오와 시각적 특징을 융합하여 희소 및 밀집 프롬프트를 생성한다. 오디오의 안내를 받고 SAM2의 특징 피라미드를 기반으로 하는 이러한 프롬프트는 시각적 계층 전반에 걸쳐 청각적 단서를 전파하여 교차 모달 영향을 강화한다. 모달리티를 더욱 정렬하기 위해, 지배적인 시각적 특징에서 청각적 관련성을 강조하는 오디오 유도 대비 손실을 도입한다. 제안 방법은 프롬프트 가능 분할의 상호작용 효율성에 최소한의 영향만을 미치면서 공개 벤치마크에서 주목할 만한 정확도 향상을 달성한다. 코드는 https://github.com/yyliu01/AuralSAM2에서 확인할 수 있다.

최소 형식주의 하의 증명을 통한 LLM 추론 능력 스트레스 테스트
Stress-Testing the Reasoning Competence of LLMs With Proofs Under Minimal Formalism

Apr 7

ByKonstantine Arkoudas, Serafim Batzoglou

ProofGrid는 최종 답변만이 아닌 기계적으로 검증 가능한 증명을 통해 LLM 추론을 평가하기 위한 벤치마크 제품군을 소개한다. ProofGrid는 증명 작성, 증명 검증, 증명 마스킹, 증명 공백 채우기를 포함한 15개의 과제로 구성된다. 과제는 최소한의 형식적 표기법, 특히 짧은 프롬프트에 적합하며 정밀하고 감사 가능한 검증을 지원하는 간결한 자연추론 언어인 NDL로 표현된다. 이는 인간이나 LLM의 판단이 아닌 기계적이고 재현 가능하며 세분화된 평가를 가능하게 한다. ProofGrid는 기초적 추론 테스트부터 현재 어떤 모델도 해결하지 못하는 구조적으로 풍부한 도전 과제에 이르기까지 보정된 난이도 스펙트럼을 포괄하며, 도메인 지식, 솔버 위임, 장문맥 인공물에 대한 의존도를 최소화한다. 또한, 추론 벤치마크 비교 프레임워크를 개발하여 ProofGrid를 표현, 검증 보장, 추론 깊이 측면에서 기존 연구와 비교한다. 방법론적으로, 우리는 미미한 표면적 편차를 허용하면서 첫 번째 실질적 추론 실패 지점을 식별하고, 측정 해상도를 개선하며 증명 계획과 하위 수준 실행 잡음을 분리하는 계측된 증명 검증 파이프라인을 도입한다. 이 파이프라인을 사용하여 광범위한 오픈 및 독점 모델을 평가한다. 결과는 빠른 진전을 보여주지만 상당한 한계가 여전히 존재함을 나타낸다: 최첨단 모델은 여러 기초 과제에서 우수한 성능을 보이나, 특히 전역적 조합 추론이나 하위 수준 증명 합성을 요구하는 어려운 과제는 아직 해결에 크게 미치지 못한다. 또한, 모델이 결함이 있는 증명을 생성하면서도 해당 국부적 추론을 개별적으로는 올바르게 거부하는 인식론적 불안정성을 확인하고, 이를 인식론적 안정성 지수로 공식화한다. 마지막으로, 정확도를 2PL IRT 분석, Wright 맵, Fisher 정보에 기반한 정규화된 과제 변별도로 보완한다.

행동으로 알려지다: UI 추적을 통한 LLM 브라우저 에이전트 식별
Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

May 14

ByWilliam Lugoloobi, Samuelle Marro, Jabez Magomere, Joss Wright, Chris Russell

LLM 기반 에이전트가 사용자를 대신하여 웹을 탐색하는 사례가 증가함에 따라, 자연스러운 질문이 제기된다: 웹사이트가 수동적으로 어떤 기반 모델이 에이전트를 구동하는지 식별할 수 있을까? 이는 알려진 모델 취약점에 맞춰진 표적 공격을 가능하게 함으로써 심각한 보안 위험을 의미한다. 정보 검색 및 쇼핑 작업을 포괄하는 14개의 최첨단 LLM과 4개의 웹 환경에 걸쳐, 수동적 JavaScript 추적기를 통해 포착된 에이전트의 행동과 상호작용 타이밍만으로도 최대 96%의 F1 점수로 기반 모델을 식별할 수 있음을 보여준다. 우리는 에이전트 행동으로 훈련된 분류기가 모델 크기와 계열 전반에 걸쳐 일반화된다는 것을 입증함으로써 이 공격 표면을 공식화한다. 또한, 소수의 상호작용 흔적만으로도 강력한 분류기를 훈련할 수 있으며, 에피소드 초반에 에이전트의 정체성을 추론할 수 있음을 보여준다. 행동 사이에 무작위화된 시간 지연을 주입하면 분류기 성능이 크게 저하되지만, 완벽한 보호를 제공하지는 않는다: 지연된 흔적에 대해 재훈련된 분류기는 성능을 대부분 회복한다. 우리는 하네스와 레이블이 지정된 에이전트 흔적 코퍼스를 https://github.com/KabakaWilliam/known_actions{여기}에 공개한다.

MLAIRE: 다국어 언어 인식 정보 검색 평가 프로토콜
MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

May 8

ByYoungjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim

다국어 정보 검색은 사용자가 혼합 언어 코퍼스에 대해 질의를 수행하는 실제 검색 환경에서 점점 더 중요해지고 있다. 기존 평가는 주로 언어 무관 의미적 관련성을 보상하며, 언어에 관계없이 관련 구절을 동등하게 취급한다. 그러나 검색의 유용성은 검색된 구절의 언어에도 의존한다. 사용자는 질의어로 읽고 확인할 수 있는 결과를 선호할 수 있으며, 질의-구절 언어 불일치는 검색 증강 생성 시스템에서 다운스트림 근거 확인과 답변 검증을 복잡하게 만들 수 있다. 이러한 언어 인식 차원을 평가하기 위해, 우리는 MLAIRE(다국어 언어 인식 정보 검색 평가 프로토콜)를 도입한다. 이 프로토콜은 교차 언어 의미 검색과 질의어 언어 선호도를 분리한다. MLAIRE는 여러 언어에 걸쳐 병렬 구절이 포함된 통제된 풀을 구축하여, 동등한 번역이 가능할 때 의미 검색 정확도와 질의어 언어 선호도를 측정할 수 있게 한다. 우리는 언어 선호율(LPR)과 Lang-nDCG를 포함한 언어 인식 평가지표와 함께 의미 및 질의어 언어 선호도 실패를 분리하는 4방향 분해를 제안한다. 31개의 밀집, 희소 및 후기 상호작용 검색기를 평가한 결과, 표준 지표는 뚜렷한 행동을 모호하게 한다는 것을 보여준다. 의미적으로 강력한 검색기는 질의어가 아닌 언어로 올바른 내용을 반환할 수 있는 반면, 질의어 언어 선호도가 더 강한 검색기는 의미적으로 덜 관련된 구절을 검색할 수 있다.

아무도 지리공간 파운데이션 모델의 최첨단을 알지 못한다.
No One Knows the State of the Art in Geospatial Foundation Models

May 12

ByIsaac Corley, Nils Lehmann, Caleb Robinson, Gabriel Tseng, Anthony Fuller, Hamed Alemohammad, Evan Shelhamer, Jennifer Marcus, Hannah Kerner

지리공간 기초 모델(GFM)은 재난 대응, 토지 피복 매핑, 식량 안보 모니터링 및 기타 고위험 지구 관측 작업을 위한 일반화 가능한 백본으로 제안되어 왔다. 그러나 이러한 모델에 관한 발표된 연구는 검토자나 사용자에게 특정 작업에 어떤 모델이 적합한지 판단할 충분한 정보를 제공하지 않는다. 우리는 지리공간 기초 모델 분야에서 현재 최신 기술 수준이 무엇인지 아무도 모른다고 주장한다. 해당 방법들이 유용할 수는 있지만, GFM 문헌은 평가, 훈련 및 테스트 프로토콜, 공개된 가중치, 사전 학습 통제를 비교하거나 순위를 매길 수 있을 만큼 충분히 표준화하지 않는다. 152편의 논문 감사(audit)에서, 동일한 모델, 벤치마크, 프로토콜에 대해 최소 10포인트 차이를 보이는 46건의 논문 간 불일치를 발견했다. 추출 가능한 사전 학습 데이터가 있는 126편의 논문 중 94편(74.6%)이 다른 어떤 논문도 사용하지 않는 구성을 사용했으며, GFM 논문의 39%는 모델 가중치를 전혀 공개하지 않았다. 이러한 커뮤니티 표준의 부재는 해결 가능하다. 우리는 명명된 라이선스 하의 가중치 공개, 공유 핵심 평가, 복사 대 재실행 기준선 주석, 분산 보고, 하나의 공유 평가 도구, 데이터 대 아키텍처 대 알고리즘 통제 등 여섯 가지 구체적인 기대 사항을 제안한다. 이러한 격차는 개별 연구실의 잘못이 아니라 조정 실패에서 비롯된 것이다. 본 논문의 저자들 역시 GFM 커뮤니티의 많은 다른 연구자들과 마찬가지로 이러한 문제에 기여해 왔다. 우리는 단순히 커뮤니티를 비판하는 것을 넘어, GFM을 혁신하는 방법에 대한 공유된 이해를 향한 구체적인 단계를 제시하고자 한다.