HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

18 papers found

# LongCat-Flash-Thinking-2601 기술 보고서
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

ByMeituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang

175

LongCat-Flash-Thinking-2601을 소개합니다. 이는 5,600억 개의 매개변수를 가진 오픈소스 MoE(전문가 혼합) 추론 모델로, 탁월한 에이전트 추론 능력을 갖추고 있습니다. LongCat-Flash-Thinking-2601은 에이전트 검색, 에이전트 도구 사용, 도구 통합 추론 등 다양한 에이전트 벤치마크에서 오픈소스 모델 중 최고 수준의 성능을 달성합니다. 벤치마크 성능을 넘어, 이 모델은 복잡한 도구 상호작용에 대한 강력한 일반화 능력과 잡음이 있는 실제 환경에서의 견고한 동작을 보여줍니다. 이러한 고급 능력은 도메인 병렬 전문가 훈련과 후속 융합을 결합한 통합 훈련 프레임워크와, 사전 훈련부터 사후 훈련에 이르는 데이터 구축, 환경, 알고리즘, 인프라의 종단 간 공동 설계에서 비롯됩니다. 특히, 복잡한 도구 사용에서의 강력한 일반화 능력은 환경 확장과 원칙적인 작업 구축에 대한 심층적인 탐구를 통해 구현되었습니다. 긴 꼬리를 가진 편향된 생성과 다중 턴 에이전트 상호작용을 최적화하고, 20개 이상의 도메인에 걸친 10,000개 이상의 환경에서 안정적인 훈련을 가능하게 하기 위해, 우리는 비동기 강화 학습 프레임워크인 DORA를 체계적으로 확장하여 안정적이고 효율적인 대규모 다중 환경 훈련을 구현했습니다. 더 나아가, 실제 업무에는 본질적으로 잡음이 존재함을 인식하고, 실제 세계의 잡음 패턴을 체계적으로 분석 및 분해하여 이러한 결함을 훈련 과정에 명시적으로 통합하는 표적 훈련 절차를 설계함으로써 실제 적용에서의 견고성을 향상시켰습니다. 복잡한 추론 작업의 성능을 더욱 향상시키기 위해, 집중적인 병렬 사고를 통해 추론 깊이와 폭을 공동으로 확장하여 효과적인 테스트 시간 스케일링을 가능하게 하는 Heavy Thinking 모드를 도입했습니다.

SWE-Pruner: 코딩 에이전트를 위한 자체 적응형 컨텍스트 프루닝
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Jan 23

ByYuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu

LLM 에이전트는 소프트웨어 개발 분야에서 뛰어난 능력을 입증했지만, 긴 상호작용 컨텍스트로 인해 높은 API 비용과 지연 시간이 발생하여 성능이 저하되는 문제가 있습니다. 이러한 문제를 해결하기 위해 LongLLMLingua와 같은 다양한 컨텍스트 압축 기법이 등장했지만, 대부분 PPL과 같은 고정된 지표에 의존하여 코드 이해의 작업 특수성을 간과합니다. 그 결과, 구문적 및 논리적 구조가 자주 손상되고 중요한 구현 세부 사항을 유지하지 못하는 경우가 많습니다. 본 논문에서는 코딩 에이전트에 특화된 자체 적응형 컨텍스트 프루닝 프레임워크인 SWE-Pruner를 제안합니다. 인간 프로그래머가 개발 및 디버깅 과정에서 소스 코드를 '선별적으로 훑어보는' 방식에서 영감을 얻어, SWE-Pruner는 긴 컨텍스트에 대해 작업 인식 적응형 프루닝을 수행합니다. 현재 작업이 주어지면 에이전트는 프루닝 대상을 안내하는 힌트로 명시적 목표(예: "오류 처리에 집중")를 수립합니다. 가벼운 신경망 스키머(0.6B 매개변수)가 목표를 고려하여 주변 컨텍스트에서 관련 코드 라인을 동적으로 선택하도록 훈련됩니다. 4개의 벤치마크와 여러 모델을 통한 평가는 SWE-Bench Verified와 같은 에이전트 작업에서 23-54%의 토큰 감소를, LongCodeQA와 같은 단일 턴 작업에서는 최대 14.84배의 압축률을 성능 저하 최소화와 함께 달성하는 등 SWE-Pruner의 다양한 시나리오에서의 효과성을 입증했습니다.

TwinBrainVLA: 비대칭형 트랜스포머 혼합 모델을 통한 임보디드 태스크용 범용 VLM의 잠재력 활용
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Jan 20

ByBin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen

표준 비전-언어-행동(VLA) 모델은 일반적으로 로봇 제어를 위해 단일 비전-언어 모델(VLM) 백본을 명시적으로 미세 조정합니다. 그러나 이러한 접근 방식은 높은 수준의 일반적인 의미론적 이해를 유지하는 것과 낮은 수준의 정밀한 감각운동 기술을 학습하는 사이에 중요한 긴장을 초래하며, 종종 모델의 개방형 세계 능력에 대한 '파국적 망각'을 야기합니다. 이러한 갈등을 해결하기 위해 우리는 보편적인 의미론적 이해를 유지하는 일반주의 VLM과 공동 로봇 제어를 위해 구체화된 체감각에 전념하는 전문가 VLM을 조율하는 새로운 아키텍처인 TwinBrainVLA를 소개합니다. TwinBrainVLA는 강력한 일반 시각 추론 능력을 유지하는 고정된 '좌뇌'와 구체화된 인지에 특화된 훈련 가능한 '우뇌'를 새로운 비대칭 혼합 변환기(AsyMoT) 메커니즘을 통해 시너지 효과를 발휘하도록 설계되었습니다. 이 설계를 통해 우뇌는 고정된 좌뇌로부터 의미론적 지식을 동적으로 질의하고 이를 체감각 상태와 융합하여 정확한 연속 제어를 생성하는 Flow-Matching Action Expert에 풍부한 조건 정보를 제공합니다. SimplerEnv 및 RoboCasa 벤치마크에서의 광범위한 실험을 통해 TwinBrainVLA가 최첨단 기준 모델 대비 우수한 조작 성능을 달성하면서 사전 훈련된 VLM의 포괄적인 시각 이해 능력을 명시적으로 보존함을 입증하였으며, 높은 수준의 의미론적 이해와 낮은 수준의 물리적 민첩성을 동시에 달성하는 범용 로봇 구축을 위한 유망한 방향을 제시합니다.

VisGym: 다중 모달 에이전트를 위한 다양하고 맞춤형이며 확장 가능한 환경
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Jan 23

ByZirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez

현대 비전-언어 모델(VLMs)은 다단계 시각적 상호작용, 특히 장기적인 관점에서 지각, 기억, 행동을 통합하는 방식에 대해 제대로 규명되지 못하고 있습니다. 본 연구에서는 VLM 평가 및 훈련을 위한 17개 환경으로 구성된 체육관인 VisGym을 소개합니다. 이 제품군은 기호 퍼즐, 실제 이미지 이해, 탐색 및 조작을 아우르며 난이도, 입력 표현, 계획 범위, 피드백에 대한 유연한 제어를 제공합니다. 또한 구조화된 데모를 생성하는 다단계 솔버를 제공하여 지도 미세 조정을 가능하게 합니다. 우리의 평가에 따르면 모든 최첨단 모델들이 상호작용 환경에서 어려움을 겪으며, 쉬운 구성(46.6%)과 어려운 구성(26.0%) 모두에서 낮은 성공률을 보였습니다. 실험을 통해 주목할 만한 한계점이 드러났습니다: 모델들은 긴 문맥을 효과적으로 활용하는 데 어려움을 겪으며, 제한된 기록 창보다 무제한 기록이 있을 때 성능이 더 나빠졌습니다. 또한 여러 텍스트 기반 기호 작업들은 시각적으로 표현되면 상당히 어려워지는 것으로 나타났습니다. 그러나 부분적으로 관찰 가능하거나 역학을 알 수 없는 환경에서의 명시적 목표 관찰, 텍스트 피드백, 탐색적 데모를 통한 지도 미세 조정은 일관된 성능 향상을 가져왔으며, 이는 다단계 시각적 의사 결정을 개선하기 위한 구체적인 실패 모드와 경로를 강조합니다. 코드, 데이터 및 모델은 https://visgym.github.io/에서 확인할 수 있습니다.

Memory-V2V: 메모리 기반 비디오 간 확산 모델 향상
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Jan 22

ByDohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong

최근의 기초적인 비디오-투-비디오 확산 모델들은 외관, 동작 또는 카메라 이동을 수정하여 사용자가 제공한 비디오 편집에서 인상적인 결과를 달성했습니다. 그러나 실제 세계의 비디오 편집은 사용자가 여러 차례의 상호작용을 통해 결과를 다듬는 반복적인 과정인 경우가 많습니다. 이러한 다중 회차 설정에서 기존 비디오 편집기는 순차적 편집 간의 교차 일관성을 유지하는 데 어려움을 겪습니다. 본 연구에서는 다중 회차 비디오 편집에서의 교차 일관성 문제를 최초로 다루며, 기존 비디오-투-비디오 모델에 명시적 메모리를 추가하는 간단하면서 효과적인 프레임워크인 Memory-V2V를 소개합니다. 이전에 편집된 비디오들의 외부 캐시가 주어지면, Memory-V2V는 정확한 검색 및 동적 토큰화 전략을 사용하여 현재 편집 단계를 이전 결과에 기반하도록 합니다. 중복성과 계산 오버헤드를 추가로 완화하기 위해, 우리는 DiT 백본 내에서 학습 가능한 토큰 압축기를 제안합니다. 이 압축기는 필수적인 시각적 단서를 보존하면서 중복된 조건 설정 토큰을 압축하여 전체적으로 30%의 속도 향상을 달성합니다. 우리는 Memory-V2V를 비디오 신시점 합성 및 텍스트 조건 장면 비디오 편집을 포함한 도전적인 과제에서 검증합니다. 광범위한 실험을 통해 Memory-V2V가 최소한의 계산 오버헤드로 훨씬 더 높은 교차 일관성을 가진 비디오를 생성하며, 동시에 최첨단 기준 모델들에 비해 과제별 성능을 유지하거나 오히려 향상시킴을 보여줍니다. 프로젝트 페이지: https://dohunlee1.github.io/MemoryV2V

Jet-RL: 통합 훈련 및 롤아웃 정밀도 흐름을 통한 온-폴리시 FP8 강화 학습 가능화
Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

Jan 20

ByHaocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu

강화학습(RL)은 대규모 언어 모델(LLM)의 복잡한 추론 능력 향상에 필수적입니다. 그러나 기존 RL 학습 파이프라인은 계산 효율성이 낮고 리소스 집약적이며, 롤아웃 단계가 전체 학습 시간의 70% 이상을 차지합니다. 양자화된 RL 학습, 특히 FP8 정밀도를 사용하는 방식은 이러한 병목 현상을 완화할 수 있는 유망한 접근법입니다. 일반적으로 채택되는 전략은 롤아웃 시에는 FP8 정밀도를 적용하고 학습 시에는 BF16 정밀도를 유지하는 것입니다. 본 연구에서는 FP8 RL 학습에 대한 최초의 포괄적인 연구를 제시하며, 널리 사용되는 BF16 학습 + FP8 롤아웃 전략이 장기 롤아웃 및 난이도 높은 작업에서 심각한 학습 불안정성과 치명적 정확도 붕괴를 겪는다는 것을 입증합니다. 우리의 분석에 따르면 이러한 실패는 접근법의 오프-폴리시 특성에서 비롯되며, 이는 학습과 추론 간에 상당한 수치적 불일치를 초래합니다. 이러한 관찰을 바탕으로 우리는 강력하고 안정적인 RL 최적화를 가능하게 하는 FP8 RL 학습 프레임워크인 Jet-RL을 제안합니다. 핵심 아이디어는 학습과 롤아웃 모두에 통합된 FP8 정밀도 흐름을 채택하여 수치적 불일치를 최소화하고 비효율적인 단계 간 보정의 필요성을 제거하는 것입니다. 광범위한 실험을 통해 Jet-RL의 효과를 검증했습니다. 우리의 방법은 BF16 학습 대비 롤아웃 단계에서 최대 33%, 학습 단계에서 최대 41%의 속도 향상과 16%의 종단 간 속도 향상을 달성하면서도 모든 설정에서 안정적인 수렴을 유지하고 미미한 정확도 저하만 발생시켰습니다.

추론 시간 검증 확장: 시험 시간 루브릭 기반 검증을 통한 자기 진화 딥 리서치 에이전트
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Jan 22

ByYuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu

최근 딥 리서치 에이전트(DRA) 분야의 발전은 자동화된 지식 발견과 문제 해결을 혁신하고 있습니다. 기존 연구 대부분이 사후 훈련을 통해 정책 역량을 강화하는 데 집중하는 가운데, 우리는 대안적 패러다임을 제안합니다: 정밀하게 설계된 루브릭에 따라 정책 모델의 출력을 반복적으로 검증함으로써 에이전트의 능력을 자가 진화시키는 것입니다. 이 접근법은 검증의 추론 시간 스케일링을 가능하게 하는데, 여기서 에이전트는 생성한 답변을 평가하여 반복적 피드백과 개선점을 도출함으로써 자기 개선을 수행합니다. 우리는 에이전트 실패를 5가지 주요 범주와 13개 하위 범주로 체계적으로 분류하는 자동 구축 DRA 실패 분류체계를 기반으로 루브릭을 도출했습니다. 우리는 루브릭 기반 결과 보상 검증기인 DeepVerifier를 제시하며, 이는 검증의 비대칭성을 활용하여 기본 에이전트-as-판단자 및 LLM 판단자 기준선을 메타 평가 F1 점수에서 12%~48% 능가합니다. 실용적인 자가 진화를 가능하게 하기 위해 DeepVerifier는 테스트 시간 추론 중 플러그 앤 플레이 모듈로 통합됩니다. 검증기는 상세한 루브릭 기반 피드백을 생성하며, 이는 추가 훈련 없이 응답을 개선하기 위해 반복적 부트스트래핑을 위해 에이전트로 다시 피드백됩니다. 이 테스트 시간 스케일링은 강력한 클로즈드 소스 LLM으로 구동될 때 GAIA와 XBench-DeepResearch의 도전적인 하위 집합에서 8%~11%의 정확도 향상을 제공합니다. 마지막으로 오픈소스 발전을 지원하기 위해 우리는 DRA 검증에 중점을 둔 4,646개의 고품질 에이전트 단계로 구성된 정제된 지도 미세 조정 데이터셋인 DeepVerifier-4K를 공개합니다. 이러한 예시들은 성찰과 자기 비판을 강조하여 오픈 모델이 강력한 검증 능력을 개발할 수 있도록 합니다.

무한 터미널: 터미널 에이전트를 위한 강화학습 환경 확장
Endless Terminals: Scaling RL Environments for Terminal Agents

Jan 23

ByKanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos

환경은 자기 개선 에이전트의 병목 현상이다. 기존 터미널 벤치마크는 훈련이 아닌 평가를 위해 구축되었으며, 강화 학습에는 데이터셋 이상의 확장 가능한 파이프라인이 필요하다. 우리는 인간 주석 없이 절차적으로 터미널 사용 작업을 생성하는 완전 자율 파이프라인인 Endless Terminals를 소개한다. 이 파이프라인은 다양한 작업 설명 생성, 컨테이너화된 환경 구축 및 검증, 완료 테스트 생성, 해결 가능성 필터링의 네 단계로 구성된다. 이를 통해 파일 작업, 로그 관리, 데이터 처리, 스크립팅, 데이터베이스 운영에 이르는 3255개 작업을 확보했다. 우리는 이진 에피소드 수준 보상과 검색, 다중 에이전트 조정, 전용 도구 없이 최소한의 상호작용 루프를 사용한 기본 PPO로 에이전트를 훈련시켰다. 이러한 단순함에도 불구하고 Endless Terminals로 훈련된 모델은 큰 향상을 보였다: 우리의 홀드아웃 개발 세트에서 Llama-3.2-3B는 4.0%에서 18.2%로, Qwen2.5-7B는 10.7%에서 53.3%로, Qwen3-8B-openthinker-sft는 42.6%에서 59.0%로 개선되었다. 이러한 개선 효과는 인간이 선별한 벤치마크로도 전이된다: Endless Terminals로 훈련된 모델은 TerminalBench 2.0에서 Llama-3.2-3B가 0.0%에서 2.2%로, Qwen2.5-7B가 2.2%에서 3.4%로, Qwen3-8B-openthinker-sft가 1.1%에서 6.7%로 향상되었으며, 각 경우 더 복잡한 에이전트 스캐폴드를 가진 모델을 포함한 대안적 접근법을 능가했다. 이러한 결과는 환경이 확장될 때 단순한 RL이 성공할 수 있음을 입증한다.

SALAD: 비디오 확산 트랜스포머를 위한 효율적인 선형 어텐션 튜닝을 통한 고희소성 어텐션 달성
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Jan 23

ByTongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang

확산 트랜스포머는 최근 비디오 생성 분야에서 뛰어난 성능을 입증했습니다. 그러나 긴 입력 시퀀스는 전체 어텐션의 이차 복잡도로 인해 높은 계산 지연을 초래합니다. 다양한 희소 어텐션 메커니즘이 제안되었는데, 훈련 없이 적용 가능한 희소 어텐션은 제한된 희소성으로 인해 미미한 가속 효과만 제공하는 반면, 훈련 기반 방법은 더 높은 희소성을 달성할 수 있지만 상당한 데이터와 계산 자원을 요구합니다. 본 연구에서는 SALAD를 제안하며, 희소 어텐션과 병렬로 경량의 선형 어텐션 분기를 도입합니다. 입력 의존형 게이팅 메커니즘을 통해 두 분기를 세밀하게 균형 잡음으로써, 우리의 방법은 전체 어텐션 기준과 유사한 생성 품질을 유지하면서 90%의 희소성과 1.72배의 추론 속도 향상을 달성합니다. 또한 미세 조정 과정은 배치 크기 8기준 단 2,000개의 비디오 샘플과 1,600회의 훈련 단계만으로도 매우 효율적으로 수행됩니다.

사슬을 벗으며 춤추기: 마음이론을 통한 학술 반론의 전략적 설득
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Jan 22

ByZhitao He, Zongwei Lyu, Yi R Fung

인공지능(AI)이 연구 워크플로우의 다양한 단계에 깊이 통합되고 놀라운 발전을 이루었음에도 불구하고, 학술 논문 재반박(rebuttal)은 여전히 중요하면서도 충분히 탐구되지 않은 과제로 남아 있습니다. 이는 재반박이 단순한 기술적 논쟁이 아니라 심각한 정보 비대칭 하에서 이루어지는 전략적 커뮤니케이션의 복잡한 과정이기 때문입니다. 그 결과, 기존 접근법들은 표면적인 언어적 특징을 모방하는 데 그쳐 효과적인 설득에 필요한 핵심 요소인 관점 수용(perspective-taking)을 놓치며 어려움을 겪고 있습니다. 본 논문에서는 학술 재반박을 마음 이론(Theory of Mind, ToM)에 기반을 둔 최초의 프레임워크인 RebuttalAgent를 소개합니다. 이 프레임워크는 검토자의 심적 상태를 모델링하고, 설득 전략을 수립하며, 전략에 기반한 응답을 생성하는 ToM-전략-응답(TSR) 파이프라인을 통해 ToM을 운영화합니다. 에이전트를 학습시키기 위해 우리는 새로운 비판 및 개선(critique-and-refine) 접근법을 통해 합성된 대규모 데이터셋인 RebuttalBench를 구축했습니다. 학습 과정은 에이전트에 ToM 기반 분석 및 전략 수립 능력을 부여하는 지도 미세 조정 단계로 시작되고, 확장 가능한 자기 개선을 위한 자기 보상 메커니즘을 활용하는 강화 학습 단계가 뒤따르는 두 단계로 구성됩니다. 신뢰할 수 있고 효율적인 자동 평가를 위해 우리는 추가로 Rebuttal-RM을 개발했습니다. 이는 10만 개 이상의 다중 출처 재반박 데이터 샘플로 학습된 전문 평가자로, 강력한 judge GPT-4.1을 능가하는 인간 선호도와의 채점 일관성을 달성합니다. 폭넓은 실험 결과, RebuttalAgent는 자동 평가 지표에서 기준 모델 대비 평균 18.3% 크게 우수한 성능을 보였을 뿐만 아니라, 자동 및 인간 평가 모두에서 고급 상용 모델들도 능가하는 것으로 나타났습니다. 면책 조항: 생성된 재반박 내용은 저자에게 영감을 제공하고 초안 작성에 도움을 주기 위한 참고용입니다. 저자 자신의 비판적 분석과 응답을 대체하기 위한 것이 아닙니다.

GameTalk: 전략적 대화를 위한 대규모 언어 모델 학습
GameTalk: Training LLMs for Strategic Conversation

Jan 22

ByVictor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

다중 에이전트 환경에서의 전략적 의사결정은 대규모 언어 모델(LLM)의 주요 과제로, 특히 장기간 대화를 통해 조율과 협상이 이루어져야 하는 상황에서 두드러집니다. 최근 연구에서 고립된 의사결정 과제에 LLM을 활용하는 방법이 탐구되었으나, 대화를 통한 장기 목표 최적화에는 상대적으로 적은 관심이 집중되었습니다. 본 연구에서는 다중 차례 상호작용을 통해 전략적 의사결정을 내리도록 LLM을 훈련시키는 프레임워크인 GameTalk을 소개합니다. 단일 차례 목표나 정적 행동 예측에 중점을 둔 기존 연구와 달리, 우리는 전체 대화에 걸쳐 글로벌 목표를 최적화하도록 LLM을 훈련시킵니다. 이를 위해 GRPO, DPO, STaR와 같은 미세 조정 방법을 적용하여 상호작용 전체에 의존하는 보상 신호를 통합하였습니다. 우리는 추론, 조율, 상대 모델링의 다양한 측면을 검증하도록 설계된 점점 더 복잡해지는 일련의 게임에서 이 접근법을 평가합니다. 결과에 따르면 GameTalk은 훈련되지 않은 모델을 크게 능가하며, 특히 보상 형성 하에서 그 성능이 두드러지고, DPO가 가장 꾸준한 성능 향상을 보여줍니다. 이러한 발견들은 대화형 미세 조정이 LLM이 상호작용 환경에서 추론, 협상, 행동할 수 있는 유망한 경로임을 입증합니다.

MeepleLM: 다양한 주관적 경험을 시뮬레이션하는 가상 플레이테스터
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Jan 12

ByZizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang

최근의 발전으로 인공대화모델의 보드게임에서의 역할이 플레이 에이전트에서 창의적 공동 설계자로 확장되었습니다. 그러나 중요한 공백이 남아있습니다: 현재 시스템은 발생적 사용자 경험에 기반한 건설적 비판을 제공할 능력이 부족합니다. 이 공백을 메우는 것은 인간-AI 협력을 조화시키기 위한 핵심 과제로, 설계자가 외부 시각을 통해 자신의 창작물을 개선할 수 있도록 돕는 동시에 모델이 편향되거나 예측 불가능한 결과에서 벗어나도록 안내하기 때문입니다. 보드게임에 대한 비판 자동화는 두 가지 어려움을 제시합니다: 명시적 엔진 없이 규칙과 게임플레이를 연결하는 잠재적 역학을 추론하는 것, 그리고 다양한 플레이어 그룹의 주관적 이질성을 모델링하는 것입니다. 이를 해결하기 위해 우리는 구조적으로 정제된 1,727개의 규칙서와 품질 점수 및 측면 인식 샘플링을 통해 선별된 15만 개의 리뷰로 구성된 데이터셋을 구축했습니다. 우리는 이 데이터에 역학-메커니즘-미학(MDA) 추론을 추가하여 서면 규칙과 플레이어 경험 간의 인과적 간극을 명시적으로 연결합니다. 더 나아가 플레이어 페르소나를 정제하고 MeepleLM을 소개합니다. 이는 특화된 모델로 다양한 플레이어 유형의 주관적 피드백을 정확하게 시뮬레이션하기 위해 페르소나 특정 추론 패턴을 내재화합니다. 실험 결과 MeepleLM은 커뮤니티 정렬 및 비판 품질에서 최신 상용 모델(GPT-5.1, Gemini3-Pro 등)을 크게 능가하며, 유용성 평가 사용자 연구에서 70%의 선호도를 달성했습니다. MeepleLM은 일반 상호작용 시스템을 위한 신뢰할 수 있는 가상 플레이테스터 역할을 하여, 관객 정렬 및 경험 인식 인간-AI 협력으로 나아가는 중대한 단계를 표방합니다.

ChartVerse: 신뢰할 수 있는 프로그램적 합성을 통한 차트 추론 확장
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Jan 20

ByZheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu

차트 추론은 비전 언어 모델(VLM)의 핵심 능력입니다. 그러나 고품질 학습 데이터의 부족으로 오픈소스 모델 개발이 심각하게 저해되고 있습니다. 기존 데이터셋은 이중적인 과제를 안고 있습니다: 합성 차트는 단순하고 반복적인 경향이 있는 반면, 연관된 질의응답(QA) 쌍은 환각(hallucination)이 발생하기 쉬우며 복잡한 작업에 필요한 추론 깊이가 부족합니다. 이러한 격차를 해소하기 위해 우리는 복잡한 차트와 신뢰할 수 있는 추론 데이터를 처음부터 합성하기 위한 확장 가능한 프레임워크인 ChartVerse를 제안합니다. (1) 단순 패턴의 병목 현상을 해결하기 위해, 우리는 먼저 차트 복잡성을 정량화하는 새로운 지표인 Rollout Posterior Entropy(RPE)를 소개합니다. RPE의 지도를 받아 우리는 실행 가능한 프로그램을 통해 다양하고 고복잡도의 차트를 자율적으로 합성하는 복잡성 인식 차트 코더를 개발합니다. (2) 추론의 엄밀성을 보장하기 위해, 우리는 진실 값에 기반한 역방향 QA 합성 방법을 개발합니다. 표준 생성 방식과 달리, 우리는 답변을 먼저 생성하는 패러다임을 채택합니다: 소스 코드에서 결정론적 답변을 직접 추출하고, 이러한 기준점에 조건을 두어 질문을 생성하며, 엄격한 일관성 검증을 적용합니다. 난이도와 추론 깊이를 더욱 높이기 위해, 우리는 모델 실패율을 기준으로 샘플을 필터링하고 고품질의 사고 연쇄(CoT) 추론 데이터를 정제합니다. 우리는 Qwen3-VL-30B-A3B-Thinking을 교사 모델로 사용하여 ChartVerse-SFT-600K와 ChartVerse-RL-40K 데이터셋을 구축했습니다. 실험 결과, ChartVerse-8B 모델은 최첨단 성능을 달성하며, 특히 자신의 교사 모델을 능가하고 더 강력한 Qwen3-VL-32B-Thinking 모델에 필적하는 성과를 보여줍니다.

DSGym: 데이터 사이언스 에이전트 평가 및 훈련을 위한 종합 프레임워크
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Jan 22

ByFan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

데이터 과학 에이전트는 데이터를 실행 가능한 분석과 발견으로 전환함으로써 발견과 통찰력 생성의 가속화를 약속합니다. 그러나 기존 데이터 과학 벤치마크는 단편적인 평가 인터페이스로 인해 벤치마크 간 비교가 어렵고, 제한된 작업 범위, 엄격한 데이터 기반의 부재 등의 한계를 지닙니다. 특히, 현재 벤치마크 과제의 상당 부분은 실제 데이터를 사용하지 않고도 해결될 수 있음을 보여줍니다. 이러한 한계를 해결하기 위해 우리는 독립 실행 환경에서 데이터 과학 에이전트를 평가하고 훈련시키기 위한 표준화된 프레임워크인 DSGym을 소개합니다. 정적 벤치마크와 달리 DSGym은 과제, 에이전트 스캐폴드 및 도구를 쉽게 추가할 수 있는 모듈식 아키텍처를 제공하여 이를 확장 가능한 실시간 테스트베드로 위치 짓습니다. 우리는 DSGym-Tasks를 정성적으로 큐레이팅하였는데, 이는 기존 벤치마크를 품질 및 단축 해결 가능성 필터링을 통해 표준화하고 개선한 종합 과제 모음입니다. 우리는 (1) 문헌에 기반한 전문가 파생 생물정보학 과제인 DSBio와 (2) 컴퓨터 비전, 분자 예측, 단일 세포 변이 등 다양한 영역을 아우르는 도전적인 예측 과제인 DSPredict를 통해 범위를 더욱 확장했습니다. 평가를 넘어 DSGym은 실행 검증된 데이터 합성 파이프라인을 통해 에이전트 훈련을 가능하게 합니다. 사례 연구로서, 우리는 2,000개의 예시로 구성된 훈련 세트를 구축하고 DSGym 내에서 40억 개의 매개변수를 가진 모델을 훈련시켜 표준화된 분석 벤치마크에서 GPT-4o을 능가하는 성능을 달성했습니다. 전반적으로 DSGym은 에이전트가 현실적인 과학적 맥락에서 데이터 분석을 계획하고, 구현하며, 검증할 수 있는지에 대한 엄격한 종단간 측정을 가능하게 합니다.

지식만으로는 부족하다: 지속적 적응을 위한 강화학습 기술 주입
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Jan 16

ByPingzhi Tang, Yiding Wang, Muhan Zhang

대규모 언어 모델(LLM)은 고정된 매개변수 기억으로 인해 새로운 정보를 직접 내재화하지 못하는 "지식 차단" 문제에 직면합니다. 새로운 모델 지식을 업데이트하는 데 일반적으로 사용되는 지도 미세 조정(SFT)은 사실적 내용을 업데이트하지만, 새로 통합된 정보를 질문 응답이나 의사 결정에 활용하는 모델의 능력을 안정적으로 향상시키지는 못하는 경우가 많습니다. 강화 학습(RL)은 추론 능력 습득에 필수적이지만, 높은 계산 비용으로 인해 효율적인 온라인 적응에는 실용적이지 않습니다. 우리는 실험적으로 SFT와 RL에 의해 유도된 매개변수 업데이트가 거로 직교한다는 것을 관찰했습니다. 이러한 관찰을 바탕으로, 효율적이고 효과적인 지식 적응을 위한 모듈식 기술 전달을 지원하는 프레임워크인 매개변수 기술 전달(PaST)을 제안합니다. 소스 도메인에서 도메인 독립적 기술 벡터를 추출함으로써, 새로운 데이터에 대해 경량 SFT를 수행한 대상 모델에 지식 조작 기술을 선형적으로 주입할 수 있습니다. 지식 통합 질문 응답(SQuAD, LooGLE) 및 에이전트 도구 사용 벡마크(ToolBench)에 대한 실험을 통해 우리 방법의 효과를 입증했습니다. SQuAD에서 PaST는 최신 자체 편집 SFT 기준선을 최대 9.9점까지 능가했습니다. PaST는 LooGLE의 장문 컨텍스트 질문 응답에서 8.0점의 절대 정확도 향상으로 확장되었으며, ToolBench의 제로샷 성공률을 평균 +10.3점 향상시켜 도구 범주 전반에 걸쳐 일관된 성과를 보여 기술 벡터의 강력한 확장성과 크로스 도메인 전이 가능성을 입증했습니다.

메젤렘 모델: 법률 도메인을 위해 처음부터 훈련되고 지속적 사전 훈련된 튀르키예 모델
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Jan 22

ByÖzgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş

본 논문은 도메인 적응 전략을 통해 터키 법률 도메인에 특화된 언어 모델을 개발하는 프레임워크인 Mecellem 모델을 제시한다. 우리의 기여는 다음과 같다: (1) 처음부터 사전 학습된 인코더 모델: 1127억 토큰 규모의 터키어 중심 코퍼스로 사전 학습된 ModernBERT 기반 양방향 인코더. 학습 전 과정에 걸쳐 하류 작업의 검색 성능을 평가하는 체크포인트 선정 전략을 도입하여, 사전 학습 손실이 최소값에 도달하기 전에 최적의 체크포인트가 검색 점수에서 최고 성능을 달성함을 확인했다. 우리의 인코더 모델은 터키어 검색 리더보드에서 상위 3위 안에 랭크되며, 더 작은 모델(1억 5500만 매개변수)이 더 큰 참조 모델(3억 700만-5억 6700만 매개변수)에 필적하는 성능을 보인다. 우리의 접근법은 SOTA(State-of-the-Art) 모델(embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%) 대비 92.36%의 생산 효율성을 달성하여, 더 적은 계산 자원을 요구함에도 불구하고 전체 4위를 기록했다. SOTA 모델이 다단계의 계산 집약적 학습 파이프라인에 의존하는 반면, 우리의 단일 단계 사전 학습과 효율적인 사후 학습 접근법은 비용 효율적인 대안을 제시한다; (2) 지속적 사전 학습(CPT)을 적용한 디코더 모델: Qwen3-1.7B 및 Qwen3-4B 모델을 통제된 커리큘럼 학습을 통해 터키 법률 도메인에 적응시킴. 최적의 표본 비율을 적용한 4단계 CPT를 통해 일반 언어 지식에서 특화된 법률 용어 및 장문 맥락 추론으로의 점진적 전환이 가능하다. 이 접근법은 터키어 법률 텍스트에서 36.2%의 퍼플렉서티 감소를 달성하여 도메인 적응의 효과를 입증한다.

VISTA-PATH: 계산 병리학에서 병리 이미지 분할 및 정량적 분석을 위한 상호작용형 파운데이션 모델
VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology

Jan 23

ByPeixian Liang, Songhao Li, Shunsuke Koga, Yutong Li, Zahra Alipour, Yucheng Tang, Daguang Xu, Zhi Huang

조직병리 이미지의 정확한 의미론적 분할은 정량적 조직 분석과 후속 임상 모델링에 중요합니다. 최근의 분할 기초 모델들은 대규모 사전 학습을 통해 일반화 성능을 향상시켰지만, 분할을 정적인 시각 예측 작업으로 간주하기 때문에 병리학 분야와의 정합성이 부족한 실정입니다. 본 연구에서는 이질적 구조 해결, 전문가 피드백 통합, 임상 해석에 직접적으로 의미 있는 픽셀 수준 분할 생산이 가능한 대화형 클래스 인식 병리 분할 기초 모델 VISTA-PATH를 제시합니다. VISTA-PATH는 시각적 문맥, 의미론적 조직 설명, 선택적 전문가 공간 프롬프트를 결합하여 조건 설정함으로써 이질적 병리 이미지 전반에 걸친 정밀한 다중 클래스 분할을 가능하게 합니다. 이러한 패러다임을 지원하기 위해 9개 장기와 93개 조직 등급을 아우르는 160만 개 이상의 이미지-마스크-텍스트 삼중항으로 구성된 대규모 병리 분할 코퍼스 VISTA-PATH Data를 구축했습니다. 광범위한 홀드아웃 및 외부 벤치마크에서 VISTA-PATH는 기존 분할 기초 모델들을 지속적으로 능가했습니다. 특히 VISTA-PATH는 희소 패치 수준 경계상자 주석 피드백을 전체 슬라이드 분할로 전파함으로써 동적 인간 참여형 정제를 지원합니다. 마지막으로, VISTA-PATH가 생성하는 고정밀 클래스 인식 분할이 계산 병리학에 적합한 모델임을 입증합니다. 제안된 종양 상호작용 점수(TIS)를 통한 조직 미세환경 분석 개선 효과를 확인했으며, 해당 점수는 환자 생존율과 유의미한 연관성을 보였습니다. 종합적으로, 이러한 결과들은 VISTA-PATH가 병리 이미지 분할을 정적 예측에서 디지털 병리를 위한 대화형·임상 기반 표현으로 격상시키는 기초 모델임을 입증합니다. 소스 코드와 데모는 https://github.com/zhihuanglab/VISTA-PATH에서 확인할 수 있습니다.

코드 생성을 위한 대규모 언어 모델 프롬프팅 가이드라인: 실증적 특성 분석
Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Jan 19

ByAlessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta

대규모 언어 모델(LLM)은 현재 주로 코드 생성을 비롯한 다양한 소프트웨어 공학 작업에 광범위하게 활용되고 있습니다. 선행 연구에서는 적절한 프롬프트 엔지니어링이 개발자의 코드 생성 프롬프트 개선에 어떻게 도움을 줄 수 있는지 보여주었습니다. 그러나 지금까지 코드 생성을 위한 적절한 프롬프트 작성을 개발자에게 안내하는 구체적인 가이드라인은 존재하지 않았습니다. 본 연구에서는 개발 특화 프롬프트 최적화 가이드라인을 도출하고 평가합니다. 먼저, 테스트 주도 반복 접근법을 사용하여 코드 생성 프롬프트를 자동으로 개선하고, 이 과정의 결과를 분석하여 테스트 통과로 이어지는 프롬프트 개선 요소를 식별합니다. 이러한 요소를 바탕으로 입출력 및 사후조건 명세화, 예제 제공, 다양한 세부사항 명시, 모호함 해소 등과 관련된 10가지 프롬프트 개선 가이드라인을 도출합니다. 50명의 실무자를 대상으로 평가를 진행하여, 도출된 프롬프트 개선 패턴의 활용도와 인지된 유용성을 조사하였으며, 이는 가이드라인 인지 전 실제 활용도와 항상 일치하지는 않았습니다. 연구 결과는 실무자와 교육자뿐만 아니라 더 나은 LLM 지원 소프트웨어 개발 도구를 만들고자 하는 이들에게도 시사점을 제공합니다.

# LongCat-Flash-Thinking-2601 기술 보고서
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

175