HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

30 papers found

루프 언어 모델을 통한 잠재적 추론의 확장
Scaling Latent Reasoning via Looped Language Models

Oct 29

ByRui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian

223

현대 대규모 언어 모델(LLM)은 주로 사고 연쇄(CoT)와 같은 명시적 텍스트 생성을 통해 "사고"하도록 훈련됩니다. 이는 추론을 사후 훈련으로 미루고 사전 훈련 데이터를 충분히 활용하지 못하는 방식입니다. 우리는 재귀적인 우로보로스에서 이름을 딴 Ouro를 발표 및 오픈소스로 공개합니다. Ouro는 사전 훈련된 순환 언어 모델(LoopLM) 패밀리로, (i) 잠재 공간에서의 반복적 계산, (ii) 학습된 깊이 할당을 위한 엔트로피 정규화 목적 함수, (iii) 7.7T 토큰 규모의 확장을 통해 사전 훈련 단계에 추론 능력을 구축합니다. Ouro 1.4B 및 2.6B 모델은 다양한 벤치마크에서 최대 12B 규모의 최첨단(SOTA) LLM 결과에 맞먹는 우수한 성능을 보입니다. 통제 실험을 통해 이러한 장점이 증가된 지식 용량이 아닌, 우수한 지식 조작 능력에서 비롯됨을 보여줍니다. 또한 LoopLM이 명시적 CoT보다 최종 출력과 더 잘 일치하는 추론 흔적을 생성함을 보여줍니다. 우리의 결과가 추론 시대의 새로운 확장 방향으로서 LoopLM의 잠재력을 보여주기를 바랍니다. 우리의 모델은 다음에서 확인할 수 있습니다: http://ouro-llm.github.io.

JanusCoder: 코드 인텔리전스를 위한 기초 시각-프로그래밍 인터페이스 구축
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

Oct 27

ByQiushi Sun, Jingyang Gong, Yang Liu, Qiaosheng Chen, Lei Li, Kai Chen, Qipeng Guo, Ben Kao, Fei Yuan

신경망 코드 인텔리전스의 범위는 텍스트 기반 소스 코드를 넘어 프로그램이 생성하는 풍부한 시각적 출력을 포괄하며 빠르게 확장되고 있습니다. 이러한 시각적 차원은 유연한 콘텐츠 생성 및 시각화 자료의 정밀한 프로그램 주도 편집과 같은 고급 애플리케이션에 매우 중요합니다. 그러나 합성 및 품질 평가의 어려움에서 비롯된 고품질 멀티모달 코드 데이터의 부족으로 인해 발전이 저해되어 왔습니다. 이러한 과제를 해결하기 위해 우리는 데이터와 모델링 관점에서 기여합니다. 먼저, 데이터 모달리티 간의 상호 시너지 효과를 활용하여 표준 차트부터 복잡한 대화형 웹 UI 및 코드 기반 애니메이션에 이르는 대규모 고품질 코퍼스를 효율적으로 생성하는 완전한 합성 툴킷을 소개합니다. 이 툴킷을 활용하여 우리는 현재까지 가장 큰 멀티모달 코드 코퍼스인 JanusCode-800K를 구축했습니다. 이를 통해 텍스트 지시, 시각적 입력 또는 둘의 조합으로부터 코드를 생성하기 위한 시각-프로그래밍 인터페이스를 구축하는 JanusCoder 및 JanusCoderV 모델을 훈련시킵니다. 우리의 통합 모델은 분리된 작업에 대해 특화된 모델을 구축하는 기존 접근 방식과는 차별화됩니다. 텍스트 중심 및 비전 중심 코딩 작업에 대한 광범위한 실험을 통해 JanusCoder 시리즈의 우수한 성능을 입증하였으며, 7B에서 14B 규모의 우리 모델들은 상용 모델의 성능에 근접하거나 이를 능가합니다. 더 나아가, 광범위한 분석을 통해 프로그래밍 논리와 시각적 표현을 조화시키는 데 대한 핵심 통찰력을 제공합니다. 우리의 코드와 체크포인트는 https://github.com/InternLM/JanusCoder에서 이용할 수 있습니다.

비디오 씽커: 강화 학습을 통한 '비디오와 함께 생각하기'의 활성화
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

Oct 27

ByShijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng

최근 이미지 추론 방법, 특히 "이미지로 사고하기(Thinking with Images)"의 발전은 멀티모달 대규모 언어 모델(MLLM)에서 놀라운 성과를 보여주었으나, 이러한 동적 추론 패러다임은 아직 비디오 추론 작업으로 확장되지 못했습니다. 본 논문에서는 MLLM이 추론 과정 전반에 걸쳐 자체 내재된 "그라운딩(grounding)" 및 "캡셔닝(captioning)" 능력을 자율적으로 활용하여 추론 단서를 생성함으로써 비디오로 사고할 수 있도록 하는 Video-Thinker를 제안합니다. 이러한 능력을 활성화하기 위해 우리는 사고 연쇄(chain-of-thought) 추론 과정 내 자율적 도구 사용을 특징으로 하는 정제된 데이터셋인 Video-Thinker-10K를 구축했습니다. 우리의 훈련 전략은 지도 미세 조정(SFT)을 통해 추론 형식을 학습하는 것으로 시작하며, 그룹 상대 정책 최적화(GRPO)를 통해 이러한 추론 능력을 강화합니다. 이러한 접근을 통해 Video-Thinker는 MLLM이 외부 도구를 구축하고 호출할 필요 없이 비디오 추론을 위한 그라운딩 및 캡셔닝 작업을 자율적으로 수행할 수 있게 합니다. 폭넓은 실험을 통해 Video-Thinker가 도메인 내 작업과 Video-Holmes, CG-Bench-Reasoning, VRBench를 포함한 까다로운 도메인 외 비디오 추론 벤치마크 모두에서 상당한 성능 향상을 달성함을 입증했습니다. 우리의 Video-Thinker-7B는 Video-R1과 같은 기존 베이스라인을 크게 능가하며 70억 파라미터 규모 MLLM 중 최첨단 성능을 확립했습니다.

확산 모델의 원리
The Principles of Diffusion Models

Oct 24

ByChieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon

본 논문은 확산 모델의 발전을 이끈 핵심 원리를 제시하며, 그 기원을 추적하고 다양한 수학적 아이디어에서 비롯된 여러 형식화가 어떻게 등장했는지를 보여줍니다. 확산 모델링은 데이터를 점진적으로 잡음으로 훼손하는 순방향 과정을 정의함으로써 시작되며, 이는 연속적인 중간 분포들을 통해 데이터 분포를 단순한 사전 분포와 연결합니다. 목표는 동일한 중간 상태들을 복원하면서 잡음을 다시 데이터로 변환하는 역방향 과정을 학습하는 것입니다. 우리는 세 가지 상호 보완적인 관점을 설명합니다. 변분 오토인코더에서 영감을 받은 변분 관점은 확산을 단계별로 잡음을 제거하는 학습으로 봅니다. 에너지 기반 모델링에 뿌리를 둔 점수 기반 관점은 변화하는 데이터 분포의 기울기를 학습하여 표본을 더 높은 가능성 영역으로 이동시키는 방향을 제시합니다. 정규화 흐름과 관련된 흐름 기반 관점은 학습된 속도장 하에서 잡음에서 데이터로 표본을 이동시키는 매끄러운 경로를 따라가는 것을 생성으로 간주합니다. 이러한 관점들은 공통된 골격을 공유합니다: 바로 시간에 종속적인 속도장으로, 그 흐름이 단순한 사전 분포를 데이터로 운반합니다. 따라서 샘플링은 잡음을 데이터로 변화시키는 연속 궤적을 따라 미분 방정식을 푸는 것에 해당합니다. 이러한 기초 위에서, 본 논문은 제어 가능한 생성을 위한 guidance, 효율적인 수치 해법, 그리고 임의의 시간 간 직접 매핑을 학습하는 확산 기반 흐름 맵 모델에 대해 논의합니다. 이는 기본적인 딥러닝 지식을 가진 독자들에게 확산 모델에 대한 개념적이고 수학적으로 근거 있는 이해를 제공합니다.

도구 데카슬론: 다양하고 현실적이며 장기적인 과제 수행을 위한 언어 에이전트 벤치마킹
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

Oct 29

ByJunlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He

실제 언어 에이전트는 다양한 앱을 넘나드는 복잡한 다단계 워크플로를 처리할 수 있어야 합니다. 예를 들어, 에이전트는 캘린더 및 파일 시스템과 협업하여 이메일을 관리하거나, 운영 매뉴얼에 따라 프로덕션 데이터베이스를 모니터링하여 이상을 탐지하고 보고서를 생성할 수 있습니다. 그러나 기존 언어 에이전트 벤치마크는 주로 좁은 도메인이나 단순화된 작업에 집중하여 에이전트의 실제 성능을 평가하는 데 필요한 다양성, 현실성, 장기적 복잡성이 부족한 경우가 많습니다. 이러한 격차를 해결하기 위해 우리는 다양한 앱과 도구, 현실적인 환경 설정, 신뢰할 수 있는 실행 기반 평가를 제공하는 언어 에이전트 벤치마크인 Tool Decathlon(약칭 Toolathlon)을 소개합니다. Toolathlon은 Google Calendar, Notion과 같은 일상적인 플랫폼부터 WooCommerce, Kubernetes, BigQuery와 같은 전문 플랫폼에 이르기까지 32개의 소프트웨어 애플리케이션과 604개의 도구를 포괄합니다. 대부분의 도구는 우리가 수정하거나 직접 구현한 고품질의 Model Context Protocol(MCP) 서버 세트를 기반으로 합니다. 기능적 현실성은 주로 보장하지만 환경 상태 다양성이 제한된 기존 연구와 달리, 우리는 수십 명의 학생이 등록된 Canvas 강의 코스나 실제 금융 스프레드시트와 같이 실제 소프트웨어에서 가져온 현실적인 초기 환경 상태를 제공합니다. 이 벤치마크에는 총 108개의 수동으로 수집되거나 정제된 작업이 포함되어 있으며, 완료하기 위해 평균 약 20턴에 걸쳐 여러 앱과 상호작용이 필요합니다. 각 작업은 전용 평가 스크립트를 통해 엄격하게 검증 가능합니다. 최첨단(SOTA) 모델에 대한 포괄적 평가는 그들의 상당한 단점을 부각시킵니다: 최고 성능 모델인 Claude-4.5-Sonnet은 평균 20.2회의 도구 호출 턴으로 38.6%의 성공률에만 도달하는 반면, 최고의 오픈 웨이트 모델인 DeepSeek-V3.2-Exp는 20.1%에 도달합니다. 우리는 Toolathlon이 실제 세계의 장기적 작업 실행을 위한 더 능력 있는 언어 에이전트의 개발을 주도할 것으로 기대합니다.

프로세스 마이닝을 활용한 추론 인식 GRPO
Reasoning-Aware GRPO using Process Mining

Oct 29

ByTaekhyun Park, Yongjae Lee, Hyerim Bae

강화학습(RL) 기반 사후 훈련은 대규모 추론 모델(LRM)에서 다단계 추론을 가능하게 하는 데 핵심적인 역할을 해왔으나, 현재의 보상 체계는 일반적으로 결과 중심으로 설계되어 있습니다. 본 논문에서는 추론 과정을 고려한 Group Relative Policy Optimization(GRPO) 기법인 PM4GRPO를 제안합니다. 이는 기존의 정답/형식 보상에 추론 절차에 대한 신호를 추가합니다. 이를 위해 프로세스 마이닝 기법을 활용하여 정책 모델의 추론이 사전 훈련된 교사 모델과 얼마나 일치하는지를 측정하는 스칼라 적합도 보상을 계산합니다. 5개 벤치마크에서의 실험 결과는 PM4GRPO가 GRPO 기반 사후 훈련을 위한 기존 방법론을 크게 능가함을 보여줍니다. 이러한 결과는 추론 인식 GRPO에 프로세스 마이닝을 활용하는 것이 정책 모델의 추론 능력을 효과적으로 향상시킨다는 점을 입증합니다.

Ming-Flash-Omni: 멀티모달 인식 및 생성을 위한 희소 통합 아키텍처
Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

Oct 28

ByInclusion AI, Bowen Ma, Cheng Zou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianing Li, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jianping Jiang, Jun Peng, Kaixiang Ji, Kaimeng Ren, Libin Wang, Lixiang Ru, Longhua Tan, Lan Wang, Mochen Bai, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Tianqi Li, Tinghao Liu, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaolong Wang, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He

본 논문에서는 Ling-Flash-2.0의 더 희소한 MoE(Mixture-of-Experts) 변형을 기반으로 총 1,000억 개의 파라미터(토큰당 활성화 파라미터는 61억 개에 불과)를 갖춘 Ming-Omni의 업그레이드 버전인 Ming-Flash-Omni를 제안한다. 이 아키텍처는 높은 효율의 확장성(계산 효율을 극적으로 개선하면서 모델 용량을 크게 확장)을 가능하게 하며, 비전, 음성, 언어를 아우르는 더 강력한 통합 멀티모달 인텔리전스를 구현하여 인공 일반 지능(AGI)으로 나아가는 핵심 단계를 나타낸다. 이전 버전과 비교하여 업그레이드 버전은 멀티모달 이해 및 생성 전반에 걸쳐 상당한 향상을 보인다. 컨텍스트 인식 자동 음성 인식(ASR)에서는 최첨단 성능을, 방언 인식 ASR에서는 매우 경쟁력 있는 결과를 달성하며 음성 인식 능력을 크게 발전시켰다. 이미지 생성 분야에서는 Ming-Flash-Omni가 높은 정밀도의 텍스트 렌더링을 도입하고 이미지 편집 시 장면 일관성과 identity 보존 측면에서 현저한 향상을 보여준다. 더 나아가 Ming-Flash-Omni는 생성적 분할 능력을 도입하여 강력한 독립형 분할 성능을 달성할 뿐만 아니라 이미지 생성의 공간적 제어를 향상시키고 편집 일관성을 개선한다. 특히 Ming-Flash-Omni는 텍스트-이미지 생성과 생성적 분할에서 최첨단 결과를 달성하고, 단일 통합 아키텍처 내에서 모든 12개 컨텍스트 인식 ASR 벤치마크에서 새로운 기록을 수립하였다.

VFXMaster: 인컨텍스트 러닝을 통한 동적 시각 효과 생성의 개방
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

Oct 29

ByBaolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia

시각 효과(VFX)는 디지털 미디어의 표현력에 있어 핵심적이지만, 그 생성은 생성형 AI에게 여전히 큰 과제로 남아 있습니다. 기존 방법은 대개 효과마다 하나의 LoRA를 활용하는 패러다임에 의존하는데, 이는 자원 소모가 크고 본질적으로 보지 못한 효과로의 일반화가 불가능하여 확장성과 창의성을 제한합니다. 이러한 문제를 해결하기 위해 우리는 참조 기반의 통합 VFX 비디오 생성 프레임워크인 VFXMaster를 최초로 소개합니다. 이는 효과 생성을 컨텍스트 내 학습 작업으로 재정의하여 참조 비디오로부터 다양한 동적 효과를 대상 콘텐츠에 재현할 수 있게 합니다. 또한 보지 못한 효과 범주에 대해 뛰어난 일반화 능력을 보여줍니다. 구체적으로, 우리는 모델에 참조 예시를 제공하는 컨텍스트 내 조건 설정 전략을 설계했습니다. 컨텍스트 내 어텐션 마스크는 핵심 효과 속성을 정밀하게 분리하고 주입하도록 설계되어, 단일 통합 모델이 정보 누출 없이 효과 모방을 숙달할 수 있게 합니다. 더불어, 사용자가 제공한 단일 비디오로부터 까다로운 보지 못한 효과에 대한 일반화 능력을 신속하게 향상시키는 효율적인 원샷 효과 적응 메커니즘을 제안합니다. 광범위한 실험을 통해 우리의 방법이 다양한 범주의 효과 정보를 효과적으로 모방하고 도메인 외 효과에 대해 탁월한 일반화 성능을 나타냄을 입증했습니다. 향후 연구를 촉진하기 위해 코드, 모델, 그리고 포괄적인 데이터셋을 커뮤니티에 공개할 예정입니다.

RegionE: 효율적인 이미지 편집을 위한 적응형 영역 인식 생성
RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

Oct 29

ByPengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen

최근 지시어 기반 이미지 편집(IIE)이 폭넓은 관심을 받고 있다. 실제로 IIE는 이미지의 특정 영역만 수정하는 반면, 나머지 영역은 대부분 변경되지 않는 경우가 많다. 이 두 영역은 생성 난이도와 계산적 중복성 측면에서 현저한 차이를 보이지만, 기존 IIE 모델들은 이러한 차이를 고려하지 않고 전체 이미지에 균일한 생성 과정을 적용한다. 이에 우리는 별도의 학습 없이 IIE 작업의 속도를 향상시키는 적응형 지역 인식 생성 프레임워크인 RegionE를 제안한다. 구체적으로 RegionE 프레임워크는 세 가지 주요 구성 요소로 이루어진다: 1) 적응형 지역 분할: 수정되지 않은 영역의 궤적이 직선적이라는 점에 착안하여, 여러 단계의 노이즈 제거 예측을 단일 단계로 추론할 수 있음을 확인했다. 따라서 초기 노이즈 제거 단계에서 최종 예측 결과와 참조 이미지 간의 차이를 기반으로 이미지를 편집 영역과 비편집 영역으로 분할한다. 2) 지역 인식 생성: 영역을 구분한 후, 비편집 영역에 대해서는 다단계 노이즈 제거 과정을 단일 단계 예측으로 대체한다. 반면 편집 영역의 궤적은 곡선형이기 때문에 지역적 반복적 노이즈 제거가 필요하다. 지역적 반복 생성의 효율성과 품질을 향상시키기 위해 전역 정보를 포함하면서 계산 비용을 절감하는 Region-Instruction KV Cache를 제안한다. 3) 적응형 속도 감쇠 캐시: 편집 영역에서 인접한 시간 단계 간에 강한 속도 유사성이 관찰됨에 따라, 지역적 노이즈 제거 과정을 가속화하기 위한 적응형 속도 감쇠 캐시를 추가로 제안한다. 우리는 RegionE를 Step1X-Edit, FLUX.1 Kontext, Qwen-Image-Edit을 포함한 최첨단 IIE 기본 모델에 적용했다. RegionE는 각각 2.57, 2.41, 2.06의 가속화 계수를 달성했다. GPT-4o를 통한 평가 결과, 의미론적 및 지각적 정확도가 잘 유지됨을 확인하였다.

ODesign: 생체분자 상호작용 설계를 위한 세계 모델
ODesign: A World Model for Biomolecular Interaction Design

Oct 25

ByOdin Zhang, Xujun Zhang, Haitao Lin, Cheng Tan, Qinghan Wang, Yuanle Mo, Qiantai Feng, Gang Du, Yuntao Yu, Zichang Jin, Ziyi You, Peicong Lin, Yijie Zhang, Yuyang Tao, Shicheng Chen, Jack Xiaoyu Chen, Chenqing Hua, Weibo Zhao, Runze Ma, Yunpeng Xia, Kejun Ying, Jun Li, Yundian Zeng, Lijun Lang, Peichen Pan, Hanqun Cao, Zihao Song, Bo Qiang, Jiaqi Wang, Pengfei Ji, Lei Bai, Jian Zhang, Chang-yu Hsieh, Pheng Ann Heng, Siqi Sun, Tingjun Hou, Shuangjia Zheng

생체분자 상호작용은 거의 모든 생물학적 과정의 기초를 이루며, 이들의 합리적 설계는 새로운 생물학적 기능을 프로그래밍하는 데 핵심적입니다. 생성적 AI 모델은 분자 설계를 위한 강력한 도구로 부상했으나, 대부분은 개별 분자 유형에 특화되어 있고 상호작용 세부 사항에 대한 정밀한 제어가 부족합니다. 본 연구에서는 전원자(全原子) 생성 월드 모델인 ODesign을 제안하며, 이는 전범위(all-to-all) 생체분자 상호작용 설계를 위한 것입니다. ODesign을 통해 연구자들은 임의의 표적에 대한 에피토프를 지정하고 다양한 등급의 결합 파트너를 정밀하게 제어하며 생성할 수 있습니다. 단백질 모달리티에서 엔티티, 토큰, 원자 수준 벤치마크 전반에 걸쳐 ODesign은 모달리티 특화 기준 모델들보다 우수한 제어성과 성능을 보여줍니다. 단백질을 넘어서 ODesign은 핵산 및 저분자 설계로 일반화되어, 기존에는 접근이 불가능했던 단백질 결합 RNA/DNA 및 RNA/DNA 결합 리간드와 같은 상호작용 유형을 가능하게 합니다. 다중 모달 생체분자 상호작용을 단일 생성 프레임워크 내로 통합함으로써, ODesign은 프로그램 가능한 설계가 가능한 범용 분자 월드 모델로 나아가고 있습니다. ODesign은 https://odesign.lglab.ac.cn에서 이용 가능합니다.

ChronoPlay: 게임 RAG 벤치마크에서 이중 역동성과 진정성을 모델링하기 위한 프레임워크
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

Oct 21

ByLiyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong

검색 증대 생성(RAG) 시스템은 온라인 게임과 같은 동적 분야에서 점점 더 중요해지고 있지만, 전용 벤치마크의 부재로 이 분야의 표준화된 평가가 어려웠습니다. 핵심적인 어려움은 이중 동적성(Dual Dynamics), 즉 게임 콘텐츠 업데이트와 플레이어 커뮤니티의 변화하는 관심 사이의 지속적인 상호작용에 있습니다. 더 나아가, 이러한 벤치마크의 자동화 필요성은 생성된 질문이 현실적이도록 보장하기 위해 플레이어 중심의 진정성(Authenticity)이라는 중요한 요구 사항을 도입합니다. 이러한 통합된 과제를 해결하기 위해 우리는 게임 RAG 벤치마크의 자동적이고 지속적인 생성을 위한 새로운 프레임워크인 ChronoPlay를 소개합니다. ChronoPlay는 두 형태의 변화를 추적하기 위한 이중 동적 업데이트 메커니즘과, 공식 소스와 플레이어 커뮤니티로부터 정보를 수집하여 사실적 정확성과 실제적인 질의 패턴을 모두 보장하는 이중 소스 합성 엔진을 활용합니다. 우리는 이 프레임워크를 세 가지 독특한 게임에 적용하여 게임 분야 최초의 동적 RAG 벤치마크를 구축했으며, 이러한 복잡하고 현실적인 조건 하에서의 모델 성능에 대한 새로운 통찰을 제공합니다. 코드는 https://github.com/hly1998/ChronoPlay 에서 이용 가능합니다.

ReForm: 전향적 유계 시퀀스 최적화를 통한 반성적 자동 형식화
ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Oct 28

ByGuoxin Chen, Jing Wu, Xinjie Chen, Wayne Xin Zhao, Ruihua Song, Chengxi Li, Kai Fan, Dayiheng Liu, Minpeng Liao

자연어 수학을 기계 검증 가능한 형식 명제로 변환하는 자동형식화는 자연어로 기술된 수학 문제를 형식적 수학 추론을 통해 해결하는 데 핵심적입니다. 대규모 언어 모델은 구문적으로 정확한 형식 명제를 생성할 수 있으나, 원본 문제의 의미론적 의도를 보존하지 못하는 경우가 많습니다. 이러한 한계는 LLM 접근법이 자동형식화를 단순한 번역 작업으로 취급하여 인간 전문가가 당연히 수행하는 자기 반성과 반복적 개선 메커니즘이 부재하기 때문에 발생합니다. 이러한 문제를 해결하기 위해 우리는 의미 일관성 평가를 자동형식화 과정에 긴밀하게 통합하는 반성적 자동형식화 방법인 ReForm을 제안합니다. 이를 통해 모델이 형식 명제를 반복적으로 생성하고, 생성된 명제의 의미론적 충실도를 평가하며, 식별된 오류를 점진적 개선을 통해 자가 수정할 수 있습니다. 이러한 반성적 모델을 효과적으로 훈련시키기 위해 우리는 Prospective Bounded Sequence Optimization(PBSO)을 도입했습니다. PBSO는 시퀀스의 서로 다른 위치에 서로 다른 보상을 적용하여 모델이 정확한 자동형식화와 올바른 의미론적 검증 능력을 모두 발전시키도록 하여, 반성의 목적을 훼손할 수 있는 피상적인 비판을 방지합니다. 4개의 자동형식화 벤치마크에 대한 포괄적인 실험 결과, ReForm이 가장 강력한 기준 모델 대비 평균 17.2% 포인트 향상된 성능을 달성했음을 보여줍니다. 평가 신뢰성을 더욱 확보하기 위해 우리는 859개의 전문가 주석 항목으로 구성된 ConsistencyCheck 벤치마크를 도입했습니다. 이 벤치마크는 LLM을 평가자로 검증할 뿐만 아니라, 자동형식화가 본질적으로 어려운 작업임을 드러내며, 심지어 인간 전문가조차 최대 38.5%의 경우에서 의미론적 오류를 생성함을 보여줍니다.

대규모 모델 시대의 다중모달 공간 추론: 연구 동향 및 벤치마크 종합 분석
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

Oct 29

ByXu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu

인간은 시각과 청각과 같은 다중 모달 관찰을 통해 공간을 이해할 수 있는 공간 추론 능력을 지니고 있습니다. 대규모 다중 모달 추론 모델은 지각과 추론을 학습함으로써 이러한 능력을 확장하며, 다양한 공간 과제에서 유망한 성능을 보여주고 있습니다. 그러나 이러한 모델에 대한 체계적인 검토와 공개적으로 이용 가능한 벤치마크는 여전히 제한적입니다. 본 설문 연구에서는 대규모 모델을 활용한 다중 모달 공간 추론 과제에 대한 포괄적인 검토를 제공하며, 다중 모달 대규모 언어 모델(MLLM)의 최근 발전을 분류하고 평가를 위한 공개 벤치마크를 소개합니다. 먼저 일반적인 공간 추론을 개괄하고, 사후 학습 기술, 설명 가능성, 아키텍처에 중점을 둡니다. 고전적인 2D 과제를 넘어, 공간 관계 추론, 장면 및 레이아웃 이해, 그리고 3D 공간에서의 시각 질의응답 및 그라운딩을 검토합니다. 또한 시각-언어 항법 및 행동 모델을 포함한 구현형 AI의 발전도 살펴봅니다. 더불어, 새로운 센서를 통한 새로운 형태의 공간 이해에 기여하는 오디오 및 에고센트릭 비디오와 같은 새로운 모달리티도 고려합니다. 우리는 이 설문 연구가 다중 모달 공간 추론이라는 성장하는 분야에 견고한 기초를 마련하고 통찰력을 제공한다고 믿습니다. 본 설문 연구의 최신 정보와 공개 벤치마크의 코드 및 구현은 https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning에서 확인할 수 있습니다.

효율적인 테스트 타임 계산 확장을 위한 병렬 루프 트랜스포머
Parallel Loop Transformer for Efficient Test-Time Computation Scaling

Oct 28

ByBohong Wu, Mengzhao Chen, Xiang Luo, Shen Yan, Qifan Yu, Fan Xia, Tianqi Zhang, Hongrui Zhan, Zheng Zhong, Xun Zhou, Siyuan Qiao, Xingyan Bin

대규모 언어 모델(LLM)은 강력하지만 실제 추론 환경에서 사용하기에는 너무 느리고 비용이 많이 드는 경우가 많습니다. 루프 트랜스포머는 여러 계산 단계(즉, "루프")에 동일한 가중치를 재사용하여 매개변수를 절약합니다. 그러나 이 방식에는 큰 결함이 있습니다. 루프가 순차적으로 실행되기 때문에 추가되는 루프마다 추론 지연 시간과 메모리 요구량이 증가합니다. 이로 인해 빠른 응용 프로그램에는 실용적이지 않습니다. 이 문제를 해결하기 위해 우리는 병렬 루프 트랜스포머(PLT)를 제안합니다. PLT는 깊은 루프 모델의 성능 이점을 유지하면서도 표준 비루프 모델의 낮은 지연 시간을 제공하는 새로운 아키텍처입니다. PLT는 두 가지 핵심 기술을 사용합니다. 첫째, 루프 간 병렬 처리(CLP)는 서로 다른 토큰에 대한 서로 다른 루프를 단일 패스 내에서 동시에 계산하여 순차적 의존성을 제거합니다. 둘째, 메모리 비용 증가를 방지하기 위해 효율적 표현 향상 전략을 사용합니다. 이 방법은 첫 번째 루프의 메모리(KV 캐시)를 다른 모든 루프와 공유합니다. 그런 다음 게이트 슬라이딩 윈도우 어텐션(G-SWA)을 사용하여 이 공유된 전역 정보와 지역 정보를 결합하여 높은 정확도를 유지합니다. 우리의 실험 결과, PLT는 기존 루프 모델의 높은 정확도를 달성하면서도 표준 트랜스포머 대비 거의 추가 지연 시간이나 메모리 비용이 없음을 보여줍니다.

Gaperon: 후추 뿌린 영어-프랑스어 생성형 언어 모델 제품군
Gaperon: A Peppered English-French Generative Language Model Suite

Oct 29

ByNathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah

우리는 대규모 모델 훈련의 투명성과 재현성을 발전시키기 위해 설계된 프랑스어-영어-코딩 언어 모델의 완전 오픈형 제품군인 Gaperon을 공개합니다. Gaperon 패밀리에는 2-4조 토큰으로 훈련된 15억, 80억, 240억 매개변수 모델이 포함되며, 훈련 파이프라인의 모든 요소와 함께 공개됩니다: 신경망 기반 품질 분류기로 필터링된 프랑스어 및 영어 데이터셋, 효율적인 데이터 정제 및 훈련 프레임워크, 수백 개의 중간 체크포인트 등이 그것입니다. 이 작업을 통해 우리는 데이터 필터링과 오염이 벤치마크 및 생성 성능을 형성하는 데 어떻게 상호작용하는지 연구합니다. 언어적 품질을 위한 필터링이 텍스트 유창성과 일관성을 향상시키지만 평균 이하의 벤치마크 결과를 내며, 후기 의도적 오염(테스트 세트를 포함하는 데이터 혼합물로 훈련을 지속하는 것)이 생성 품질을 합리적으로 저해하는 선에서 경쟁력 있는 점수를 회복한다는 사실을 발견했습니다. 우리는 일반적인 신경망 필터링이 어떻게 의도치 않게 벤치마크 유출을 증폭시킬 수 있는지 논의합니다. 추가 연구를 지원하기 위해 사전 훈련 중 무해한 데이터 포이즈닝을 도입하여 안전성 연구를 위한 현실적인 테스트베드를 제공합니다. 모든 모델, 데이터셋, 코드, 체크포인트를 공개함으로써 Gaperon은 다국어 언어 모델 개발에서 데이터 정제, 평가, 안전성, 개방성 간의 상충 관계를 탐구하기 위한 재현 가능한 기반을 마련합니다.

벤치마크 설계 자동화
Automating Benchmark Design

Oct 28

ByAmanda Dsouza, Harit Vishwakarma, Zhengyang Qi, Justin Bauer, Derek Pham, Thomas Walshe, Armin Parchami, Frederic Sala, Paroma Varma

대규모 언어 모델(LLM)과 LLM 기반 에이전트의 급속한 발전과 광범위한 보급은 이들을 평가하는 우리의 능력을 앞지르고 있습니다. 모델 능력을 평가하는 주요 도구인 수작업으로 제작된 정적 벤치마크는 빠르게 포화 상태에 이릅니다. 이와 대조적으로, 동적 벤치마크는 평가 대상 모델과 함께 진화하지만 생성 및 지속적인 업데이트 비용이 많이 듭니다. 이러한 과제를 해결하기 위해 우리는 환경 설계 원칙을 활용하여 동적 벤치마크 설계 과정을 자동화하는 프레임워크인 BeTaL(Benchmark Tuning with an LLM-in-the-loop)을 개발했습니다. BeTaL은 기본 벤치마크 템플릿의 핵심 설계 선택 사항을 매개변수화하고, LLM을 사용하여 결과적인 매개변수 공간을 추론하여 비용 효율적인 방식으로 난이도와 현실성 같은 목표 속성을 달성하는 방식으로 작동합니다. 우리는 이 접근법이 원하는 난이도를 가진 벤치마크를 생성하는 능력을 통해 검증했습니다. BeTaL을 사용하여 우리는 두 가지 새로운 벤치마크를 생성하고 인기 있는 에이전트 벤치마크인 tau-bench를 확장했습니다. 이 세 가지 작업과 여러 목표 난이도에 대한 광범위한 평가 결과, BeTaL이 기준선 대비 2-4배 향상된 평균 편차 5.3%에서 13.2% 범위로 원하는 난이도에 훨씬 더 가까운 벤치마크를 생성하는 것으로 나타났습니다.

FAPO: 효율적이고 신뢰할 수 있는 추론을 위한 결함 인식 정책 최적화
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

Oct 26

ByYuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 유망한 패러다임으로 부상하고 있다. 이 접근법에서 모델은 추론 경로를 탐색하고 정답을 포함한 롤아웃을 정책 최적화를 위한 긍정적 신호로 활용한다. 그러나 이러한 롤아웃에는 답안 추측이나 도약 추론과 같은 결함이 있는 패턴이 포함될 수 있다. 이러한 결함 긍정 롤아웃은 완전히 정확한 롤아웃과 동일하게 보상되므로, 정책 모델이 신뢰할 수 없는 추론 패턴을 내면화하는 결과를 초래한다. 본 연구에서는 먼저 강화 학습에서 나타나는 결함 긍정 롤아웃에 대한 체계적인 연구를 수행하였으며, 이러한 롤아웃이 최적화 초기 단계에서는 빠른 능력 향상을 가능하게 하지만 후기에는 신뢰할 수 없는 패턴을 강화함으로써 추론 능력을 제한한다는 사실을 발견했다. 이러한 통찰을 바탕으로 우리는 결함 인식 정책 최적화(FAPO)를 제안한다. FAPO는 결함 긍정 롤아웃에 매개변수 불필요한 보상 패널티를 적용하여, 워밍업 단계에서는 유용한 지름길로 활용하여 안정적인 초기 성과를 확보하면서도 후기 정제 단계에서는 점차 신뢰할 수 있는 추론으로 최적화를 전환하도록 한다. 결함 긍정 롤아웃을 정확하고 포괄적으로 감지하기 위해, 우리는 추론 오류를 정밀하게 위치 특정하는 프로세스 수준 보상을 제공하는 생성적 보상 모델(GenRM)을 도입했다. 실험 결과, FAPO가 토큰 예산을 증가시키지 않으면서 결과 정확성, 프로세스 신뢰성, 훈련 안정성을 개선하여 다양한 영역에서 효과적임을 확인하였다.

PairUni: 통합 멀티모달 언어 모델을 위한 Pairwise 학습
PairUni: Pairwise Training for Unified Multimodal Language Models

Oct 29

ByJiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang

통합 시각-언어 모델(UVLM)은 단일 아키텍처 내에서 이해와 생성을 모두 수행해야 하지만, 이러한 작업들은 이질적인 데이터와 지도 정보에 의존하기 때문에 강화 학습(RL) 과정에서 두 작업의 균형을 맞추기가 어렵습니다. 본 연구에서는 데이터를 이해-생성(UG) 쌍으로 재구성하고 이에 맞춰 최적화를 정렬하는 통합 프레임워크인 PairUni를 제안합니다. 먼저 GPT-4를 활용하여 단일 작업 데이터를 증강시키며, 이해 샘플에 대해서는 캡션을 생성하고 생성 샘플에 대해서는 질문-응답(QA) 쌍을 생성하여 동일한 인스턴스에서 정렬된 쌍을 구성합니다. 추가적으로 각 생성 샘플에 대해 의미적으로 유사한 이해 예제를 검색하여 검색된 쌍을 형성함으로써 서로 다르지만 관련된 데이터 포인트들을 연결합니다. 이러한 쌍 구조는 교차 작업 간 의미적 대응 관계를 드러내고 일관된 정책 학습을 지원합니다. 이 구조를 활용하기 위해 그룹 상대 정책 최적화를 기반으로 한 쌍 인식 변형인 Pair-GPRO를 제안합니다. 이는 각 쌍에 유사도 점수를 할당하여 이점(advantage)을 조절함으로써 잘 정렬된 예제로부터의 학습을 강화하고 작업 간 간섭을 줄입니다. 우리는 RL 미세 조정을 위해 PairUG라는 16K개의 고품질 UG 쌍 데이터셋을 구축했으며, 강력한 Janus-Pro UVLM에서 PairUni를 평가했습니다. 우리의 접근 방식은 다양한 UVLM에서 균형 잡힌 성능 향상을 달성하며, 강력한 UVLM RL 기준선들을 능가합니다. 코드: https://github.com/Haochen-Wang409/PairUni

MASPRM: 다중 에이전트 시스템 프로세스 보상 모델
MASPRM: Multi-Agent System Process Reward Model

Oct 28

ByMilad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong

다중 에이전트 시스템(MAS)의 실제 적용에서는 강력한 테스트 시점 성능이 요구되며, 이는 추론 시점 탐색을 안내하고 품질 향상을 위해 계산 자원을 선택적으로 투입하는 방법론의 필요성을 부각시킵니다. 본 논문에서는 다중 에이전트 시스템 프로세스 보상 모델(MASPRM)을 제안합니다. MASPRM은 부분적인 에이전트 간 상호작용 기록에 대해 행위 및 에이전트별 가치를 부여하며, 추론 시점 제어기 역할을 수행합니다. MASPRM은 단계별 인간 주해 없이도 다중 에이전트 몬테카를로 트리 탐색(MCTS) 롤아웃으로부터 학습되며, 최종 보상을 지역 대상에 전파하는 방식으로 훈련됩니다. 추론 시점에는 MASPRM이 단계별 빔 서치와 MCTS를 안내하여 유망한 분기에 계산을 집중하고 조기에 가지치기를 수행합니다. GSM8K와 MATH 데이터셋에서 최종 답변에 적용된 결과 보상 모델(ORM)과 결합된 MASPRM 기반 디코딩은 단일 직통 MAS 처리 방식 대비 정확일치(EM) 점수를 각각 +30.7점, +22.9점 향상시켰습니다. GSM8K에서 훈련된 MASPRM은 재훈련 없이 MATH 데이터셋으로 제로샷 전이되어 동일 예산 기준 8.4 EM 점수의 향상을 달성했습니다. MASPRM은 에이전트별 진행 상황을 추정하는 플러그인 방식의 가치 모델로서 검증기 스타일 디코더를 보완하며, 더욱 신뢰할 수 있고 계산 자원을 고려한 다중 에이전트 추론을 가능하게 합니다. 코드: https://github.com/milad1378yz/MASPRM

가상 임상 환경에서 진단 에이전트의 진화
Evolving Diagnostic Agents in a Virtual Clinical Environment

Oct 28

ByPengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie

본 논문에서는 대규모 언어 모델(LLM)을 강화 학습 기반 진단 에이전트로 훈련시키는 프레임워크를 제시하며, 이를 통해 다중 회기 진단 과정 관리, 상황에 맞는 검사 선택, 최종 진단 결정 능력을 갖추도록 합니다. 정적 사례 요약 데이터로 지시 튜닝된 모델과 달리, 우리의 방법은 상호작용적 탐색과 결과 기반 피드백을 통해 진단 전략을 습득합니다. 본 연구의 기여점은 다음과 같습니다: (i) 전자의무기록으로 훈련된 진단 세계 모델 DiagGym을 제시하여, 환자 병력과 권장 검사를 조건으로 검사 결과를 생성함으로써 현실적인 진단 훈련 및 평가를 위한 가상 임상 환경을 제공합니다; (ii) 정보 수확과 진단 정확도를 함께 최적화하는 진단 정책을 학습하기 위해 DiagAgent를 종단간 다중 회기 강화 학습으로 훈련합니다; (iii) 의사가 검증한 검사 권장안이 포함된 750개 사례와, 진단 과정에 대한 973개의 의사 작성 평가 기준으로 주석 처리된 99개 사례로 구성된 진단 벤치마크 DiagBench를 도입합니다; (iv) 다양한 진단 환경에서 우수한 성능을 입증합니다. DiagAgent는 DeepSeek-v3 및 GPT-4o를 포함한 10개의 최첨단 LLM과 두 개의 프롬프트 엔지니어링 에이전트를 크게 능가합니다. 단일 회기 설정에서 DiagAgent는 9.34% 더 높은 진단 정확도와 44.03% 향상된 검사 권장 적중률을 달성합니다. 종단간 설정에서는 진단 정확도가 15.12% 증가하고 검사 권장 F1 점수가 23.09% 향상됩니다. 평가 기준 기반 평가에서는 차선위 모델인 Claude-sonnet-4보다 가중치 평가 기준 점수에서 7.1% 앞섭니다. 이러한 결과는 상호작용적 임상 환경에서 정책을 학습함으로써 수동적 훈련만으로는 달성할 수 없는 동적이고 임상적으로 의미 있는 진단 관리 능력을 부여받음을 시사합니다.

운전 세계 모델을 인식 과제의 합성 데이터 생성기로 재고찰하기
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Oct 22

ByKai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang

최근 주행 세계 모델의 발전으로 고품질 RGB 비디오 또는 멀티모달 비디오의 제어 가능한 생성이 가능해졌습니다. 기존 방법론은 주로 생성 품질과 제어 가능성과 관련된 평가 지표에 중점을 둡니다. 그러나 자율 주행 성능에 매우 중요한 하위 인식 작업의 평가는 종종 간과되고 있습니다. 기존 방법론은 일반적으로 합성 데이터로 사전 학습한 후 실제 데이터로 미세 조정하는 훈련 전략을 사용하여 기준 방법(실제 데이터만 사용) 대비 두 배의 에포크가 소요됩니다. 기준 방법의 에포크를 두 배로 늘리면 합성 데이터의 이점은 무시할 수 있을 정도로 줄어듭니다. 합성 데이터의 이점을 철저히 입증하기 위해 우리는 하위 인식 작업 향상을 위해 설계된 새로운 합성 데이터 생성 프레임워크인 Dream4Drive를 소개합니다. Dream4Drive는 먼저 입력 비디오를 여러 3D 인식 안내 맵으로 분해한 후, 이러한 안내 맵에 3D 자산을 렌더링합니다. 마지막으로, 주행 세계 모델을 미세 조정하여 편집된 다중 뷰의 실제 같은 비디오를 생성하며, 이는 하위 인식 모델 훈련에 사용될 수 있습니다. Dream4Drive는 대규모 다중 뷰 코너 케이스 생성에 전례 없는 유연성을 제공하여 자율 주행의 코너 케이스 인식 성능을 크게 향상시킵니다. 향후 연구를 촉진하기 위해 우리는 주행 시나리오의 일반적인 범주를 포괄하고 다양한 3D 인식 비디오 편집을 가능하게 하는 DriveObj3D라는 대규모 3D 자산 데이터셋도 공개합니다. 포괄적인 실험을 통해 Dream4Drive가 다양한 훈련 에포크 하에서 하위 인식 모델의 성능을 효과적으로 향상시킬 수 있음을 입증합니다.

추론 서비스의 실체를 밝히다: 추론 언어 모델 서빙에 관한 실증적 연구
Reasoning Language Model Inference Serving Unveiled: An Empirical Study

Oct 21

ByQi Li, Junpan Wu, Xiang Liu, Yuxin Wang, Zeyu Li, Zhenheng Tang, Yuhan Chen, Shaohuai Shi, Xiaowen Chu

추론 대규모 언어 모델(RLLM)은 수학, 코딩과 같은 복잡한 추론 과제 해결에 있어 일반 LLM 대비 경쟁력이 입증되었습니다. 그러나 RLLM의 서비스 성능과 동작은 아직 충분히 연구되지 않아 실제 환경에서의 RLLM 배포와 활용을 저해할 수 있습니다. 이러한 격차를 해소하기 위해 본 논문에서는 RLLM 서비스에 대한 포괄적인 연구를 수행합니다. 먼저 RLLM과 기존 LLM의 서비스 성능을 비교한 예비 연구를 통해 다음과 같은 몇 가지 뚜렷한 서비스 동작 차이를 확인했습니다: (1) 상당한 메모리 사용량 및 변동성, (2) 지연 요청, (3) 적응형 실행 시간, (4) 도메인 선호도. 이후 기존 추론 최적화 기술이 RLLM에 효과적인지 추가 조사하였으며, 주요 결론은 모델 양자화 방법과 스펙츌레이티브 디코딩이 RLLM 정확도를 크게 저하시키지 않으면서 서비스 시스템 효율을 개선할 수 있지만, 프리픽스 캐싱과 KV 캐시 양자화는 소규모 RLLM의 정확도나 서비스 성능을 오히려 저하시킬 수 있다는 것입니다. 마지막으로 감마 분포로 모델링한 실제 워크로드 하에서 평가를 수행하여 연구 결과를 검증했습니다. 다양한 데이터셋에 대한 실제 워크로드 평가의 경험적 결과는 RLLM 서빙에 관한 주요 발견과 일치합니다. 본 연구가 RLLM 추론 서비스 발전을 위한 통찰력을 연구 커뮤니티와 산업계에 제공하기를 바랍니다.

SeeingEye: 에이전트 기반 정보 흐름이 텍스트 전용 LLM의 다중 모달 추론 능력을 해제하다
SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

Oct 29

ByWeijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You

텍스트 전용 대규모 언어 모델(LLM)인 DeepSeek-R1과 같은 최신 모델은 놀라운 추론 능력을 보여줍니다. 그러나 이러한 모델은 다중 모드 작업으로 확장될 때 취약하거나 완전히 무능력한 상태로 남아 있습니다. 기존 접근법은 대체로 단일 형태의 캡션에 의존하는데, 이는 다양성이 부족하고 다양한 유형의 시각 질의응답(VQA) 벤치마크에 적응하지 못하는 경우가 많습니다. 결과적으로, 미세한 시각 정보를 전달할 수 있는 원칙적이고 효율적인 채널을 제공하지 못합니다. 우리는 에이전트 기반의 소형 VLM 번역기를 통해 텍스트 전용 LLM에서 다중 모드 추론을 가능하게 하는 모듈식 프레임워크인 Seeing Eye를 소개합니다. 이 번역기는 인지 에이전트 역할을 하며, OCR 및 크롭과 같은 특수 도구를 호출하고 질문에 맞춰 다중 모드 입력을 구조화된 중간 표현(SIR)으로 반복적으로 정제할 수 있습니다. 이러한 SIR은 추론 에이전트 역할을 하는 텍스트 전용 LLM으로 전달됩니다. 중요한 것은 번역기와 추론기가 다중 라운드 피드백과 상호 작용을 통해 표적 시각 세부 정보를 추출하고 더 확신 있는 답변을 생성할 수 있다는 점입니다. MMMU 및 MIA-Bench를 포함한 지식 집약적 VQA 벤치마크에서의 실험은 Seeing Eye가 추론 비용을 줄일 뿐만 아니라 훨씬 더 큰 단일(end-to-end) VLM을 능가함을 보여줍니다. 예를 들어, 3B 매개변수 비전 번역기와 8B 매개변수 언어 추론기를 결합한 인스턴스는 도전적인 지식 기반 질문에서 단일 32B VLM보다 성능이 뛰어납니다. 우리의 결과는 에이전트 정보 흐름을 통해 인지와 추론을 분리하는 것이 확장 가능하고 플러그 앤 플레이 방식의 다중 모드 추론 경로를 제공하여 강력한 텍스트 전용 LLM이 자체 추론 능력을 완전히 활용할 수 있게 한다는 점을 강조합니다. 코드는 다음에서 이용 가능합니다: https://github.com/ulab-uiuc/SeeingEye

바샤벤치 V1: 인도 언어 분야 4분할에 대한 포괄적 벤치마크
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

Oct 29

ByVijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan

대규모 언어 모델(LLM)의 급속한 발전으로 도메인 및 문화 특화 평가의 필요성이 더욱 부각되고 있습니다. 기존 벤치마크는 대부분 영어 중심이며 도메인에 구애받지 않아 인도 중심 맥락에 적용하기에는 한계가 있습니다. 이러한 격차를 해소하기 위해 우리는 중요한 인도 지식 시스템에 초점을 맞춘 최초의 도메인 특화·다중 작업·이중 언어 벤치마크인 BhashaBench V1을 소개합니다. BhashaBench V1은 정부 및 도메인 특화 시험에서 가져온 신뢰할 수 있는 자료를 바탕으로 총 74,166개의 정교하게 구성된 질문-답변 쌍(영어 52,494개, 힌디어 21,672개)을 포함합니다. 이는 농업, 법률, 금융, 아유르베다라는 4가지 주요 도메인에 걸쳐 있으며, 90개 이상의 하위 도메인과 500개 이상의 주제를 다루어 세분화된 평가를 가능하게 합니다. 29개 이상의 LLM을 평가한 결과, 특히 저자원 도메인에서 도메인 및 언어별 성능 격차가 크게 나타났습니다. 예를 들어, GPT-4o는 법률 도메인에서 76.49%의 전체 정확도를 보인 반면 아유르베다 도메인에서는 59.74%에 그쳤습니다. 모든 도메인에서 모델들은 힌디어 콘텐츠보다 영어 콘텐츠에서 지속적으로 더 나은 성능을 보였습니다. 하위 도메인 수준 분석 결과, 사이버 법률, 국제 금융 등의 분야는 상대적으로 성능이 높은 반면, 판차카르마, 종자 과학, 인권 등의 분야는 현저히 취약한 것으로 나타났습니다. BhashaBench V1은 인도의 다양한 지식 도메인에 걸쳐 대규모 언어 모델을 평가하기 위한 포괄적인 데이터셋을 제공합니다. 이를 통해 모델의 도메인 특화 지식과 이중 언어 이해 능력을 통합하는 능력을 평가할 수 있습니다. 모든 코드, 벤치마크 및 리소스는 공개 연구를 지원하기 위해 공개되어 있습니다.

책임감 있는 AI의 신뢰할 수 있는 지표 모색
The Quest for Reliable Metrics of Responsible AI

Oct 29

ByTheresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Christina Lioma

인공지능(AI) 및 과학 분야 인공지능(AIS)을 포함한 AI의 개발은 책임 있는 AI 원칙에 따라 수행되어야 합니다. 책임 있는 AI의 발전은 종종 평가 지표를 통해 수치화되지만, 이러한 지표 자체의 강건성과 신뢰성을 평가하는 연구는 상대적으로 부족한 실정입니다. 본 논문은 AI 응용 프로그램의 한 유형인 추천 시스템의 공정성 메트릭 강건성을 검토한 선행 연구를 재조명하고, 그 핵심 시사점을 종합하여 책임 있는 AI의 신뢰할 수 있는 메트릭 개발을 위한 비종합적 가이드라인을 제시합니다. 우리의 가이드라인은 AIS를 포함한 광범위한 AI 응용 분야에 적용 가능합니다.

포티투: 동료 순위 기반 합의를 통한 군집 추론
Fortytwo: Swarm Inference with Peer-Ranked Consensus

Oct 27

ByVladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov

중앙 집중형 AI가 컴퓨팅 성능의 한계와 대규모 학습 실행의 한계 수익에 직면하면서 수요를 충족하려면 용량과 성능 모두에서 수평적으로 확장 가능한 추론 계층이 필요합니다. 본 논문에서는 군집 지능 원리와 분산형 쌍별 순위 합의를 활용하여 AI 추론에서 우수한 성능을 달성하는 새로운 프로토콜인 Fortytwo를 제시합니다. 우리의 접근 방식은 이기종 모델 간의 동료 순위 기반 평판 가중 합의를 통해 최고 품질의 응답을 도출하는 '군집 추론'을 통해 AI 노드 간의 협업을 재구성합니다. 맞춤형 Bradley-Terry 방식의 집계 모델을 사용한 쌍별 순위를 통해 군집 추론이 다수결 투표를 크게 능가함을 입증했으며, 동일한 모델 세트를 사용한 GPQA Diamond에서 다수결 투표의 68.69% 대비 85.90%를 달성했습니다. 이는 +17.21% 포인트(약 +25.1% 상대 개선)의 향상입니다. 본 프로토콜은 온체인 평판을 통합하여 노드의 영향력이 시간이 지남에 따라 입증된 정확도에 따라 적응하도록 하여, 저품질 또는 악의적 참여자를 걸러내는 실력주의 합의를 구현합니다. Fortytwo는 사이빌 공격에 대응하기 위해 합의에 '능력 증명'을 적용합니다. 노드는 순위 결정 라운드에 참여하기 위해 캘리브레이션/테스트 요청을 성공적으로 완료하고 평판을 스테이킹해야 하여, 개방성을 유지하면서도 다중 신원 공격을 경제적으로 매력적이지 않게 만듭니다. GPQA Diamond, LiveCodeBench, AIME를 포함한 6가지 까다로운 벤치마크에서의 평가 결과, 우리의 접근 방식이 더 높은 정확도와 적대적/노이즈가 포함된 자유 형식 프롬프트에 대한 강력한 복원력(예: 단일 모델 기준선의 6.20% 대비 프롬프트 인젝션 성능 저하가 0.12%에 불과함)을 보여주면서도 실제 배포 가능성을 유지함을 확인했습니다. 이러한 결과들은 집단 지성을 통해 신뢰성이나 보안을 희생하지 않고 고품질 추론에 대한 접근을 민주화하는 탈중앙화 AI 시스템의 기반을 마련합니다.

생성적 뷰 스티칭
Generative View Stitching

Oct 28

ByChonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann

자기회귀 비디오 확산 모델은 안정적이고 이전 내용과 일관된 장기 롤아웃이 가능하지만, 미래의 조건화 정보를 활용하여 현재 생성 과정을 안내할 수는 없습니다. 미리 정의된 카메라 궤적을 사용하는 카메라 안내 비디오 생성에서 이러한 한계는 생성된 장면과의 충돌을 초래하며, 이후 자기회귀는 빠르게 붕괴됩니다. 이를 해결하기 위해 우리는 생성적 뷰 스티칭(GVS)을 제안합니다. GVS는 전체 시퀀스를 병렬로 샘플링하여 생성된 장면이 미리 정의된 카메라 궤적의 모든 부분에 충실하도록 합니다. 우리의 주요 기여는 로봇 계획을 위한 기존 확산 스티칭 연구를 비디오 생성으로 확장한 샘플링 알고리즘입니다. 이러한 스티칭 방법은 일반적으로 특별히 훈련된 모델을 필요로 하지만, GVS는 우리가 이미 스티칭에 필요한 여건을 제공함을 보여준 널리 사용되는 시퀀스 확산 프레임워크인 Diffusion Forcing으로 훈련된 모든 상용 비디오 모델과 호환됩니다. 그런 다음 우리는 과거와 미래 모두를 조건화하여 스티칭의 시간적 일관성을 향상시키고, 장거리 일관성을 제공하기 위해 제안하는 루프 종료 메커니즘을 가능하게 하는 Omni Guidance 기술을 소개합니다. 전체적으로 GVS는 안정적이고 충돌이 없으며 프레임 간 일관성이 있고, Oscar Reutersvärd의 불가능한 계단을 포함한 다양한 미리 정의된 카메라 경로에 대해 루프를 종료하는 카메라 안내 비디오 생성을 달성합니다. 결과는 https://andrewsonga.github.io/gvs에서 비디오로 확인하는 것이 가장 좋습니다.

GraphNet: 텐서 컴파일러 연구를 위한 대규모 계산 그래프 데이터셋
GraphNet: A Large-Scale Computational Graph Dataset for Tensor Compiler Research

Oct 28

ByXinqi Li, Yiqun Liu, Shan Jiang, Enrong Zheng, Huaijin Zheng, Wenhao Dai, Haodong Deng, Dianhai Yu, Yanjun Ma

우리는 6가지 주요 작업 범주에 걸쳐 여러 딥러닝 프레임워크의 실제 연산 그래프 2,700개와 풍부한 메타데이터로 구성된 GraphNet 데이터셋을 소개한다. 이러한 샘플에 대한 텐서 컴파일러 성능 평가를 위해 Speedup Score S(t) 벤치마크 지표를 제안하며, 이는 조정 가능한 허용 오차 수준에서의 런타임 속도 향상과 실행 정확도를 종합적으로 고려하여 일반적인 최적화 능력을 신뢰성 있게 측정한다. 더 나아가 S(t)를 오류 정보를 통합한 Error-aware Speedup Score ES(t)로 확장하여 컴파일러 개발자가 핵심 성능 병목 현상을 식별할 수 있도록 지원한다. 본 보고서에서는 GraphNet의 실용성을 입증하기 위해 컴퓨터 비전(CV) 및 자연어 처리(NLP) 샘플에 대해 PaddlePaddle의 CINN과 PyTorch의 TorchInductor 기본 텐서 컴파일러를 벤치마킹하였다. 그래프 추출 및 컴파일러 평가 도구를 포함한 전체 구축 파이프라인은 https://github.com/PaddlePaddle/GraphNet에서 확인할 수 있다.

테라마인드: 장기 심리 상담을 위한 전략적 및 적응형 에이전트
TheraMind: A Strategic and Adaptive Agent for Longitudinal Psychological Counseling

Oct 29

ByHe Hu, Yucheng Zhou, Chiyuan Ma, Qianning Wang, Zheng Zhang, Fei Ma, Laizhong Cui, Qi Tian

심리 상담에서 대규모 언어 모델(LLM)의 활용이 점차 주목받고 있다. 그러나 기존 접근법들은 감정 이해, 적응적 전략, 장기 기억을 통한 다회차 치료 방법 적용이 부족하여 실제 임상 현장과는 거리가 먼 실정이다. 이러한 핵심적 한계를 해결하기 위해 우리는 종단적 심리 상담을 위한 전략적이고 적응적인 에이전트인 TheraMind를 소개한다. TheraMind의 핵심은 복잡한 상담 과정을 전술적 대화 관리를 위한 세션 내 루프와 전략적 치료 계획을 위한 세션 간 루프로 분리하는 새로운 이중 루프 구조이다. 세션 내 루프는 환자의 정서 상태를 인지하여 동적으로 반응 전략을 선택함과 동시에 세션 간 기억을 활용하여 연속성을 보장한다. 특히 세션 간 루프는 각 상담 세션 후 적용된 치료의 효과성을 평가하고 이후 상호작용을 위한 방법을 조정함으로써 에이전트에 장기적 적응 능력을 부여한다. 우리는 실제 임상 사례를 기반으로 한 고충실도 시뮬레이션 환경에서 접근법을 검증하였다. 포괄적 평가 결과 TheraMind가 특히 Coherence, Flexibility, Therapeutic Attunement와 같은 다회차 메트릭에서 다른 방법들을 능가하며, 전략적·적응적·종단적 치료 행동을 모방하는 이중 루프 설계의 효과성을 입증하였다. 코드는 https://0mwwm0.github.io/TheraMind/에서 공개되어 있다.

MC-SJD: 자기회귀 시각 생성 가속화를 위한 최대 결합 추론적 야코비 디코딩
MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

Oct 28

ByJunhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park

자동회귀(AR) 모델링이 최근 시각 생성 분야의 새로운 패러다임으로 부상했지만, 단일 샘플 생성에 수천 단계가 필요한 토큰별 생성의 느린 추론 속도로 인해 실제 적용은 심각한 제약을 받고 있습니다. 이러한 문제를 해결하기 위해 우리는 최근 도입된 Speculative Jacobi Decoding(SJD)을 확장하여 AR 시각 생성을 가속화하는 학습 불필요, 무손실 병렬 디코딩 프레임워크인 MC-SJD를 제안합니다. SJD는 AR 생성 가속화에 강력한 잠재력을 보여주지만, 우리는 반복 간 토큰 불안정성이 수용률을 크게 감소시킴을 입증합니다. 이는 주로 드래프트 토큰 생성 과정에서 사용되는 독립 샘플링 과정에서 비롯된 한계입니다. 이를 극복하기 위해 우리는 커플링(coupling)에 기반한 정보이론적 접근법인 MC-SJD를 도입합니다. 이 방법은 무손실 특성을 보존하면서 연속적인 반복 간 동일한 드래프트 토큰을 샘플링할 확률을 최대화하여 기존 SJD를 상당히 가속화합니다. 주목할 점은, 이 방법이 기존 알고리즘에 단 한 줄의 수정만을 요구함에도 불구하고 출력 품질의 저하 없이 표준 AR 디코딩 대비 이미지 생성에서 최대 약 4.2배, 비디오 생성에서 약 13.3배의 가속화를 달성하여 상당한 성능 향상을 보인다는 것입니다.