AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

클링-옴니 기술 보고서
Kling-Omni Technical Report

Dec 18

ByKling Team, Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu

122

본 논문에서는 다중모달 시각 언어 입력으로부터 고화질 비디오를 직접 합성하기 위해 설계된 범용 생성 프레임워크인 Kling-Omni를 제안합니다. Kling-Omni는 종단간 관점을 채택하여 다양한 비디오 생성, 편집 및 지능형 추론 작업 간의 기능적 분리를 연결하고 이를 하나의 통합 시스템으로 통합합니다. 분리된 파이프라인 접근법과 달리, Kling-Omni는 텍스트 지시, 참조 이미지, 비디오 컨텍스트를 포함한 다양한 사용자 입력을 지원하며, 이를 통합된 다중모달 표현으로 처리하여 영화급 화질과 높은 지능을 갖춘 비디오 콘텐츠를 생성합니다. 이러한 기능을 지원하기 위해 우리는 다중모달 비디오 생성의 기반이 되는 포괄적인 데이터 시스템을 구축했습니다. 또한 효율적인 대규모 사전 학습 전략과 추론을 위한 인프라 최적화를 통해 프레임워크의 성능을 강화했습니다. 포괄적인 평가 결과, Kling-Omni는 컨텍스트 내 생성, 추론 기반 편집, 다중모달 지시 따르기에서 탁월한 능력을 보여줍니다. Kling-Omni는 단순한 콘텐츠 생성 도구를 넘어, 역동적이고 복잡한 세계를 지각하고, 추론하며, 생성하고, 상호작용할 수 있는 다중모달 세계 시뮬레이터로 나아가는 중추적인 진전이라고 믿습니다.

에이전트형 AI의 적응
Adaptation of Agentic AI

Dec 18

ByPengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

최첨단 에이전트형 AI 시스템은 점점 더 복잡하고 전문적인 작업을 수행하기 위해 외부 도구와의 계획, 추론, 상호작용에 적용 가능한 파운데이션 모델을 기반으로 구축됩니다. 이러한 시스템의 능력과 범위가 확대됨에 따라 적응은 성능, 신뢰성, 일반화를 향상시키는 핵심 메커니즘으로 부상하고 있습니다. 본 논문에서는 급속히 확장되는 연구 영역을 에이전트 적응과 도구 적응을 아우르는 체계적인 프레임워크로 통합합니다. 우리는 이를 에이전트 적응의 도구-실행-신호 방식과 에이전트-출력-신호 방식, 그리고 도구 적응의 에이전트-불가지론 방식과 에이전트-지도 방식으로 추가적으로 분해합니다. 이 프레임워크가 에이전트형 AI의 적응 전략 설계 공간을 명확히 하고, 그 절충점을 명시적으로 제시하며, 시스템 설계 과정에서 전략을 선택하거나 전환하는 데 실질적인 지침을 제공함을 보여줍니다. 이어서 각 범주의 대표적 접근법을 검토하고, 그 강점과 한계를 분석하며, 주요 미해결 과제와 향후 기회를 강조합니다. 전반적으로, 본 논문은 더욱 능력 있고 효율적이며 신뢰할 수 있는 에이전트형 AI 시스템을 구축하려는 연구자 및 실무자들을 위한 개념적 기반과 실용적인 로드맵을 제공하는 것을 목표로 합니다.

LLaDA2.0: 확산 언어 모델을 1000억 파라미터 규모로 확장
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10

ByTiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang

본 논문은 사전 학습된 자기회귀(AR) 모델을 체계적으로 변환하여 총 1,000억 개의 매개변수 규모로 확장된 이산 확산 대규모 언어 모델(dLLM) 튜플인 LLaDA2.0을 제안하며, 이는 최첨단 규모 모델 배포를 위한 새로운 패러다임을 정립한다. LLaDA2.0은 처음부터의 고비용 학습 대신 지식 계승, 점진적 적응, 효율성 중심 설계 원칙을 견지하며, 새로운 3단계 블록 수준 WSD 기반 학습 방식(블록 확산에서 블록 크기 점진적 증가(웜업), 대규모 전체 시퀀스 확산(안정화), 컴팩트 크기 블록 확산으로 회귀(디케이))을 통해 사전 학습된 AR 모델을 dLLM으로 원활하게 변환한다. SFT와 DPO를 통한 사후 학습 정렬과 함께, 실제 배포에 최적화된 두 가지 지시어 튜닝 MoE 변종인 LLaDA2.0-mini(160억)와 LLaDA2.0-flash(1,000억)를 확보하였다. 병렬 디코딩의 장점을 유지함으로써, 이 모델들은 최첨단 규모에서 우수한 성능과 효율성을 제공한다. 두 모델 모두 오픈소스로 공개되었다.

다음 임베딩 예측이 강력한 시각 학습자를 만든다
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18

BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu

자연어 분야에서 생성적 사전훈련의 성공에 영감을 받아, 동일한 원리가 강력한 자기 지도 시각 학습기를 만들어낼 수 있는지 질문합니다. 하위 작업 사용을 위한 특징을 출력하도록 모델을 훈련시키는 대신, 예측 작업을 직접 수행하기 위한 임베딩을 생성하도록 훈련합니다. 본 연구는 표현 학습에서 모델 학습으로의 이러한 전환을 탐구합니다. 구체적으로, 모델은 인과적 마스킹과 경사 정지를 사용하여 과거 임베딩을 조건으로 한 미래 패치 임베딩을 예측하는 방법을 학습하며, 이를 Next-Embedding Predictive Autoregression(NEPA)이라고 부릅니다. 우리는 ImageNet-1k에서 다음 임베딩 예측을 유일한 학습 목표로 사전훈련된 간단한 Transformer가 효과적임을 입증합니다. 픽셀 재구성, 이산 토큰, 대조 손실 또는 작업별 헤드가 필요하지 않습니다. 이 형식은 추가적인 설계 복잡성을 요구하지 않으면서 아키텍처 단순성과 확장성을 유지합니다. NEPA는 다양한 작업에서 강력한 결과를 달성하며, ViT-B 및 ViT-L 백본을 사용한 미세 조정 후 ImageNet-1K에서 83.8%, 85.3%의 Top-1 정확도를 기록하고 ADE20K의 의미론적 분할 작업으로 효과적으로 전이됩니다. 우리는 임베딩으로부터의 생성적 사전훈련이 시각 자기 지도 학습을 위한 간단하고 확장 가능하며 잠재적으로 모달리티에 구애받지 않는 대안을 제공한다고 믿습니다.

StereoPilot: 생성적 사전 지식을 통한 통합적이고 효율적인 스테레오 변환 학습
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18

ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen

VR 헤드셋과 3D 영화관을 포함한 입체 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나 3D 비디오 제작은 여전히 비용이 많이 들고 복잡한 반면, 단안 영상-스테레오 변환의 자동화는 다단계 '깊이-왜곡-인페인팅'(DWI) 파이프라인의 한계로 인해 어려움을 겪고 있습니다. 이 패러다임은 오류 전파, 깊이 모호성, 그리고 평행 및 수렴형 스테레오 구성 형식 간의 불일치 문제를 안고 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 양쪽 스테레오 형식을 모두 포괄하여 공정한 벤치마킹과 강력한 모델 학습을 가능하게 하는 최초의 대규모 통합 스테레오 비디오 변환 데이터셋인 UniStereo를 소개합니다. 이 데이터셋을 기반으로 명시적 깊이 지도나 반복적 확산 샘플링에 의존하지 않고 타겟 뷰를 직접 합성하는 효율적인 순전파 모델인 StereoPilot을 제안합니다. 학습 가능한 도메인 전환기와 순환 일관성 손실을 통해 StereoPilot은 다양한 스테레오 형식에 원활하게 적응하고 향상된 일관성을 달성합니다. 폭넓은 실험을 통해 StereoPilot이 시각적 충실도와 계산 효율성 모두에서 최신 방법들을 크게 능가함을 입증합니다. 프로젝트 페이지: https://hit-perfect.github.io/StereoPilot/.

Seedance 1.5 pro: 네이티브 오디오-비주얼 통합 생성 기반 모델
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15

ByHeyi Chen, Siyan Chen, Xin Chen, Yanfei Chen, Ying Chen, Zhuo Chen, Feng Cheng, Tianheng Cheng, Xinqi Cheng, Xuyan Chi, Jian Cong, Jing Cui, Qinpeng Cui, Qide Dong, Junliang Fan, Jing Fang, Zetao Fang, Chengjian Feng, Han Feng, Mingyuan Gao, Yu Gao, Dong Guo, Qiushan Guo, Boyang Hao, Qingkai Hao, Bibo He, Qian He, Tuyen Hoang, Ruoqing Hu, Xi Hu, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Donglei Ji, Siqi Jiang, Wei Jiang, Yunpu Jiang, Zhuo Jiang, Ashley Kim, Jianan Kong, Zhichao Lai, Shanshan Lao, Yichong Leng, Ai Li, Feiya Li, Gen Li, Huixia Li, JiaShi Li, Liang Li, Ming Li, Shanshan Li, Tao Li, Xian Li, Xiaojie Li, Xiaoyang Li, Xingxing Li, Yameng Li, Yifu Li, Yiying Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Zhiqiang Liang, Wang Liao, Yalin Liao, Heng Lin, Kengyu Lin, Shanchuan Lin, Xi Lin, Zhijie Lin, Feng Ling, Fangfang Liu, Gaohong Liu, Jiawei Liu, Jie Liu, Jihao Liu, Shouda Liu, Shu Liu, Sichao Liu, Songwei Liu, Xin Liu, Xue Liu, Yibo Liu, Zikun Liu, Zuxi Liu, Junlin Lyu, Lecheng Lyu, Qian Lyu, Han Mu, Xiaonan Nie, Jingzhe Ning, Xitong Pan, Yanghua Peng, Lianke Qin, Xueqiong Qu, Yuxi Ren, Kai Shen, Guang Shi, Lei Shi, Yan Song, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Yan Sun, Zeyu Sun, Wenjing Tang, Yaxue Tang, Zirui Tao, Feng Wang, Furui Wang, Jinran Wang, Junkai Wang, Ke Wang, Kexin Wang, Qingyi Wang, Rui Wang, Sen Wang, Shuai Wang, Tingru Wang, Weichen Wang, Xin Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Ziyu Wang, Guoqiang Wei, Wanru Wei, Di Wu, Guohong Wu, Hanjie Wu, Jian Wu, Jie Wu, Ruolan Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Liang Xiang, Fei Xiao, XueFeng Xiao, Pan Xie, Shuangyi Xie, Shuang Xu, Jinlan Xue, Shen Yan, Bangbang Yang, Ceyuan Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yang Yang, Yihang Yang, ZhiXian Yang, Ziyan Yang, Songting Yao, Yifan Yao, Zilyu Ye, Bowen Yu, Jian Yu, Chujie Yuan, Linxiao Yuan, Sichun Zeng, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Chuntao Zhang, Heng Zhang, Jingjie Zhang, Kuo Zhang, Liang Zhang, Liying Zhang, Manlin Zhang, Ting Zhang, Weida Zhang, Xiaohe Zhang, Xinyan Zhang, Yan Zhang, Yuan Zhang, Zixiang Zhang, Fengxuan Zhao, Huating Zhao, Yang Zhao, Hao Zheng, Jianbin Zheng, Xiaozheng Zheng, Yangyang Zheng, Yijie Zheng, Jiexin Zhou, Jiahui Zhu, Kuan Zhu, Shenhan Zhu, Wenjia Zhu, Benhui Zou, Feilong Zuo

비디오 생성 분야의 최근 발전은 통합 오디오-비주얼 생성의 길을 열었습니다. 본 연구에서는 기본적인 오디오-비디오 결합 생성을 위해 특별히 설계된 파운데이션 모델인 Seedance 1.5 pro를 소개합니다. 듀얼-브랜치 Diffusion Transformer 아키텍처를 활용한 이 모델은 크로스 모달 결합 모듈과 전문적인 다단계 데이터 파이프라인을 통합하여 탁월한 오디오-비주얼 싱크로나이제이션과 우수한 생성 품질을 달성했습니다. 실용적인 유용성을 보장하기 위해 고품질 데이터셋을 활용한 지도 미세 조정(SFT) 및 다차원 보상 모델을 통한 인간 피드백 강화 학습(RLHF)을 포함한 세심한 사후 훈련 최적화를 구현했습니다. 더불어 추론 속도를 10배 이상 향상시키는 가속화 프레임워크를 도입했습니다. Seedance 1.5 pro는 정확한 다국어 및 방언 립싱크, 동적인 시네마틱 카메라 제어, 향상된 내러티브 일관성을 통해 차별화되어 전문가급 콘텐츠 제작을 위한 강력한 엔진으로 자리매김합니다. Seedance 1.5 pro는 현재 Volcano Engine(https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo)에서 이용 가능합니다.

Depth Any Panoramas: 파노라마 깊이 추정을 위한 파운데이션 모델
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18

ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi

본 연구에서는 다양한 장면 거리에 걸쳐 일반화되는 파노라믹 계측 깊이 파운데이션 모델을 제시한다. 데이터 구축과 프레임워크 설계 관점에서 데이터-인-더-루프 패러다임을 탐구한다. 공개 데이터셋, UE5 시뮬레이터 및 텍스트-이미지 모델에서 생성한 고품질 합성 데이터, 웹에서 수집한 실제 파노라믹 이미지를 결합하여 대규모 데이터셋을 구축하였다. 실내/실외 및 합성/실제 데이터 간 도메인 격차를 줄이기 위해, 레이블이 없는 이미지에 대한 신뢰할 수 있는 ground truth를 생성하는 3단계 pseudo-label 정제 파이프라인을 도입했다. 모델에서는 강력한 사전 학습 일반화 성능을 보이는 DINOv3-Large를 백본으로 채택하고, 다양한 거리에 대한 견고성을 향상시키고 시점 간 기하학적 일관성을 강화하기 위해 플러그 앤 플레이 범위 마스크 헤드, 선명도 중심 최적화, 기하학 중심 최적화를 도입하였다. 여러 벤치마크(Stanford2D3D, Matterport3D, Deep360 등)에서의 실험을 통해 강력한 성능과 제로샷 일반화 능력을 입증하였으며, 특히 다양한 실제 환경에서 매우 견고하고 안정적인 계측 예측 결과를 보여주었다. 프로젝트 페이지는 https://insta360-research-team.github.io/DAP_website/ 에서 확인할 수 있다.

생성적 재초점: 단일 이미지로 구현하는 유연한 초점 외 제어
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18

ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

초점 심도 제어는 사진 촬영에서 필수적이지만 완벽한 초점을 맞추기 위해서는 여러 번의 시도나 특수 장비가 필요한 경우가 많습니다. 단일 이미지 재초점 기술은 여전히 어려운 과제로, 선명한 내용을 복원하고 사실적인 보케 효과를 생성하는 과정을 포함합니다. 기존 방법론은 전초점 입력 이미지 필요성, 시뮬레이터 기반 합성 데이터 의존성, 조리개 제어의 한계 등 중대한 단점을 지니고 있습니다. 본 연구에서는 DeblurNet을 통해 다양한 입력에서 전초점 이미지를 복원하고 BokehNet으로 제어 가능한 보케 효과를 생성하는 2단계 프로세스인 Generative Refocusing을 제안합니다. 핵심 혁신은 시뮬레이터의 한계를 넘어 실제 광학 특성을 포착하기 위해 EXIF 메타데이터를 활용한 반지도 학습 방식으로, 합성된 paired 데이터와 unpaired 실제 보케 이미지를 결합합니다. 실험 결과, 우리의 방법은 디포커스 디블러링, 보케 합성 및 재초점 벤치마크에서 최고 수준의 성능을 달성했습니다. 또한 Generative Refocusing은 텍스트 기반 조정과 사용자 정의 조리개 형태 설정이 가능합니다.

디콘텍스트를 통한 방어: 디퓨전 트랜스포머에서의 안전한 이미지 편집
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18

ByLinghui Shen, Mingyue Cui, Xingyi Yang

컨텍스트 내 확산 모델은 사용자가 놀라울 정도로 쉽고 사실적으로 이미지를 수정할 수 있게 합니다. 그러나 동일한 능력은 심각한 프라이버시 문제를 제기합니다. 개인 이미지가 소유자의 동의 없이 쉽게 신원 사칭, 허위 정보 유포 또는 기타 악의적 목적으로 조작될 수 있기 때문입니다. 개인화된 텍스트-이미지 생성에서 오용을 방지하기 위한 입력 변형을 탐구한 기존 연구가 있지만, 최신 대규모 컨텍스트 내 DiT 기반 모델의 견고성은 대부분 검증되지 않은 상태입니다. 본 논문에서는 입력 이미지를 무단 컨텍스트 내 편집으로부터 보호하는 새로운 방법인 DeContext를 제안합니다. 우리의 핵심 통찰은 소스 이미지의 컨텍스트 정보가 주로 다중 모달 어텐션 계층을 통해 출력으로 전파된다는 점입니다. 이러한 교차 어텐션 경로를 약화시키는 작고 표적화된 섭동을 주입함으로써 DeContext는 이 흐름을 차단하고 입력과 출력 간의 연결을 효과적으로 분리합니다. 이 간단한 방어 메커니즘은 효율적이고 견고합니다. 또한 우리는 초기 노이즈 제거 단계와 특정 트랜스포머 블록이 컨텍스트 전파를 지배한다는 점을 보여주며, 이를 통해 섭동을 가장 중요한 부분에 집중할 수 있습니다. Flux Kontext와 Step1X-Edit에 대한 실험 결과, DeContext가 시각적 품질을 유지하면서 원치 않는 이미지 편집을 지속적으로 차단함을 확인했습니다. 이러한 결과는 어텐션 기반 섭동이 이미지 조작에 대한 강력한 방어 수단으로 효과적임을 보여줍니다.

연금술사: 메타-그래디언트 데이터 선택을 통한 텍스트-이미지 모델 학습 효율 극대화
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18

ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao

텍스트-이미지(T2I) 생성 모델(Imagen, Stable Diffusion, FLUX 등)의 최근 발전은 시각적 품질에서 뚜렷한 향상을 가져왔습니다. 그러나 이들의 성능은 근본적으로 학습 데이터의 품질에 의해 제한됩니다. 웹에서 수집되거나 합성된 이미지 데이터셋은 종종 저품질 또는 중복 샘플을 포함하여, 이는 시각적 충실도 저하, 불안정한 학습, 비효율적인 계산으로 이어집니다. 따라서 효과적인 데이터 선택은 데이터 효율성 향상에 중요합니다. 기존 접근법은 T2I 데이터 필터링에서 비용이 많이 드는 수동 정제나 단일 차원 특징에 기반한 휴리스틱 점수화에 의존해왔습니다. 메타 학습 기반 방법이 대규모 언어 모델(LLM)에서는 탐구되었으나, 이미지 모달리티에는 적용되지 않았습니다. 이를 위해 우리는 **Alchemist**라는 메타 그래디언트 기반 프레임워크를 제안하여 대규모 텍스트-이미지 데이터 쌍에서 적합한 부분집합을 선택합니다. 우리의 접근법은 데이터 중심 관점에서 모델을 반복적으로 최적화함으로써 각 샘플의 영향력을 자동으로 학습하여 평가합니다. Alchemist는 데이터 등급 평가와 데이터 프루닝이라는 두 가지 핵심 단계로 구성됩니다. 우리는 경량 등급 평가기를 훈련시켜 다중 세분성 인식으로 강화된 그래디언트 정보를 기반으로 각 샘플의 영향력을 추정합니다. 그런 다음 Shift-Gsampling 전략을 사용하여 효율적인 모델 학습을 위한 정보적 부분집합을 선택합니다. Alchemist는 T2I 모델 학습을 위한 최초의 자동화되고 확장 가능한 메타 그래디언트 기반 데이터 선택 프레임워크입니다. 합성 및 웹 크롤링 데이터셋에 대한 실험은 Alchemist가 시각적 품질과 하위 작업 성능을 지속적으로 향상시킴을 입증합니다. Alchemist로 선택된 데이터의 50%로 학습하는 것이 전체 데이터셋으로 학습한 결과를 능가할 수 있습니다.

세상은 당신의 캔버스: 참조 이미지, 궤적, 텍스트로 프롬프트 가능한 이벤트 그리기
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen

WorldCanvas를 소개합니다. 이는 텍스트, 궤적, 참조 이미지를 결합하여 풍부하고 사용자 지시형 시뮬레이션을 가능하게 하는 프롬프트 가능 세계 이벤트 프레임워크입니다. 텍스트 전용 접근법이나 기존의 궤적 제어 이미지-비디오 방식과 달리, 우리의 다중모달 접근법은 움직임, 타이밍, 가시성을 인코딩하는 궤적을 의미론적 의도를 위한 자연어 및 객체 정체성의 시각적 기초를 위한 참조 이미지와 결합합니다. 이를 통해 다중 에이전트 상호작용, 객체 등장/퇴장, 참조 기반 외관, 반직관적 이벤트를 포함하는 일관되고 제어 가능한 이벤트 생성이 가능합니다. 결과 비디오는 시간적 일관성뿐만 아니라 객체 정체성과 장면을 일시적 소멸에도 보존하는 발생적 일관성을 보여줍니다. 표현력丰富的한 세계 이벤트 생성을 지원함으로써, WorldCanvas는 세계 모델을 수동적 예측기에서 상호작용 가능한 사용자 주도형 시뮬레이터로 발전시킵니다. 우리의 프로젝트 페이지는 https://worldcanvas.github.io/에서 확인할 수 있습니다.

REGLUE: 전역 및 지역 의미 정보를 활용한 잠재 공간 얽힘 확산 모델
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18

ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou

잠재 디퓨전 모델(LDM)은 최첨단 이미지 합성 성능을 달성하지만, 재구성 방식의 노이즈 제거 목표는 간접적인 의미론적 지도만 제공합니다: 높은 수준의 의미론은 느리게 나타나 더 긴 학습 시간을 필요로 하며 샘플 품질을 제한합니다. 최근 연구들은 비전 기초 모델(VFM)의 의미론을 외부적으로 표현 정렬을 통해 주입하거나, 내부적으로 디퓨전 과정 내에서 VFM 특징의 좁은 일부만을 공동 모델링하여 활용 가능한 풍부한 비선형 다중 계층 공간 의미론을 충분히 활용하지 못하고 있습니다. 우리는 단일 SiT 백본 내에서 (i) VAE 이미지 잠재공간, (ii) 압축된 지역적(패치 수준) VFM 의미론, (iii) 전역적(이미지 수준) [CLS] 토큰을 공동으로 모델링하는 통합 잠재 디퓨전 프레임워크인 REGLUE(Representation Entanglement with Global-Local Unified Encoding)를 소개합니다. 경량 컨볼루션 의미론 압축기가 다중 계층 VFM 특징을 비선형적으로 저차원의 공간 구조化된 표현으로 집계하며, 이는 디퓨전 과정에서 VAE 잠재공간과 얽힙니다. 외부 정렬 손실은 내부 표현을 고정된 VFM 목표에 더욱 규제합니다. ImageNet 256x256에서 REGLUE는 SiT-B/2 및 SiT-XL/2 기준 모델과 REPA, ReDi, REG 대비 FID를 지속적으로 개선하고 수렴 속도를 가속화합니다. 광범위한 실험을 통해 (a) 공간 VFM 의미론이 중요하며, (b) 비선형 압축이 그 전체 이점을 실현하는 핵심이며, (c) 전역 토큰과 외부 정렬이 우리의 전역-지역-잠재 공동 모델링 프레임워크 내에서 상호 보완적인 경량 향상으로 작용함을 보여줍니다. 코드는 https://github.com/giorgospets/reglue 에서 이용 가능합니다.

N3D-VLM: 네이티브 3D 기반 접근법을 통한 비전-언어 모델의 정확한 공간 추론 능력 구현
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18

ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu

현재의 멀티모달 모델들은 2D 이미지를 기반으로 질문에 답변할 수 있지만, 본질적인 3D 객체 인식 능력이 부족하여 3D 장면에서의 공간 관계와 깊이 정보를 이해하는 데 한계가 있습니다. 본 연구에서는 정밀한 3D 기반 객체 위치 파악과 해석 가능한 공간 이해를 동시에 가능하게 하는 새로운 통합 프레임워크인 N3D-VLM을 제안합니다. RGB/RGB-D 입력으로부터 직접 답변을 예측하는 기존의 end-to-end 모델과 달리, 우리의 접근 방식은 모델에 본질적인 3D 객체 인식 능력을 부여하여 텍스트 설명을 기반으로 3D 공간에서 객체를 직접 위치시킬 수 있도록 합니다. 정확한 3D 객체 위치 파악을 바탕으로 모델은 3D 공간에서 명시적 추론을 추가 수행하여 더욱 해석 가능하고 구조화된 공간 이해를 달성합니다. 이러한 능력에 대한 강력한 학습을 지원하기 위해, 우리는 깊이 추정을 활용하여 대규모 2D 주석 데이터를 3D 공간으로 변환하는 확장 가능한 데이터 구축 파이프라인을 개발했습니다. 이를 통해 3D 객체 위치 파악 데이터의 다양성과 범위가 크게 증가하여 기존 단일 이미지 3D 감지 데이터셋 중 가장 큰 규모보다 6배 이상 큰 데이터셋을 구축했습니다. 더 나아가, 이 파이프라인은 3D 공간에서의 연쇄적 사고(Chain-of-Thought, CoT) 추론을 목표로 하는 공간 질의응답 데이터셋을 생성하여 3D 객체 위치 파악과 3D 공간 추론의 통합 학습을 용이하게 합니다. 실험 결과, 우리의 통합 프레임워크는 3D 기반 객체 위치 파악 작업에서 최첨단 성능을 달성할 뿐만 아니라, 비전-언어 모델의 3D 공간 추론에서도 기존 방법들을 지속적으로 능가하는 것으로 나타났습니다.

JustRL: 단순한 RL 레시피로 1.5B LLM 확장하기
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18

ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu

대규모 언어 모델을 위한 강화 학습의 최근 발전은 다단계 학습 파이프라인, 동적 하이퍼파라미터 스케줄, 커리큘럼 학습 전략 등 점점 복잡해지는 방향으로 수렴되고 있습니다. 이는 근본적인 질문을 제기합니다: 이러한 복잡성이 정말 필요한 것일까요? 우리는 단일 단계 학습과 고정 하이퍼파라미터를 사용하는 최소한의 접근법인 JustRL을 제안하며, 이는 정교한 기법들보다 2배 적은 계산량을 사용하면서 두 개의 15B 추론 모델에서 9개 수학 벤치마크 평균 정확도(각각 54.9%, 64.3%)로 최첨단 성능을 달성합니다. 동일한 하이퍼파라미터는 조정 없이 두 모델 간에 전이 가능하며, 학습은 4,000단계 이상에 걸쳐 일반적으로 개입을 유발하는 붕괴나 정체 현상 없이 부드럽고 단조로운 성능 향상을 보입니다. 중요한 것은, 명시적 길이 패널티와 강건한 검증기 같은 "표준 기법"들을 추가하면 탐색이 붕괴되어 성능이 오히려 저하될 수 있다는 어블레이션 결과입니다. 이러한 결과는 해당 분야가 안정적이고 규모가 확장된 기준선에서는 사라지는 문제들을 해결하기 위해 불필요한 복잡성을 더하고 있을 수 있음을 시사합니다. 우리는 커뮤니티를 위해 단순하고 검증된 기준선을 확립하기 위해 모델과 코드를 공개합니다.

AdaTooler-V: 이미지 및 비디오를 위한 적응형 도구 활용
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18

ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue

최근 연구에 따르면 멀티모달 대규모 언어 모델(MLLM)은 비전 도구 상호작용이 포함된 멀티모달 연속 사고(CoT) 방식을 통해 성능 향상의 이점을 얻는 것으로 나타났습니다. 그러나 기존 오픈소스 모델들은 종종 불필요한 상황에서도 비전 도구를 호출하는 맹목적인 도구 사용 추론 패턴을 보여주며, 이는 추론 오버헤드를 크게 증가시키고 모델 성능을 저하시킵니다. 이를 해결하기 위해 우리는 시각적 문제가 실제로 도구를 필요로 하는지 여부를 판단하여 적응형 도구 사용을 수행하는 MLLM인 AdaTooler-V를 제안합니다. 먼저, 각 샘플의 도구 혜택 점수에 기반하여 보상 규모를 적응적으로 조정하는 강화 학습 알고리즘인 AT-GRPO를 도입하여 모델이 진정한 개선이 있을 때만 도구를 호출하도록 유도합니다. 더불어 단일 이미지, 다중 이미지, 비디오 데이터에 걸쳐 검증 가능한 보상이 포함된 SFT 콜드 스타트용 AdaTooler-V-CoT-100k와 RL용 AdaTooler-V-300k 데이터셋을 구축하여 학습을 지원합니다. 12개 벤치마크에 대한 실험 결과, AdaTooler-V는 다양한 시각적 추론 과제에서 기존 방법들을 능가하는 강력한 추론 능력을 입증했습니다. 특히 AdaTooler-V-7B는 고해상도 벤치마크 V*에서 89.8%의 정확도를 달성하여 상용 전문 모델인 GPT-4o와 Gemini 1.5 Pro를 능가했습니다. 모든 코드, 모델 및 데이터는 공개되었습니다.

EasyV2V: 고품질 지시 기반 비디오 편집 프레임워크
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18

ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei

이미지 편집 기술이 빠르게 발전한 반면, 비디오 편집은 일관성, 제어, 일반화 측면에서 어려움을 겪으며 상대적으로 덜 탐구되어 왔습니다. 우리는 데이터, 아키텍처, 제어의 설계 공간을 연구하고 지시 기반 비디오 편집을 위한 간단하면서 효과적인 프레임워크인 EasyV2V를 소개합니다. 데이터 측면에서는, 빠른 역변환을 지원하는 기존 전문가 모델들을 조합하여 다양한 비디오 쌍을 구축하고, 단일 프레임 감독과 공유 아핀 운동을 통한 의사 쌍을 통해 이미지 편집 쌍을 비디오로 확장하며, 조밀하게 캡션된 클립을 채굴하여 비디오 쌍을 생성하고, 편집이 전개되는 방식을 가르치기 위한 전이 감독을 추가합니다. 모델 측면에서는, 사전 학습된 텍스트-투-비디오 모델이 편집 능력을 보유하고 있음을 관찰하여 단순화된 설계를 동기 부여합니다. 경량 LoRA 미세 조정과 함께 조건 설정을 위한 간단한 시퀀스 연결만으로도 강력한 모델을 훈련시키기에 충분합니다. 제어 측면에서는, 단일 마스크 메커니즘을 통해 시공간 제어를 통합하고 선택적 참조 이미지 지원을 제공합니다. 전체적으로 EasyV2V는 비디오+텍스트, 비디오+마스크+텍스트, 비디오+마스크+참조+텍스트 등 유연한 입력과 함께 작동하며, 동시대 및 상용 시스템을 능가하는 최첨단 비디오 편집 결과를 달성합니다. 프로젝트 페이지: https://snap-research.github.io/easyv2v/

FlashPortrait: 적응형 잠재 예측으로 6배 빠른 무한 인물 애니메이션
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18

ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu

현재 장면 애니메이션을 위한 확산 기반 가속 방법은 신원(ID) 일관성을 보장하는 데 어려움을 겪고 있습니다. 본 논문에서는 신원 정보를 보존한 무한 길이 동영상을 합성하면서 최대 6배의 추론 속도 가속을 달성하는 end-to-end 비디오 확산 트랜스포머인 FlashPortrait을 제안합니다. 특히 FlashPortrait은 먼저 기성 추출기를 사용하여 신원 정보와 무관한 얼굴 표정 특징을 계산합니다. 그런 다음 정규화 얼굴 표현 블록을 도입하여 각각의 평균과 분산으로 특징을 정규화함으로써 얼굴 특징을 확산 잠재 변수와 정렬하여 얼굴 모델링에서 신원 안정성을 향상시킵니다. 추론 과정에서는 중첩 영역에 가중치 블렌딩을 적용한 동적 슬라이딩 윈도우 방식을 채택하여 장면 애니메이션에서 부드러운 전환과 신원 일관성을 보장합니다. 각 컨텍스트 윈도우 내에서 특정 시간 단계의 잠재 변동률과 확산 계층 간의 미분 크기 비율을 기반으로, FlashPortrait은 현재 시간 단계의 고차 잠재 미분값을 활용하여 미래 시간 단계의 잠재 변수를 직접 예측함으로써 여러 노이즈 제거 단계를 건너뛰고 6배의 속도 가속을 달성합니다. 벤치마크 실험을 통해 FlashPortrait의 정성적 및 정량적 효과성을 입증하였습니다.

멀티모달 리워드벤치 2: 인터리브 텍스트 및 이미지를 위한 옴니 리워드 모델 평가
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18

ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad

보상 모델(RM)은 대규모 언어 모델(LLM) 훈련에 필수적이지만, 이미지와 텍스트 시퀀스가 혼재된 입력을 처리하는 옴니 모델(omni model)에 적용되는 연구는 여전히 미흡한 실정입니다. 본 연구에서는 멀티모달 이해 및 (혼재) 생성 작업을 위한 보상 모델의 첫 번째 포괄적인 벤치마크인 Multimodal RewardBench 2(MMRB2)를 소개합니다. MMRB2는 텍스트-이미지 생성, 이미지 편집, 혼재 생성, 그리고 멀티모달 추론("이미지를 활용한 사고")의 네 가지 과제로 구성되며, 21개의 원천 과제에서 23개의 모델과 에이전트로부터 수집된 과제당 1,000개의 전문가 주석(preference pair) 쌍을 제공합니다. MMRB2는 다음과 같은 특징을 갖춰 설계되었습니다: (1) 실용적이면서도 도전적인 프롬프트; (2) 최첨단 모델 및 에이전트의 응답; (3) 앙상블 필터링 전략을 통해 선별된, 강력한 인간 전문가 합의를 반영한 선호도 쌍. MMRB2를 활용하여 각 하위 과제에 대한 기존 평가자(judge), 즉 멀티모달 LLM-as-a-judge와 인간 선호도로 훈련된 모델들을 분석합니다. 최신 Gemini 3 Pro는 75-80%의 정확도를 달성했습니다. GPT-5와 Gemini 2.5 Pro는 인간의 >90% 정확도에 비해 66-75%의 정확도를 보이지만, 널리 사용되는 GPT-4o(59%)를 능가합니다. 최고 성능의 오픈소스 모델인 Qwen3-VL-32B는 Gemini 2.5 Flash(64%)와 유사한 정확도를 달성했습니다. 또한 Best-of-N 샘플링을 사용하여 MMRB2 성능이 다운스트림 과제 성공과 강하게 상관관계가 있음을 보여주며, 향후 보상 모델 개선을 위한 핵심 영역을 제시하는 심층 분석을 수행합니다.

탐험 대 활용: 클리핑, 엔트로피, 그리고 허위 보상을 통한 RLVR 재고
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18

ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

본 논문은 검증 가능한 보상을 활용한 강화 학습(RLVR)에서의 탐사-활용 상충관계를 분석하며, 이 프레임워크가 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 방식을 탐구한다. 최근 연구에 따르면 RLVR은 두 가지 상반되어 보이는 메커니즘을 통해 LLM의 강력한 수학적 추론 능력을 이끌어낼 수 있다: 실제 정답과 무관한 결과에 보상을 제공하여 활용을 억제하는 '허위 보상'과, 모델을 더 확신에 찬 결정론적 출력으로 유도하여 탐사를 억제하는 '엔트로피 최소화'가 그것으로, 이는 다음과 같은 난해한 역학을 부각시킨다. 즉, 활용을 억제하는 것과 탐사를 억제하는 것이 모두 추론 성능을 향상시키는데, 이러한 효과들을 조화시키는 근본 원리는 여전히 제대로 이해되지 않고 있다. 우리는 두 가지 근본적인 질문에 집중한다: (i) 정책 엔트로피가 성능과 어떻게 관련되는지, 그리고 (ii) 허위 보상이 클리핑 편향과 모델 오염의 상호작용을 통해 실제로 이득을 발생시키는지 여부이다. 우리의 결과는 허위 보상 하에서 클리핑 편향이 정책 엔트로피를 감소시켜 더 확신에 찬 결정론적 출력을 이끌어내는 반면, 엔트로피 최소화만으로는 향상에 불충분함을 보여준다. 나아가 우리는 허위 보상이 오염된 환경을 넘어서서 성능을 향상시킬 수 있는 이유를 설명하는 '보상-불일치 모델'을 제안한다. 우리의 연구 결과는 허위 보상의 이점 뒤에 숨은 메커니즘을 명확히 하고, 보다 효과적인 RLVR 훈련을 위한 원칙을 제공한다.

RePlan: 복잡한 지시 기반 이미지 편집을 위한 추론 기반 영역 계획
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18

ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia

지시어 기반 이미지 편집은 시각적 수정을 자연어로 제어할 수 있게 하지만, 기존 모델들은 복잡한 지시어와 복잡하거나 모호한 장면이 만나는 지시어-시각 복잡성(IV-Complexity) 상황에서 취약합니다. 우리는 시각-언어 플래너와 디퓨전 편집기를 결합한 계획 후 실행(plan-then-execute) 프레임워크인 RePlan(Region-aligned Planning)을 소개합니다. 플래너는 단계별 추론을 통해 지시어를 분해하고 명시적으로 대상 영역에 연결하며, 편집기는 훈련 없이 적용 가능한 어텐션-영역 주입(attention-region injection) 메커니즘을 사용하여 변경을 적용함으로써 반복적인 인페인팅 없이 정확한 병렬 다중 영역 편집을 가능하게 합니다. 계획 능력을 강화하기 위해 1,000개의 지시어만으로 구성된 예시를 사용하여 GRPO 기반 강화 학습을 적용하였고, 이는 추론 정확도와 형식 안정성에서 상당한 향상을 가져왔습니다. 또한 미세 단위 영역 연결 및 지식 집약적 편집에 초점을 맞춘 벤치마크 IV-Edit를 제시합니다. IV-Complex 환경에서 RePlan은 훨씬 더 큰 데이터셋으로 훈련된 강력한 베이스라인들을 일관되게 능가하며, 영역 정밀도와 전체 정확도를 향상시켰습니다. 프로젝트 페이지: https://replan-iv-edit.github.io

ModelTables: 모델 관련 표 코퍼스
ModelTables: A Corpus of Tables about Models

Dec 18

ByZhengyuan Dong, Victor Zhong, Renée J. Miller

우리는 텍스트 기반 검색에서 종종 간과되는 성능 및 구성 테이블의 구조적 의미를 포착하는 Model Lakes 내 테이블 벤치마크인 ModelTables를 제안한다. 본 코퍼스는 Hugging Face 모델 카드, GitHub README 및 참조 논문으로부터 구축되었으며, 각 테이블을 해당 모델 및 출판 컨텍스트와 연결한다. 오픈 데이터 레이크 테이블과 비교할 때, 모델 테이블은 규모는 더 작지만 테이블 간 관계가 더 밀집되어 있어 긴밀하게 결합된 모델 및 벤치마크 진화를 반영한다. 현재 버전은 6만 개 이상의 모델과 9만 개의 테이블을 포함한다. 모델과 테이블 간 연관성을 평가하기 위해 우리는 세 가지 상호 보완적 신호를 사용한 다중 소스 실측 자료를 구성한다: (1) 논문 인용 링크, (2) 명시적 모델 카드 링크 및 상속 관계, (3) 공유 학습 데이터셋. 본 벤치마크의 하나의 포괄적인 실증적 사용 사례인 테이블 검색을 제시한다. 데이터 레이크의 정규 검색 연산자(Unionable, Joinable, 키워드)와 정보 검색 기준 방법(밀집 검색, 희소 검색, 하이브리드 검색)을 이 벤치마크에서 비교한다. Union 기반 의미론적 테이블 검색은 전체 P@1 54.8%(인용 기준 54.6%, 상속 기준 31.3%, 공유 데이터셋 신호 기준 30.6%)를 달성했으며, 테이블 기반 밀집 검색은 P@1 66.5%, 메타데이터 하이브리드 검색은 54.1%를 달성했다. 이 평가는 더 나은 테이블 검색 방법 개발을 위한 명백한 개선 여지를 시사한다. ModelTables와 해당 생성 프로토콜을 공개함으로써, 우리는 AI 모델을 설명하는 구조化 데이터의 최초 대규모 벤치마크를 제공한다. Model Lakes 내 테이블 발견에 대한 우리의 사용 사례는 구조화된 모델 지식에 대한 더 정확한 의미론적 검색, 구조化 비교 및 체계적 구축을 개발하기 위한 직관과 근거를 제공한다. 소스 코드, 데이터 및 기타 아티팩트는 https://github.com/RJMillerLab/ModelTables에서 이용 가능하다.

VenusBench-GD: 다양한 접지 작업을 위한 종합 멀티플랫폼 GUI 벤치마크
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18

ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

GUI 그라운딩은 능력 있는 GUI 에이전트 구축의 핵심 구성 요소입니다. 그러나 기존 그라운딩 벤치마크는 상당한 한계를 지니고 있습니다: 데이터 양이 불충분하고 도메인 범위가 제한적이거나, 단일 플랫폼에 과도하게 집중하며 매우 전문적인 도메인 지식을 요구합니다. 본 연구에서는 여러 플랫폼에 걸쳐 계층적 평가를 가능하게 하는 포괄적인 GUI 그라운딩 벤치마크인 VenusBench-GD를 제시합니다. VenusBench-GD의 기여점은 다음과 같습니다: (i) 광범위한 애플리케이션 커버리지, 다양한 UI 요소, 풍부한 주석 데이터를 갖춘 대규모 교차 플랫폼 벤치마크를 도입하였고, (ii) 그라운딩 작업을 위한 고품질 데이터 구축 파이프라인을 구축하여 기존 벤치마크보다 높은 주석 정확도를 달성하였으며, (iii) 그라운딩을 기본 및 고급 범주로 구분하고 상호 보완적 관점에서 모델을 평가하도록 설계된 6가지 세부 작업을 포함하는 계층적 작업 분류 체계를 제안하여 요소 그라운딩의 범위를 확장했습니다. 우리의 실험 결과는 중요한 통찰을 보여줍니다: 범용 멀티모달 모델이 이제 기본 그라운딩 작업에서 전용 GUI 모델과 동등하거나 오히려 능가하는 성능을 보입니다. 반면, 고급 작업에서는 여전히 GUI 전용 모델이 우수하지만, 심각한 과적합과 낮은 강건성을 나타냅니다. 이러한 결과는 포괄적이고 다단계의 평가 프레임워크의 필요성을 강조합니다.

음성 양식 통합의 LLM 적용 효과: 듣기와 번역
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18

BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle

대규모 언어 모델(LLM)이 텍스트를 넘어 음성으로 확장되면서, 음성을 기본 모달리티로 통합한 SpeechLLM이 등장하여 기존의 음성 인식 기반 파이프라인을 우회하고 직접 구어를 번역하는 것을 목표로 하고 있습니다. 그러나 이러한 통합이 기존의 계단식(cascade) 아키텍처 대비 음성-텍스트 번역 품질을 향상시키는지 여부는 여전히 해결되지 않은 과제입니다. 본 연구는 'Hearing to Translate'라는 첫 번째 포괄적인 테스트 슈트를 제시하며, 5개의 최첨단 SpeechLLM을 선도적인 음성 기반 모델(SFM)과 다국어 LLM을 결합한 16개의 강력한 직접(direct) 및 계단식 시스템과 엄격하게 비교 평가합니다. 우리의 분석은 16개 벤치마크, 13개 언어 쌍, 그리고 더듬거림, 잡음, 장문 음성 등 9가지 까다로운 조건에 걸쳐 진행됩니다. 이 광범위한 평가를 통해 우리는 계단식 시스템이 전반적으로 가장 신뢰할 만한 성능을 유지하는 반면, 현재의 SpeechLLM은 특정 조건에서만 계단식 시스템과 동등한 성능을 보이며, SFM은 양자 모두에 뒤처지는 것을 확인했습니다. 이는 고품질 음성 번역을 위해서는 모델 내부에든 파이프라인 상에든 LLM을 통합하는 것이 필수적임을 강조합니다.

차이를 만드는 차이: 역량 격차 발견과 개선을 위한 모델 감사
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18

ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu

기존의 다중모달 LLM(MLLM) 평가 방법은 해석 가능성이 부족하며, 모델 간 중요한 능력 차이를 완전히 드러내기에는 종종 불충분합니다. 이를 해결하기 위해 우리는 MLLM의 편차를 감사하여 실패 모드를 능동적으로 발견하고 수정하는 자동화 프레임워크인 AuditDM을 소개합니다. AuditDM은 강화 학습을 통해 MLLM을 감사관으로 미세 조정하여 대상 모델들 간의 불일치를 최대화하는 난해한 질문과 반사실적 이미지를 생성합니다. 일단 훈련이 완료되면, 이 감사관은 모델의 약점을 드러내는 다양하고 해석 가능한 예시들을 발견하며, 이를 통해 주석 없이도 수정을 위한 데이터로 활용할 수 있습니다. Gemma-3 및 PaliGemma-2와 같은 최신 모델에 적용했을 때, AuditDM은 20개 이상의 뚜렷한 실패 유형을 발견했습니다. 이러한 발견을 바탕으로 미세 조정을 수행한 결과, 16개 벤치마크에서 모든 모델의 성능이 지속적으로 향상되었으며, 3B 모델이 28B 모델의 성능을 능가하는 결과를 보였습니다. 우리의 결과는 데이터 확장의 한계가 나타나는 상황에서 표적 모델 감사가 모델 진단 및 개선을 위한 효과적인 방안이 될 수 있음을 시사합니다.

Insight Miner: 자연어와의 교차 도메인 정렬을 위한 시계열 분석 데이터셋
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12

ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang

시계열 데이터는 환경 분석, 농업, 교통, 금융 등 다양한 과학 및 산업 분야에서 핵심적인 역할을 합니다. 그러나 이러한 데이터에서 통찰력을 추출하는 작업은 일반적으로 깊은 영역 전문 지식을 요구하며, 시간과 노동이 많이 소요되는 과정입니다. 본 논문에서는 영역 특화 지식이 풍부하게 반영된 고품질의 포괄적인 시계열 설명을 생성하도록 설계된 대규모 다중모달 모델(LMM)인 Insight Miner를 제안합니다. 이를 위해 시계열과 언어 정렬을 위한 최초의 일반 영역 데이터셋인 TS-Insights\href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}를 도입했습니다. TS-Insights는 20개의 예측 데이터셋에서 추출한 10만 개의 시계열 창으로 구성되어 있습니다. 우리는 통계 도구를 사용해 원시 시계열에서 특징을 추출한 후 GPT-4를 활용하여 이를 일관된 추세 설명으로 합성하는 새로운 에이전트 기반 워크플로우를 통해 이 데이터셋을 구축했습니다. TS-Insights로 지시 튜닝을 수행한 후, Insight Miner는 시계열 설명 및 통찰력 생성 작업에서 LLaVA liu2023llava 및 GPT-4와 같은 최첨단 다중모달 모델들을 능가하는 성능을 보였습니다. 우리의 연구 결과는 시계열 분석에 LMM을 활용하는 유망한 방향을 제시하며, LLM이 시계열을 기본 입력 양식으로 해석할 수 있는 기반을 마련하는 중요한 단계가 될 것입니다.

확산 변환기를 위한 효율적인 학습 가능 로그-선형 희소 어텐션
Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers

Dec 18

ByYifan Zhou, Zeqi Xiao, Tianyi Wei, Shuai Yang, Xingang Pan

확산 트랜스포머(DiT)는 시각적 생성 분야에서 최첨단 성능을 보여주지만, 2차적인 자기 주의력(self-attention) 비용으로 인해 긴 토큰 시퀀스로의 확장이 근본적으로 제한됩니다. 최근의 Top-K 희소 주의력 접근법은 토큰을 블록 단위 표현으로 압축하고 소수의 관련 키 블록을 선택하여 DiT의 계산량을 줄이지만, 여전히 (i) 압축된 토큰에 대한 2차 선택 비용과 (ii) 시퀀스 길이가 증가함에 따라 모델 품질 유지를 위해 필요한 K 값 증가 문제가 발생합니다. 우리는 이러한 비효율성이 단일 수준 설계, 즉 단일한 coarse 수준이 전역 구조를 표현하기에 부족하기 때문임을 확인했습니다. 본 논문에서는 계층적 구조를 활용하여 선택 비용과 주의력 비용을 2차에서 로그-선형 복잡도로 감소시키는, 극도로 긴 토큰 시퀀스를 위한 학습 가능한 희소 주의력 메커니즘인 로그-선형 희소 주의력(LLSA)을 소개합니다. LLSA는 계층적 Top-K 선택을 수행하여 이전 수준에서 발견된 인덱스로 희소 Top-K 선택을 점진적으로 적용하며, 주의력 계산 시 다양한 세분화의 더 적은 토큰을 사용하면서도 전역 컨텍스트를 보존하는 계층적 키-값 강화(Hierarchical KV Enrichment) 메커니즘을 도입합니다. 효율적인 학습을 지원하기 위해 순전파와 역전파 모두에서 희소 인덱스만을 사용하는 고성능 GPU 구현을 개발하여 밀집 주의력 마스크의 필요성을 제거했습니다. 패치화와 VAE 인코딩을 사용하지 않고 고해상도 픽셀 공간 이미지 생성에 대해 LLSA를 평가했습니다. LLSA는 256x256 픽셀 토큰 시퀀스에서 주의력 추론 속도를 28.27배, DiT 학습 속도를 6.09배 가속시키면서도 생성 품질을 유지했습니다. 결과는 LLSA가 긴 시퀀스 DiT를 효율적으로 학습하기 위한 유망한 방향을 제시함을 보여줍니다. 코드는 https://github.com/SingleZombie/LLSA에서 확인할 수 있습니다.

FrameDiffuser: 신경 순방향 프레임 렌더링을 위한 G-버퍼 조건부 디퓨전
FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

Dec 18

ByOle Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch

인터랙티브 애플리케이션을 위한 신경망 렌더링은 기하학적 및 재질 특성(G-버퍼)을 프레임 단위로 사실적인 조명이 적용된 실제적 이미지로 변환하는 것을 요구한다. 최근 G-버퍼 조건 기반 이미지 합성을 위한 디퓨전 기반 접근법이 가능성을 보여주고 있지만, 중요한 한계에 직면해 있다: RGBX와 같은 단일 이미지 모델은 시간적 일관성 없이 프레임을 독립적으로 생성하는 반면, DiffusionRenderer와 같은 비디오 모델은 대부분의 소비자용 게임 환경에서는 계산 비용이 너무 높고 사전에 전체 시퀀스가 필요하여 향후 프레임이 사용자 입력에 의존하는 인터랙티브 애플리케이션에는 적합하지 않다. 우리는 G-버퍼 데이터와 모델 자체의 이전 출력을 조건으로 하여 시간적 일관성이 있는 실제적인 프레임을 생성하는 자기회귀 신경망 렌더링 프레임워크인 FrameDiffuser를 소개한다. 초기 프레임 이후 FrameDiffuser는 순수하게 들어오는 기하학, 재질, 표면 특성으로 구성된 G-버퍼 데이터만을 사용하면서, 이전에 생성된 프레임을 시간적 안내를 위해 활용하여 수백에서 수천 프레임에 걸쳐 안정적이고 시간적 일관성 있는 생성을 유지한다. 우리의 이중 조건화 아키텍처는 구조적 안내를 위한 ControlNet과 시간적 일관성을 위한 ControlLoRA를 결합한다. 3단계 학습 전략을 통해 안정적인 자기회귀 생성이 가능하다. 우리는 모델을 개별 환경에 특화시켜 광범위한 일반화보다 일관성과 추론 속도를 우선시하며, 환경 특화 학습이 일반화된 접근법에 비해 정확한 조명, 그림자, 반사를 갖춘 우수한 실제적 품질을 달성함을 입증한다.

양방향 정규화 흐름: 데이터에서 잡음으로 그리고 다시 돌아오기
Bidirectional Normalizing Flow: From Data to Noise and Back

Dec 11

ByYiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He

정규화 흐름(Normalizing Flows, NFs)은 생성 모델링을 위한 원리 기반 프레임워크로 정립되어 왔습니다. 표준 NF는 순방향 과정과 역방향 과정으로 구성됩니다: 순방향 과정은 데이터를 노이즈에 매핑하는 반면, 역방향 과정은 이를 역변환하여 샘플을 생성합니다. 일반적인 NF 순방향 변환은 명시적 가역성에 의해 제약을 받아, 역방향 과정이 정확한 해석적 역함수가 될 수 있도록 보장합니다. TARFlow와 그 변형 모델들의 최근 발전은 Transformer와 자기회귀 흐름을 결합하여 NF 방법을 재활성화했지만, 인과적 디코딩이 주요 병목 현상이라는 점도 드러냈습니다. 본 연구에서는 정확한 해석적 역함수 필요성을 제거하는 프레임워크인 양방향 정규화 흐름(Bidirectional Normalizing Flow, BiFlow)을 소개합니다. BiFlow는 기본적인 노이즈-데이터 역매핑을 근사하는 역모델을 학습하여 더 유연한 손실 함수와 아키텍처 사용을 가능하게 합니다. ImageNet에 대한 실험 결과, BiFlow는 인과적 디코딩 대비 생성 품질을 향상시키면서 샘플링 속도를 최대 두 배 가량 가속화하는 것으로 나타났습니다. BiFlow는 NF 기반 방법 중 최첨단 성능을 보였으며, 단일 평가("1-NFE") 방법 중에서도 경쟁력 있는 성능을 달성했습니다. NF 분야의 최근 고무적인 발전에 이어, 본 연구가 이 고전적 패러다임에 대한 추가적인 관심을 끌기를 바랍니다.

언어 모델의 일반 추론을 위한 결합 변분 강화 학습
Coupled Variational Reinforcement Learning for Language Model General Reasoning

Dec 14

ByXueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang

강화 학습은 언어 모델 추론 분야에서 인상적인 진전을 이루었지만, 검증 가능한 보상이 필요하다는 제약이 있습니다. 최근의 검증기 없는 RL 방법론은 LLM이 참조 답변을 생성하는 내재적 확률을 보상 신호로 활용하여 이러한 한계를 해결하고 있습니다. 그러나 이러한 접근법은 일반적으로 질문만을 조건으로 한 추론 흔적을 샘플링합니다. 이러한 설계는 추론 흔적 샘플링과 답변 정보를 분리하여 비효율적인 탐색과 흔적-최종 답변 간 비일관성을 초래합니다. 본 논문에서는 변분 추론과 강화 학습을 하이브리드 샘플링 전략을 통해 사전 분포와 사후 분포를 결합하여 연결하는 \textbf{결합 변분 강화 학습}(CoVRL)을 제안합니다. 이 두 분포를 통합한 복합 분포를 구성하고 최적화함으로써 CoVRL은 강력한 사고-답변 일관성을 유지하면서 효율적인 탐색을 가능하게 합니다. 수학적 및 일반 추론 벤치마크에서의 광범위한 실험 결과, CoVRL은 기본 모델 대비 12.4%의 성능 향상을 보였으며, 강력한 최신 검증기 없는 RL 기준선 대비 추가로 2.3%의 향상을 달성하여 언어 모델의 일반 추론 능력 향상을 위한 원칙적인 프레임워크를 제공합니다.

Make-It-Poseable: 3D 휴머노이드 캐릭터 애니메이션을 위한 피드포워드 잠재 포징 모델
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation

Dec 18

ByZhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li

3D 캐릭터 포즈 지정은 컴퓨터 그래픽스 및 비전 분야의 핵심 과제입니다. 그러나 자동 리깅 및 포즈 조건 생성과 같은 기존 방법들은 정확하지 않은 스키닝 가중치 예측, 위상학적 결함, 불충분한 포즈 일치 등과 같은 문제로 인해 견고성과 일반화 성능이 제한되는 경우가 많습니다. 이러한 한계를 극복하기 위해 우리는 캐릭터 포즈 지정을 잠재 공간 변환 문제로 재정의하는 새로운 피드포워드 프레임워크인 Make-It-Poseable을 제안합니다. 기존 파이프라인처럼 메쉬 정점을 변형하는 대신, 우리의 방법은 잠재 표현을 직접 조작하여 새로운 포즈에서 캐릭터를 재구성합니다. 우리 방법의 핵심은 골격 운동을 기반으로 형태 토큰을 조작하는 잠재 포즈 변환기입니다. 이 과정은 정밀한 제어를 위한 밀집 포즈 표현에 의해 용이해집니다. 높은 충실도의 기하학적 구조를 보장하고 위상학적 변화를 수용하기 위해, 우리는 잠재 공간 감독 전략과 적응형 완성 모듈도 도입했습니다. 우리의 방법은 포즈 지정 품질에서 우수한 성능을 입증합니다. 또한 부품 교체 및 정교화와 같은 3D 편집 응용 프로그램으로 자연스럽게 확장됩니다.

MomaGraph: 체화된 작업 계획을 위한 비전-언어 모델 기반 상태 인식 통합 장면 그래프
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Dec 18

ByYuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath

가정용 모바일 매니퓰레이터는 이동과 조작을 모두 수행해야 합니다. 이를 위해서는 객체의 위치, 기능적 특성, 조작 가능한 부위를 포착하는 컴팩트하면서도 의미론적으로 풍부한 장면 표현이 필요합니다. 장면 그래프는 자연스러운 선택지이나, 기존 연구에서는 공간적 관계와 기능적 관계를 분리하거나 객체 상태나 시간적 갱신이 없는 정적 스냅샷으로 장면을 처리하며, 현재 작업 수행에 가장 관련된 정보를 간과하는 경향이 있었습니다. 이러한 한계를 해결하기 위해 우리는 구현형 에이전트를 위한 공간-기능 관계와 부위 수준 상호작용 요소를 통합한 통합 장면 표현인 MomaGraph를 제안합니다. 그러나 이러한 표현의 발전에는 적절한 데이터와 엄격한 평가가 모두 필요하며, 이는 지금까지 크게 부족했습니다. 이에 우리는 가정 환경에서 풍부하게 주석 처리된 작업 중심 장면 그래프의 첫 번째 대규모 데이터셋인 MomaGraph-Scenes와 상위 수준 계획부터 세부 장면 이해에 이르는 6가지 추론 능력을 아우르는 체계적인 평가 도구인 MomaGraph-Bench를 공개합니다. 이 기반 위에 우리는 MomaGraph-Scenes로 강화 학습을 통해 훈련된 70억 개 파라미터 비전-언어 모델인 MomaGraph-R1을 추가 개발했습니다. MomaGraph-R1은 작업 지향적 장면 그래프를 예측하며 Graph-then-Plan 프레임워크 하에서 제로샷 작업 계획자 역할을 수행합니다. 광범위한 실험을 통해 우리 모델이 오픈소스 모델 중 최첨단 성능을 달성하여 벤치마크에서 71.6% 정확도(기존 최고 베이스라인 대비 +11.4% 향상)에 도달함과 동시에 공개 벤치마크에서 일반화 성능을 발휘하고 실제 로봇 실험으로 효과적으로 전이됨을 입증했습니다.

마음 속 추론: 잠재 공간에서의 동적 다중 모달 인터리빙
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

Dec 14

ByChengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang

최근 멀티모달 대규모 언어 모델(MLLMs)의 발전은 의미 공간에서의 사고 연쇄(CoT) 추론을 통합하여 교차 모달 이해 및 추론 능력을 크게 향상시켰습니다. 이를 기반으로 한 최근 연구들은 CoT 메커니즘을 시각 모달리티로 확장하여 외부 도구나 명시적 이미지 생성을 통해 추론 과정에 시각 정보를 통합할 수 있도록 했습니다. 그러나 이러한 방법들은 여전히 명시적인 단계별 추론에 의존하며, 불안정한 지각-추론 상호작용과 상당한 계산 오버헤드라는 한계를 지닙니다. 인간의 인지 과정에서 영감을 받아, 우리는 사고가 선형적으로가 아니라 마음속에서 추론과 지각이 동적으로 교차하며 전개된다고 가정합니다. 이러한 관점에 기반하여, 우리는 테스트 타임에 동작하는 동적 멀티모달 잠재 추론 프레임워크인 DMLR을 제안합니다. DMLR은 신뢰도 기반 잠재 정책 경사 최적화를 사용하여 잠재 생각 토큰(latent think tokens)을 정제하여 심층 추론을 수행합니다. 더 나아가, 각 잠재 생각 토큰에서 가장 관련성 높은 시각 특징을 검색하고 최적의 시각 패치 집합을 업데이트하는 동적 시각 주입 전략(Dynamic Visual Injection Strategy)을 도입합니다. 업데이트된 패치는 이후 잠재 생각 토큰에 주입되어 동적인 시각-텍스트 간 교차를 실현합니다. 7개의 멀티모달 추론 벤치마크와 다양한 모델 아키텍처에서 진행된 실험을 통해 DMLR이 높은 추론 효율성을 유지하면서 추론 및 지각 성능을 크게 향상시킴을 입증했습니다.

시각적 개념을 창의적으로 연결하고 표현하는 공간, 바이브
Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

Dec 16

ByHuzheng Yang, Katherine Xu, Andrew Lu, Michael D. Grossberg, Yutong Bai, Jianbo Shi

새로운 시각적 개념을 창조하는 것은 종종 서로 다른 아이디어들을 가장 관련성 높은 공통 속성, 즉 '바이브(vibe)'를 통해 연결하는 것을 필요로 합니다. 우리는 이미지 간의 이러한 공유 속성을 드러내는 일관성 있고 의미 있는 하이브리드를 생성하는 새로운 과제인 '바이브 블렌딩(Vibe Blending)'을 소개합니다. 이러한 혼합을 달성하는 것은 잠재 공간에서 먼 개념들을 연결하는 비선형 경로를 식별하고 따라가는 데 어려움을 겪는 기존 방법들에게는 어려운 과제입니다. 우리는 CLIP과 같은 특징 공간에서 저차원 측지선(geodesic)을 학습하여 개념 간의 매끄럽고 의미론적으로 일관된 전환을 가능하게 하는 계층적 그래프 매니폴드인 '바이브 스페이스(Vibe Space)'를 제안합니다. 창의적 품질을 평가하기 위해 인간의 판단, LLM 추론, 그리고 기하학적 경로 기반 난이도 점수를 결합한 인지 과학에 기반한 평가 프레임워크를 설계했습니다. 우리는 Vibe Space가 기존 방법들보다 인간이 일관되게 더 창의적이고 일관성 있다고 평가하는 혼합 결과를 생성함을 확인했습니다.

TabReX: 참조 없는 표 형식 설명 가능 평가
TabReX : Tabular Referenceless eXplainable Evaluation

Dec 17

ByTejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta

대규모 언어 모델(LLM)이 생성한 표의 품질을 평가하는 것은 여전히 해결되지 않은 과제로 남아 있습니다: 기존 평가 지표는 구조를 무시한 채 표를 텍스트로 평면화하거나 일반화를 제한하는 고정된 참조에 의존합니다. 본 논문에서는 그래프 기반 추론을 통해 표 생성 평가를 수행하는 참조 없음(reference-less) 및 속성 주도(property-driven) 프레임워크인 TabReX를 제안합니다. TabReX는 원본 텍스트와 생성된 표를 표준 지식 그래프로 변환하고, LLM 기반 매칭 프로세스를 통해 정렬하며, 구조적 및 사실적 정확도를 정량화하는 해석 가능하고 루브릭 인식(rubbrubric-aware) 점수를 계산합니다. 이를 통해 민감도와 특이도 간 제어 가능한 균형을 제공하며, 인간의 판단과 일치하는 평가 및 셀 수준 오류 추적을 가능하게 합니다. 평가 지표의 강건성을 체계적으로 평가하기 위해 6개 도메인과 3개 난이도 계층에 걸친 12가지 플래너 주도(planner-driven) 변형 유형을 포함하는 대규모 벤치마크인 TabReX-Bench를 도입합니다. 실험 결과, TabReX는 전문가 순위와 가장 높은 상관관계를 달성하며, 더 어려운 변형 조건에서도 안정적인 성능을 유지하고, 세분화된 모델 대 프롬프트 분석을 가능하게 하여 구조化 생성 시스템에 대한 신뢰할 수 있고 설명 가능한 평가의 새로운 패러다임을 정립합니다.

LoRA 혼합을 통한 재귀적 트랜스포머 성능 향상
Improving Recursive Transformers with Mixture of LoRAs

Dec 14

ByMohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian

재귀적 트랜스포머에서의 매개변수 공유는 모델 크기를 줄이지만 계층별 표현력을 약화시킵니다. 본 연구에서는 공유된 순전파 신경망(FFN) 내부에 LoRA 전문가들을 삽입하는 경량 조건부 계산 메커니즘인 Mixture of LoRAs(MoL)를 제안합니다. MoL은 고정되거나 외부에 부착된 어댑터를 추가하는 기존 접근법과 달리, 백본 매개변수를 분리하지 않고도 공유 FFN의 토큰 조건부 가중치 공간 변조를 가능하게 합니다. 우리는 로터리 임베딩, GeGLU, FlashAttention 및 지식 증류 기반 초기화를 통합한 현대화된 재귀 구조인 ModernALBERT를 사전 학습했습니다. GLUE, SQuAD-v2, BEIR 벤치마크에서 ModernALBERT(50M–120M)는 컴팩트 모델 중 최고 성능을 달성하고 더 큰 완전 매개변수화 기준 모델들을 능가했습니다. 또한 추론 시 정확도를 유지하면서 MoL을 단일 어댑터로 압축하는 전문가 병합 절차를 제안하여 효율적인 배포를 가능하게 합니다. 우리의 결과는 조건부 가중치 공간 변조가 재귀적 트랜스포머의 공격적 매개변수 공유 하에서 상실된 표현력을 효과적으로 회복시킴을 보여줍니다.

EmoCaliber: 신뢰도 언어화 및 보정을 통한 신뢰할 수 있는 시각 감정 이해의 발전
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

Dec 17

ByDaiqing Wu, Dongbao Yang, Can Ma. Yu Zhou

시각적 감정 이해(VEC)는 이미지에 내재된 감정적 단서로부터 감정 극성이나 감정 범주를 추론하는 것을 목표로 합니다. 최근 멀티모달 대규모 언어 모델(MLLM)은 다양한 감정 분류 체계 아래 정의된 VEC 과제들을 통합할 수 있는 일반화 능력을 바탕으로 VEC 분야에서 널리 사용되는 패러다임을确立했습니다. 이러한 패러다임은 뚜렷한 성공을 거두고 있지만, 일반적으로 VEC를 결정론적 과제로 구성하여 모델이 각 이미지에 대해 단일하고 명확한 감정 레이블을 출력하도록 요구합니다. 이러한 구성은 감정 인식의 본질적인 주관성을 충분히 고려하지 못하며, 다른 관찰자에게 동등하게 타당할 수 있는 대체 해석들을 간과합니다. 이러한 한계를 해결하기 위해 우리는 MLLM이 감정 예측에 대한 자신의 확신을 언어화하는 능력을 갖추도록 제안합니다. 이 추가 신호는 사용자에게 대체 해석의 타당성과 MLLM의 자체 평가된 능력에 대한 추정치를 제공함으로써 실질적인 신뢰성을 향상시킵니다. 이러한 통찰을 바탕으로, 우리는 구조적 추론 능력을 점진적으로 부여하고, 확신을 언어화하도록 가르치며, 확신 표현을 보정하는 3단계 학습 프레임워크를 도입하여, VEC를 위한 확신 인식 MLLM인 EmoCaliber를 개발했습니다. 통합 벤치마크 VECBench에 대한 공정하고 포괄적인 평가를 통해 EmoCaliber는 감정 예측과 확신 추정 모두에서 기존 방법들 대비 전반적인 우수성을 입증했습니다. 이러한 결과는 우리 접근법의 효과성을 검증하고, 더 신뢰할 수 있는 VEC 시스템을 향한 실현 가능한 한 걸음을 내디딘 것입니다. 프로젝트 페이지: https://github.com/wdqqdw/EmoCaliber.

Nemotron-Math: 다중 모드 감독을 통한 효율적인 장문 맥락 수학적 추론 증류
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

Dec 17

ByWei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman

고품질 수학 추론 감독을 위해서는 다양한 추론 스타일, 장문의 추론 과정, 효과적인 도구 통합이 필요하나, 기존 데이터셋은 이러한 역량을 제한적으로만 제공합니다. 우리는 gpt-oss-120b의 다중 모드 생성 능력을 활용하여 고, 중, 저 수준의 추론 모드 각각에 대해 Python 도구 통합 추론(TIR) 적용 여부를 달리한 총 750만 개의 해결 과정을 포함하는 대규모 수학 추론 데이터셋인 Nemotron-Math를 소개합니다. 이 데이터셋은 정제된 85,000개의 AoPS 문제와 커뮤니티에서 수집된 262,000개의 StackExchange-Math 문제를 통합하여 구조화된 경쟁 과제와 다양한 실제 수학적 질의를 결합했습니다. 데이터셋 품질을 평가하기 위해 통제된 평가를 수행하였습니다. Nemotron-Math는 동일한 AoPS 문제에 대해 원본 OpenMathReasoning을 지속적으로 능가했습니다. StackExchange-Math를 통합하면 수학 경시대회 벤치마크의 정확도를 유지하면서도, 특히 HLE-Math에서 견고성과 일반화 능력을 크게 향상시켰습니다. 효율적인 장문맥 학습을 지원하기 위해, 정확도 손실 없이 128K 컨텍스트 길이 미세 조정 속도를 2~3배 가속화하는 순차적 버킷팅 전략을 개발했습니다. 전반적으로 Nemotron-Math는 Python TIR을 적용 시 AIME 2024 및 2025에서 100% maj@16 정확도를 포함한 최첨단 성능을 가능하게 합니다.

프롬프트와 프로그램 간 상태 공유
Sharing State Between Prompts and Programs

Dec 16

ByEllie Y. Cheng, Logan Weber, Tian Jin, Michael Carbin

대규모 언어 모델(LLM)의 부상은 새로운 유형의 프로그래밍, 즉 자연어 프로그래밍을 등장시켰습니다. 사용자가 LLM에게 자연어 처리, 코드 생성, 추론 등을 수행하도록 지시하는 프롬프트를 작성함으로써, 사용자는 LLM이 실행할 자연어 코드를 자연어로 작성하고 있습니다. 최근 연구 동향은 이러한 자연어 코드와 Python과 같은 형식 언어 간의 상호 운용성을 가능하게 하는 데 주목하고 있습니다. 본 논문은 자연어 코드와 프로그램 상태 간의 상호 운용성을 가능하게 하는 데 필요한 수동 작업을 제거하는 새로운 프로그래밍 추상화인 공유 프로그램 상태를 제안합니다. 공유 프로그램 상태를 통해 프로그래머는 프로그램 변수를 직접 작성하고, 프로그램 객체로 계산하며, 프로그램 내에서 제어 흐름을 구현하는 자연어 코드를 작성할 수 있습니다. 또한 프로그래밍 시스템을 확장하여 자연어 코드를 지원하도록 하는 자연 함수 인터페이스 명세 스키마를 제시하고, 이 스키마를 활용하여 공유 프로그램 상태를 자연 함수 인터페이스로 규정합니다. 공유 프로그램 상태는 Nightjar 프로그래밍 시스템에 구현되었습니다. Nightjar를 사용하면 프로그래머는 Python 프로그램 상태를 공유하는 자연어 코드를 포함하는 Python 프로그램을 작성할 수 있습니다. 실험 결과, Nightjar 프로그램은 수동으로 작성된 구현보다 동등하거나 더 높은 작업 정확도(+4-19%)를 달성하면서도 코드 라인 수를 평균 39.6% 줄일 수 있음을 보여줍니다. Nightjar 사용의 단점은 런타임 오버헤드가 발생할 수 있다는 점입니다(수동 구현 대비 0.4-4.3배의 런타임).

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

클링-옴니 기술 보고서
Kling-Omni Technical Report

Dec 18

122

에이전트형 AI의 적응
Adaptation of Agentic AI

Dec 18

LLaDA2.0: 확산 언어 모델을 1000억 파라미터 규모로 확장
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10

다음 임베딩 예측이 강력한 시각 학습자를 만든다
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18

BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu

StereoPilot: 생성적 사전 지식을 통한 통합적이고 효율적인 스테레오 변환 학습
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18

ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen

Seedance 1.5 pro: 네이티브 오디오-비주얼 통합 생성 기반 모델
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15

Depth Any Panoramas: 파노라마 깊이 추정을 위한 파운데이션 모델
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18

ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi

생성적 재초점: 단일 이미지로 구현하는 유연한 초점 외 제어
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18

ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

디콘텍스트를 통한 방어: 디퓨전 트랜스포머에서의 안전한 이미지 편집
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18

ByLinghui Shen, Mingyue Cui, Xingyi Yang

연금술사: 메타-그래디언트 데이터 선택을 통한 텍스트-이미지 모델 학습 효율 극대화
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18

ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao

세상은 당신의 캔버스: 참조 이미지, 궤적, 텍스트로 프롬프트 가능한 이벤트 그리기
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen

REGLUE: 전역 및 지역 의미 정보를 활용한 잠재 공간 얽힘 확산 모델
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18

ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou

N3D-VLM: 네이티브 3D 기반 접근법을 통한 비전-언어 모델의 정확한 공간 추론 능력 구현
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18

ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu

JustRL: 단순한 RL 레시피로 1.5B LLM 확장하기
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18

ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu

AdaTooler-V: 이미지 및 비디오를 위한 적응형 도구 활용
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18

ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue

EasyV2V: 고품질 지시 기반 비디오 편집 프레임워크
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18

ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei

FlashPortrait: 적응형 잠재 예측으로 6배 빠른 무한 인물 애니메이션
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18

ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu

멀티모달 리워드벤치 2: 인터리브 텍스트 및 이미지를 위한 옴니 리워드 모델 평가
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18

ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad

탐험 대 활용: 클리핑, 엔트로피, 그리고 허위 보상을 통한 RLVR 재고
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18

ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

RePlan: 복잡한 지시 기반 이미지 편집을 위한 추론 기반 영역 계획
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18

ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia

ModelTables: 모델 관련 표 코퍼스
ModelTables: A Corpus of Tables about Models

Dec 18

ByZhengyuan Dong, Victor Zhong, Renée J. Miller

VenusBench-GD: 다양한 접지 작업을 위한 종합 멀티플랫폼 GUI 벤치마크
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18

ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

음성 양식 통합의 LLM 적용 효과: 듣기와 번역
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18

BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle

차이를 만드는 차이: 역량 격차 발견과 개선을 위한 모델 감사
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18

ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu

Insight Miner: 자연어와의 교차 도메인 정렬을 위한 시계열 분석 데이터셋
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12

ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang