ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Seed1.5-VL 기술 보고서
Seed1.5-VL Technical Report

May 11, 2025
Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song
1464

우리는 일반적인 목적의 멀티모달 이해와 추론을 발전시키기 위해 설계된 비전-언어 기반 모델인 Seed1.5-VL을 소개합니다. Seed1.5-VL은 532M 파라미터의 비전 인코더와 20B 활성 파라미터를 가진 Mixture-of-Experts(MoE) 대형 언어 모델(LLM)로 구성되어 있습니다. 비교적 간결한 아키텍처임에도 불구하고, 이 모델은 다양한 공개 VLM 벤치마크와 내부 평가 스위트에서 강력한 성능을 보여주며, 60개 공개 벤치마크 중 38개에서 최첨단 성능을 달성했습니다. 또한, GUI 제어 및 게임 플레이와 같은 에이전트 중심 작업에서 Seed1.5-VL은 OpenAI CUA와 Claude 3.7을 포함한 주요 멀티모달 시스템을 능가합니다. 비디오 및 영상 이해를 넘어서, 이 모델은 강력한 추론 능력을 보여주며, 특히 시각적 퍼즐과 같은 멀티모달 추론 과제에 효과적입니다. 우리는 이러한 능력이 다양한 작업에 걸쳐 더 넓은 응용을 가능하게 할 것이라고 믿습니다. 이 보고서에서는 주로 모델 설계, 데이터 구축, 다양한 단계의 훈련을 통해 Seed1.5-VL을 구축한 경험을 종합적으로 검토하며, 이 보고서가 추가 연구에 영감을 줄 수 있기를 바랍니다. Seed1.5-VL은 현재 https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428)에서 접근 가능합니다.

MiMo: 언어 모델의 추론 능력 개방 - 사전 학습에서 사후 학습까지
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025
Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
806

우리는 추론 작업을 위해 태어난 대규모 언어 모델인 MiMo-7B를 소개하며, 사전 학습과 사후 학습 단계 모두에서 최적화를 진행했습니다. 사전 학습 단계에서는 데이터 전처리 파이프라인을 강화하고, 세 단계의 데이터 혼합 전략을 사용하여 기본 모델의 추론 잠재력을 강화했습니다. MiMo-7B-Base는 25조 개의 토큰으로 사전 학습되었으며, 성능 향상과 추론 속도 가속을 위해 추가적인 다중 토큰 예측 목표를 적용했습니다. 사후 학습 단계에서는 검증 가능한 13만 개의 수학 및 프로그래밍 문제 데이터셋을 강화 학습에 활용하고, 테스트 난이도 기반의 코드 보상 체계를 통합하여 희소 보상 문제를 완화하며, 전략적 데이터 리샘플링을 통해 학습 안정성을 확보했습니다. 광범위한 평가 결과, MiMo-7B-Base는 탁월한 추론 잠재력을 보유하며, 훨씬 더 큰 32B 모델을 능가하는 성능을 보였습니다. 최종 강화 학습 튜닝 모델인 MiMo-7B-RL은 수학, 코드 및 일반 추론 작업에서 우수한 성능을 달성하여 OpenAI o1-mini의 성능을 뛰어넘었습니다. 모델 체크포인트는 https://github.com/xiaomimimo/MiMo에서 확인할 수 있습니다.

Step1X-3D: 고품질 텍스처 3D 자산의 제어 가능한 생성 기술
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025
Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
603

생성형 인공지능이 텍스트, 이미지, 오디오, 비디오 영역에서 상당히 발전했음에도 불구하고, 3D 생성은 데이터 부족, 알고리즘적 한계, 생태계 분열과 같은 근본적인 문제들로 인해 상대적으로 미흡한 상태입니다. 이를 해결하기 위해, 우리는 Step1X-3D를 제안합니다. 이는 다음과 같은 방법으로 이러한 문제들을 해결하는 오픈 프레임워크입니다: (1) 500만 개 이상의 자산을 처리하여 표준화된 기하학적 및 텍스처 속성을 가진 200만 개의 고품질 데이터셋을 생성하는 엄격한 데이터 큐레이션 파이프라인; (2) 하이브리드 VAE-DiT 기하학 생성기와 확산 기반 텍스처 합성 모듈을 결합한 2단계 3D 네이티브 아키텍처; (3) 모델, 학습 코드, 적응 모듈의 완전한 오픈소스 공개. 기하학 생성의 경우, 하이브리드 VAE-DiT 구성 요소는 디테일 보존을 위한 날카로운 엣지 샘플링과 퍼시버 기반 잠재 인코딩을 사용하여 TSDF 표현을 생성합니다. 확산 기반 텍스처 합성 모듈은 기하학적 조건화와 잠재 공간 동기화를 통해 크로스 뷰 일관성을 보장합니다. 벤치마크 결과는 기존의 오픈소스 방법들을 능가하는 최첨단 성능을 보여주며, 독점 솔루션과도 경쟁력 있는 품질을 달성합니다. 특히, 이 프레임워크는 2D 제어 기술(예: LoRA)을 3D 합성으로 직접 전환할 수 있도록 지원함으로써 2D와 3D 생성 패러다임을 독창적으로 연결합니다. Step1X-3D는 데이터 품질, 알고리즘 충실도, 재현성을 동시에 발전시켜 제어 가능한 3D 자산 생성 분야의 오픈 연구에 새로운 기준을 세우고자 합니다.

추론 모델에서 동료 학습
Learning from Peers in Reasoning Models

May 12, 2025
Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
454

대규모 추론 모델(Large Reasoning Models, LRMs)은 추론 과정에서 실수를 하더라도 스스로 이를 수정할 수 있는 능력을 가지고 있습니다. 그러나 본 연구에 따르면, 추론 과정이 짧지만 부정확한 시작점에서 출발할 경우 모델이 이를 회복하기 어려운 현상이 나타납니다. 우리는 이 현상을 "접두어 지배 함정(Prefix Dominance Trap)"이라고 명명했습니다. 심리학 연구에서 동료 간 상호작용이 이미 정확한 개인에게는 부정적인 영향을 미치지 않으면서도 자기 수정을 촉진할 수 있다는 점에 영감을 받아, 이 현상을 해결하기 위해 **동료 학습(Learning from Peers, LeaP)**을 제안합니다. 구체적으로, 모든 토큰에서 각 추론 경로는 중간 추론 결과를 요약하고 라우팅 메커니즘을 통해 다른 경로와 공유함으로써, 추론 과정에서 동료의 통찰을 반영할 수 있게 합니다. 그러나 더 작은 모델의 경우 요약 및 반영 지시를 효과적으로 따르지 못하는 경우가 관찰되었습니다. 이를 해결하기 위해 우리는 이러한 모델을 **LeaP-T** 모델 시리즈로 미세 조정했습니다. AIME 2024, AIME 2025, AIMO 2025, GPQA Diamond에서의 실험 결과, LeaP는 상당한 성능 향상을 제공하는 것으로 나타났습니다. 예를 들어, LeaP를 적용한 QwQ-32B는 기준선보다 평균적으로 약 5포인트 높은 성능을 보였으며, 세 가지 수학 벤치마크에서 DeepSeek-R1-671B를 평균 3.3포인트 차이로 능가했습니다. 특히, 미세 조정된 LeaP-T-7B는 AIME 2024에서 DeepSeek-R1-Distill-Qwen-14B와 동등한 성능을 보였습니다. 심층 분석 결과, LeaP는 적시에 동료의 통찰을 통해 강력한 오류 수정 능력을 보여주며, 강한 오류 허용력과 다양한 작업 난이도를 처리할 수 있는 것으로 나타났습니다. LeaP는 LRM이 추론 과정에서 협력할 수 있게 함으로써 중요한 이정표를 세웠습니다. 우리의 코드, 데이터셋, 모델은 https://learning-from-peers.github.io/에서 확인할 수 있습니다.

통합 연속 생성 모델
Unified Continuous Generative Models

May 12, 2025
Peng Sun, Yi Jiang, Tao Lin
443

최근 확산 모델(diffusion) 및 플로우 매칭(flow-matching)과 같은 다단계 접근법(일반적으로 8-1000 샘플링 단계 필요)과 일관성 모델(consistency models)과 같은 소수 단계 방법(일반적으로 1-8 단계)을 포함한 연속 생성 모델(continuous generative models)의 발전은 인상적인 생성 성능을 보여주고 있습니다. 그러나 기존 연구에서는 이러한 접근법을 별개의 패러다임으로 취급하여 별도의 학습 및 샘플링 방법론을 사용하는 경우가 많았습니다. 본 연구에서는 이러한 모델들을 학습, 샘플링 및 분석하기 위한 통합 프레임워크를 소개합니다. 우리의 구현체인 통합 연속 생성 모델 학습기 및 샘플러(Unified Continuous Generative Models Trainer and Sampler, UCGM-{T,S})는 최첨단(state-of-the-art, SOTA) 성능을 달성했습니다. 예를 들어, ImageNet 256x256 데이터셋에서 675M 확산 트랜스포머를 사용하여 UCGM-T는 다단계 모델을 학습시켜 20단계에서 1.30 FID를 달성했으며, 소수 단계 모델은 단 2단계에서 1.42 FID를 기록했습니다. 또한, 사전 학습된 모델(이전에는 250단계에서 1.26 FID)에 UCGM-S를 적용하면 단 40단계에서 1.06 FID로 성능이 향상되었습니다. 코드는 https://github.com/LINs-lab/UCGM에서 확인할 수 있습니다.

REFINE-AF: 자동화된 피드백을 통한 강화 학습을 활용해 자체 생성 지시문으로 언어 모델을 정렬하는 작업 불가지론적 프레임워크
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025
Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
306

명령어 기반 대형 언어 모델(LLMs)은 다양한 퓨샷(few-shot) 또는 제로샷(zero-shot) 자연어 처리(NLP) 작업에서 효과적인 것으로 입증되었습니다. 그러나 인간이 주석을 단 명령어 데이터를 생성하는 것은 시간이 많이 소요되고 비용이 많이 들며, 종종 양과 작업 다양성에 제한이 있습니다. 이전 연구에서는 모델 자체에서 반자동적이고 작업에 구애받지 않는 방식으로 명령어를 생성할 수 있는 프레임워크를 제안하여 이러한 문제를 해결하려고 시도했습니다. 이러한 많은 연구들은 GPT-3.5 (175B)와 같은 대형 API 전용 파라미터 기반 모델에 의존했는데, 이는 비용이 많이 들고 쿼리 수에 제한이 있습니다. 본 논문은 LLaMA 2-7B, LLaMA 2-13B, Mistral 7B와 같은 세 가지 오픈소스 소형 LLM의 성능을 반자동화 프레임워크를 사용하여 탐구함으로써, LLM을 미세 조정하기 위한 명령어 데이터셋 생성에 필요한 인간의 개입, 노력 및 비용을 줄입니다. 더 나아가, 이러한 LLM 기반 프레임워크에 강화 학습(RL) 기반 훈련 알고리즘을 통합하면 추가적인 개선이 이루어짐을 보여줍니다. 데이터셋에 대한 평가 결과, 이러한 RL 기반 프레임워크는 이전 접근 방식에 비해 63-66%의 작업에서 상당한 개선을 달성했습니다.

DanceGRPO: 시각적 생성에 GRPO를 적용하다
DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025
Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
293

최근 생성 모델, 특히 확산 모델(diffusion models)과 정류 흐름(rectified flows)의 획기적인 발전으로 시각적 콘텐츠 생성이 혁신되었지만, 모델 출력을 인간의 선호도와 일치시키는 것은 여전히 중요한 과제로 남아 있습니다. 기존의 강화 학습(RL) 기반 시각적 생성 방법들은 현대적인 상미분 방정식(ODEs) 기반 샘플링 패러다임과의 비호환성, 대규모 훈련에서의 불안정성, 그리고 비디오 생성에 대한 검증 부족 등의 심각한 한계를 가지고 있습니다. 본 논문은 DanceGRPO를 소개하며, 이는 Group Relative Policy Optimization(GRPO)을 시각적 생성 패러다임에 적용한 최초의 통합 프레임워크로, 두 가지 생성 패러다임(확산 모델과 정류 흐름), 세 가지 작업(텍스트-이미지, 텍스트-비디오, 이미지-비디오), 네 가지 기반 모델(Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), 그리고 다섯 가지 보상 모델(이미지/비디오 미학, 텍스트-이미지 정렬, 비디오 모션 품질, 이진 보상)에 걸쳐 하나의 통합 RL 알고리즘을 적용합니다. 우리가 아는 한, DanceGRPO는 다양한 생성 패러다임, 작업, 기반 모델, 그리고 보상 모델에 걸쳐 원활하게 적응할 수 있는 최초의 RL 기반 통합 프레임워크입니다. DanceGRPO는 HPS-v2.1, CLIP Score, VideoAlign, GenEval과 같은 벤치마크에서 기준선을 최대 181%까지 능가하는 일관적이고 상당한 개선을 보여줍니다. 특히, DanceGRPO는 복잡한 비디오 생성을 위한 정책 최적화를 안정화할 뿐만 아니라, Best-of-N 추론 스케일링을 위한 노이즈 제거 궤적을 더 잘 포착하고 희소한 이진 피드백으로부터 학습할 수 있도록 생성 정책을 가능하게 합니다. 우리의 결과는 DanceGRPO가 시각적 생성에서 인간 피드백 기반 강화 학습(RLHF) 작업을 확장하기 위한 견고하고 다재다능한 솔루션임을 입증하며, 강화 학습과 시각적 합성을 조화롭게 하는 데 새로운 통찰을 제공합니다. 코드는 공개될 예정입니다.

Skywork-VL Reward: 다중 모달 이해와 추론을 위한 효과적인 보상 모델
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025
Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
293

우리는 다중모달 이해 및 추론 과제 모두에 대해 보상 신호를 제공하는 다중모달 보상 모델인 Skywork-VL Reward를 제안한다. 우리의 기술적 접근 방식은 두 가지 핵심 구성 요소로 이루어져 있다: 첫째, 광범위한 과제와 시나리오를 포괄하는 대규모 다중모달 선호도 데이터셋을 구축하며, 이때 표준 시각-언어 모델(VLMs)과 고급 VLM 추론기로부터 응답을 수집한다. 둘째, Qwen2.5-VL-7B-Instruct를 기반으로 한 보상 모델 아키텍처를 설계하여, 보상 헤드를 통합하고 쌍별 선호도 데이터에 대해 쌍별 순위 손실을 적용한 다단계 미세 조정을 수행한다. 실험 평가 결과, Skywork-VL Reward는 다중모달 VL-RewardBench에서 최첨단 성능을 달성하며, 텍스트 전용 RewardBench 벤치마크에서도 경쟁력 있는 성능을 보인다. 또한, Skywork-VL Reward를 기반으로 구축된 선호도 데이터는 Mixed Preference Optimization(MPO) 훈련에 매우 효과적임이 입증되어, 다중모달 추론 능력에서 상당한 개선을 이끌어낸다. 우리의 결과는 Skywork-VL Reward가 다중모달 정렬을 위한 일반 목적의 신뢰할 수 있는 보상 모델로의 중요한 진전임을 강조한다. 우리 모델은 투명성과 재현성을 촉진하기 위해 공개되었다.

AttentionInfluence: 약한 데이터에서 강한 데이터로의 사전 학습 데이터 선택을 위한 어텐션 헤드 영향력 활용
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12, 2025
Kai Hua, Steven Wu, Ge Zhang, Ke Shen
262

최근, LLM의 복잡한 추론 능력을 향상시키기 위해 추론 집약적인 사전 학습 데이터를 수집하는 데 대한 관심이 증가하고 있다. 기존 접근 방식은 일반적으로 이러한 데이터를 식별하기 위해 지도 학습 분류기에 의존하며, 이는 인간이나 LLM에 의한 라벨링을 필요로 하여 종종 도메인 특정 편향을 유발한다. 어텐션 헤드가 문맥 내 추론에 중요한 역할을 한다는 점에 착안하여, 우리는 지도 신호 없이도 간단하면서도 효과적인 AttentionInfluence라는 방법을 제안한다. 우리의 접근 방식은 간단한 어텐션 헤드 마스킹 작업을 통해 소규모 사전 학습 언어 모델이 강력한 데이터 선택자로 작동할 수 있게 한다. 구체적으로, 우리는 검색 헤드를 식별하고 이러한 헤드를 마스킹할 때의 손실 차이를 계산한다. 우리는 AttentionInfluence를 1.3B 파라미터의 밀집 모델에 적용하여 241B 토큰으로 구성된 SmolLM 코퍼스에 대한 데이터 선택을 수행하고, SmolLM 코퍼스와 73B 토큰으로 구성된 선택된 하위 집합을 혼합하여 1T 학습 토큰과 WSD 학습률 스케줄링을 사용하여 7B 파라미터의 밀집 모델을 사전 학습한다. 우리의 실험 결과는 여러 지식 집약적이고 추론이 많은 벤치마크(즉, MMLU, MMLU-Pro, AGIEval-en, GSM8K, HumanEval)에서 1.4pp에서 3.5pp에 이르는 상당한 개선을 보여준다. 이는 작은 모델이 더 큰 모델의 최종 성능을 향상시키는 효과적인 약한-강한 스케일링 특성을 입증하며, 추론 중심 데이터 선택을 위한 유망하고 확장 가능한 경로를 제시한다.

대규모 언어 모델의 지속적 사전 학습에서의 학습 역학
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12, 2025
Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
194

지속적 사전 학습(Continual Pre-Training, CPT)은 강력한 기반 모델을 특정 하위 작업에 적용하기 위한 인기 있고 효과적인 방법으로 자리 잡았습니다. 본 연구에서는 대규모 언어 모델에 대한 CPT 과정 전반의 학습 동역학을 탐구합니다. 특히, 각 학습 단계에서 일반적인 성능과 하위 도메인 성능이 어떻게 진화하는지에 초점을 맞추며, 도메인 성능은 검증 손실을 통해 측정됩니다. 우리는 CPT 손실 곡선이 근본적으로 하나의 곡선에서 다른 숨겨진 곡선으로의 전환을 특징짓는다는 것을 관찰했으며, 이는 분포 변화와 학습률 감소의 효과를 분리하여 설명할 수 있음을 발견했습니다. 우리는 이 두 요소를 결합한 CPT 스케일링 법칙을 도출하여, CPT 과정에서의 모든 (지속적인) 학습 단계와 다양한 학습률 스케줄(LRS)에 걸친 손실을 예측할 수 있게 했습니다. 우리의 공식은 CPT에서의 손실 잠재력, 최대 학습률, 학습 단계, 재생 비율 등 여러 중요한 요소에 대한 포괄적인 이해를 제공합니다. 더 나아가, 우리의 접근 방식은 일반적인 성능과 도메인 특화 성능의 균형을 맞추는 등 다양한 CPT 목표에 맞춰 학습 하이퍼파라미터를 맞춤화하는 데 적응할 수 있습니다. 광범위한 실험을 통해 우리의 스케일링 법칙이 다양한 CPT 데이터셋과 학습 하이퍼파라미터에 걸쳐 유효함을 입증했습니다.

WebGen-Bench: 대화형 및 기능적 웹사이트를 처음부터 생성하는 LLM 평가
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6, 2025
Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
162

LLM 기반 에이전트는 복잡한 코드베이스 내에서 코드를 생성하고 관리하는 데 있어 큰 잠재력을 보여주고 있습니다. 본 논문에서는 LLM 기반 에이전트가 처음부터 다중 파일 웹사이트 코드베이스를 생성하는 능력을 측정하기 위해 설계된 새로운 벤치마크인 WebGen-Bench를 소개합니다. 이 벤치마크는 인간 주석자와 GPT-4o의 협력을 통해 생성된 다양한 웹사이트 생성 지침을 포함하고 있습니다. 이러한 지침은 세 가지 주요 범주와 열세 가지 하위 범주로 구성되어 있으며, 거의 모든 중요한 유형의 웹 애플리케이션을 포괄합니다. 생성된 웹사이트의 품질을 평가하기 위해, 우리는 GPT-4o를 사용하여 지침에 설명된 각 기능을 대상으로 테스트 케이스를 생성한 후, 이를 수동으로 필터링, 조정 및 정리하여 정확성을 보장하였으며, 결과적으로 647개의 테스트 케이스를 확보했습니다. 각 테스트 케이스는 웹사이트에서 수행할 작업과 작업 후 예상 결과를 명시합니다. 테스트를 자동화하고 재현성을 향상시키기 위해, 우리는 강력한 웹 탐색 에이전트를 사용하여 생성된 웹사이트에서 테스트를 실행하고 관찰된 응답이 예상 결과와 일치하는지 판단합니다. 우리는 Bolt.diy, OpenHands, Aider와 같은 세 가지 고성능 코드 에이전트 프레임워크를 여러 독점 및 오픈소스 LLM을 엔진으로 사용하여 평가했습니다. 가장 높은 성능을 보인 조합인 DeepSeek-R1을 기반으로 한 Bolt.diy는 테스트 케이스에서 27.8%의 정확도를 달성했으며, 이는 우리의 벤치마크가 얼마나 도전적인지를 보여줍니다. 또한, 우리는 6,667개의 웹사이트 생성 지침으로 구성된 훈련 세트인 WebGen-Instruct를 구축했습니다. 이 훈련 세트의 일부에서 생성된 Bolt.diy 궤적을 사용하여 Qwen2.5-Coder-32B-Instruct를 훈련한 결과, 38.2%의 정확도를 달성하여 최고의 독점 모델의 성능을 능가했습니다.

INTELLECT-2: 전역적으로 분산된 강화 학습을 통해 훈련된 추론 모델
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025
Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
132

우리는 320억 파라미터 규모의 언어 모델을 대상으로 전 세계적으로 분산된 최초의 강화 학습(RL) 훈련 실행인 INTELLECT-2를 소개합니다. 기존의 중앙 집중식 훈련 방식과 달리, INTELLECT-2는 허가 없이 참여할 수 있는 동적이고 이질적인 컴퓨팅 자원 집단을 통해 완전히 비동기적인 강화 학습을 사용하여 추론 모델을 훈련합니다. 이 독특한 인프라를 통해 훈련을 실행하기 위해, 우리는 여러 구성 요소를 처음부터 구축했습니다: PRIME-RL을 소개하는데, 이는 분산 비동기 강화 학습을 위해 특별히 설계된 훈련 프레임워크로, 신뢰할 수 없는 추론 작업자로부터의 롤아웃을 검증하는 TOPLOC와 훈련 노드에서 추론 작업자로 정책 가중치를 효율적으로 브로드캐스트하는 SHARDCAST와 같은 새로운 구성 요소를 기반으로 합니다. 인프라 구성 요소를 넘어, 우리는 표준 GRPO 훈련 레시피와 데이터 필터링 기술에 대한 수정을 제안했습니다. 이는 훈련 안정성을 달성하고 모델이 훈련 목표를 성공적으로 학습하도록 보장하는 데 결정적이었으며, 이를 통해 320억 파라미터 범위에서 최첨단 추론 모델인 QwQ-32B를 개선했습니다. 우리는 INTELLECT-2와 모든 코드 및 데이터를 오픈소스로 공개하여, 분산 훈련 분야에서 더 많은 개방형 연구를 장려하고 가능하게 하기를 희망합니다.

점수 최대화를 통한 연속적 시각적 자기회귀 생성
Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025
Chenze Shao, Fandong Meng, Jie Zhou
122

기존의 통념에 따르면, 자기회귀 모델은 이산 데이터를 처리하는 데 사용된다고 알려져 있습니다. 시각 데이터와 같은 연속적인 모달리티에 적용할 때, 시각적 자기회귀 모델링(VAR)은 일반적으로 데이터를 이산 공간으로 변환하기 위해 양자화 기반 접근법을 사용하며, 이는 상당한 정보 손실을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 벡터 양자화 없이도 직접적인 시각적 자기회귀 생성을 가능하게 하는 연속 VAR 프레임워크를 소개합니다. 이 프레임워크의 이론적 기반은 엄격하게 적절한 점수 규칙(strictly proper scoring rules)으로, 이는 생성 모델이 실제 분포를 얼마나 잘 근사하는지 평가할 수 있는 강력한 통계적 도구를 제공합니다. 이 프레임워크 내에서 우리가 해야 할 일은 엄격하게 적절한 점수를 선택하고 이를 훈련 목표로 설정하여 최적화하는 것입니다. 우리는 주로 에너지 점수(energy score)에 기반한 훈련 목표 클래스를 탐구하며, 이는 가능성(likelihood)을 필요로 하지 않아 연속 공간에서 확률적 예측을 하는 어려움을 극복합니다. GIVT 및 확산 손실(diffusion loss)과 같은 연속 자기회귀 생성에 대한 이전의 연구들도 다른 엄격하게 적절한 점수를 사용하여 우리의 프레임워크에서 유도될 수 있습니다. 소스 코드: https://github.com/shaochenze/EAR.

MonetGPT: 퍼즐 해결이 MLLM의 이미지 보정 기술을 향상시킨다
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025
Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
112

리터칭은 원본 사진의 후처리에서 필수적인 작업입니다. 텍스트나 스트로크로 안내되는 생성적 편집은 사용자에게 접근 가능한 새로운 도구를 제공하지만, 원본 객체의 정체성을 허용할 수 없고 예측 불가능한 방식으로 쉽게 변경할 수 있습니다. 반면, 사진 편집 도구(예: Gimp, Lightroom)에서 일반적으로 지원되는 전통적인 절차적 편집은 보수적이지만 여전히 전문가들에게 선호됩니다. 불행히도 전문가 수준의 리터칭은 많은 개별 절차적 편집 작업을 포함하며, 이는 대부분의 초보자에게 계획하기 어려운 과제입니다. 본 논문에서는 멀티모달 대형 언어 모델(MLLM)이 원본 사진을 비평하고 적절한 수정을 제안하며, 사전에 작성된 절차적 이미지 작업 세트를 사용하여 이를 실현할 수 있는지 묻습니다. 우리는 MLLM이 특별히 설계된 시각적 퍼즐을 해결하도록 훈련시켜 기본 이미지 처리 작업을 인식할 수 있음을 보여줍니다. 이후, 이러한 작업을 인식한 MLLM은 편집 시퀀스를 계획하고 제안할 수 있습니다. 훈련을 용이하게 하기 위해, 전문가가 편집한 사진 세트가 주어지면, 전문가 편집을 절차적으로 조작하고 사전 훈련된 LLM을 시각적 조정에 기반하여 미세 조정을 위한 추론 데이터셋을 합성합니다. 제안된 리터칭 작업은 사용자가 이해할 수 있도록 구성되었으며, 객체 세부 사항과 해상도를 보존하고 선택적으로 재정의할 수 있습니다. 우리는 다양한 테스트 예제에서 설정을 평가하고, 설명 가능성과 정체성 보존 측면에서 기존의 생성적 및 다른 절차적 대안에 비해 장점을 보여줍니다. 코드, 데이터, 모델 및 추가 결과는 프로젝트 웹사이트(https://monetgpt.github.io)에서 확인할 수 있습니다.

효율적인 적응형 탐색 에이전트를 위한 강화된 내부-외부 지식 시너지 추론
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12, 2025
Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu
102

검색 강화 생성(Retrieval-Augmented Generation, RAG)은 대형 언어 모델(LLMs)의 환각 현상을 줄이기 위한 일반적인 전략입니다. 강화 학습(RL)을 통해 LLM이 검색 기능을 활성화하여 검색 에이전트로 작동할 수 있지만, 기존 방법들은 내부 지식을 충분히 활용하지 못하는 경우가 많습니다. 이로 인해 불필요한 검색, 잠재적인 유해한 지식 충돌, 그리고 추론 지연 시간 증가가 발생할 수 있습니다. 이러한 한계를 해결하기 위해, 최적의 검색 시기를 판단하고 파라미터 기반(내부) 지식과 검색된(외부) 지식을 시너지 효과적으로 통합할 수 있는 효율적이고 적응형 검색 에이전트가 시급히 필요합니다. 본 논문은 강화된 내부-외부 지식 시너지 추론 에이전트(Reinforced Internal-External Knowledge Synergistic Reasoning Agent, IKEA)를 소개합니다. IKEA는 자신의 지식 경계를 식별하고 내부 지식의 활용을 우선시하며, 내부 지식이 부족하다고 판단될 때만 외부 검색에 의존합니다. 이는 새로운 지식 경계 인식 보상 함수와 지식 경계 인식 훈련 데이터셋을 통해 달성됩니다. 이들은 내부-외부 지식 시너지 지향 강화 학습을 위해 설계되어, 모델이 정확한 답변을 제공하고 불필요한 검색을 최소화하며, 자신의 지식이 부족할 때 적절한 외부 검색을 장려하도록 합니다. 다양한 지식 추론 작업에 대한 평가 결과, IKEA는 기준 방법들을 크게 능가하며, 검색 빈도를 현저히 줄이고, 강력한 일반화 능력을 보여줍니다.

포지션: AI 경연대회는 GenAI 평가에서 경험적 엄격성의 금본위를 제공한다
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1, 2025
D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating
92

본 포지션 페이퍼에서 우리는 생성형 AI(Generative AI)의 실증적 평가가 위기점에 도달했음을 지적합니다. 이는 전통적인 머신러닝 평가 및 벤치마킹 전략이 현대의 생성형 AI 모델과 시스템을 평가하는 데 필요한 요구를 충족시키기에 부족하기 때문입니다. 이러한 문제는 여러 가지 이유에서 발생하는데, 이 모델들이 일반적으로 거의 무한한 입력 및 출력 공간을 가지고 있고, 명확하게 정의된 기준 진실값(ground truth)이 없으며, 이전 모델 출력의 문맥에 기반한 강력한 피드백 루프와 예측 의존성을 보이기 때문입니다. 이러한 중요한 문제들 외에도, 우리는 생성형 AI 평가에서 가장 중요하고 해결하기 어려운 문제가 바로 '누출(leakage)'과 '오염(contamination)'이라고 주장합니다. 흥미롭게도, AI 경진대회(AI Competitions) 분야에서는 경쟁 환경 내에서 불량 행위자의 부정행위를 방지하기 위해 누출을 막는 효과적인 조치와 관행이 개발되었습니다. 이는 AI 경진대회를 특히 가치 있는(그러나 아직 충분히 활용되지 않은) 자원으로 만듭니다. 이제는 생성형 AI 평가에서 실증적 엄격성의 금본위제(gold standard)로서 AI 경진대회를 바라보고, 그 결과를 적절한 가치를 부여하여 활용할 때입니다.

UMoE: 공유 전문가를 통한 어텐션과 FFN의 통합
UMoE: Unifying Attention and FFN with Shared Experts

May 12, 2025
Yuanhang Yang, Chaozheng Wang, Jing Li
82

희소 전문가 혼합(Sparse Mixture of Experts, MoE) 아키텍처는 트랜스포머 모델의 확장을 위한 유망한 접근법으로 부상했습니다. 초기 연구들은 주로 피드포워드 네트워크(FFN) 계층에 MoE를 통합했지만, 최근 연구들은 모델 성능을 향상시키기 위해 MoE 패러다임을 어텐션 계층으로 확장하는 방안을 탐구하고 있습니다. 그러나 기존의 어텐션 기반 MoE 계층은 특수한 구현이 필요하며, FFN 기반 대비 최적의 성능을 보이지 못하고 있습니다. 본 논문에서는 어텐션 메커니즘의 새로운 재구성을 통해 어텐션 모듈 내에 내재된 FFN과 유사한 구조를 밝혀냄으로써, 어텐션과 FFN 계층에서의 MoE 설계를 통합하고자 합니다. 우리가 제안한 UMoE 아키텍처는 어텐션 기반 MoE 계층을 통해 우수한 성능을 달성함과 동시에 FFN과 어텐션 구성 요소 간의 효율적인 파라미터 공유를 가능하게 합니다.

DynamicRAG: 검색 증강 생성에서 동적 재순위화를 위한 피드백으로서 대규모 언어 모델의 출력 활용
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12, 2025
Jiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han
83

검색 강화 생성(Retrieval-Augmented Generation, RAG) 시스템은 대규모 언어 모델(LLM)과 외부 지식 검색을 결합하여 지식 집약적 작업에 매우 효과적입니다. 이러한 시스템에서 중요한 역할을 하지만 종종 간과되는 구성 요소는 리랭커(Re-ranker)로, 검색된 문서를 정제하여 생성 품질과 설명 가능성을 향상시킵니다. 최적의 문서 수(k)를 선택하는 문제는 여전히 해결되지 않은 과제입니다: 너무 적은 문서는 중요한 정보를 누락시킬 수 있고, 너무 많은 문서는 노이즈와 비효율성을 초래합니다. 최근 연구에서는 LLM 기반 리랭커를 탐구했지만, 주로 모델 내부 지식을 활용하고 LLM이 제공할 수 있는 풍부한 감독 신호(예: 응답 품질을 리랭킹 결정 최적화를 위한 피드백으로 사용)를 간과했습니다. 본 논문에서는 리랭커가 쿼리에 따라 검색된 문서의 순서와 수를 동적으로 조정하는 새로운 RAG 프레임워크인 DynamicRAG를 제안합니다. 우리는 리랭커를 강화 학습(RL)을 통해 최적화된 에이전트로 모델링하고, LLM 출력 품질에서 도출된 보상을 사용합니다. 7개의 지식 집약적 데이터셋에서 DynamicRAG는 최첨단 성능을 달성하며 우수한 성능을 입증했습니다. 모델, 데이터 및 코드는 https://github.com/GasolSun36/DynamicRAG에서 확인할 수 있습니다.

LLAMAPIE: 사전 대응형 이어 컨버세이션 어시스턴트
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7, 2025
Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota
62

우리는 인간 대화를 향상시키기 위해 헤어러블(hearable) 장치를 통해 은밀하고 간결한 지침을 제공하는 최초의 실시간 사전적(proactive) 어시스턴트인 LlamaPIE를 소개한다. 기존의 명시적인 사용자 호출이 필요한 언어 모델과 달리, 이 어시스턴트는 대화를 방해하지 않으면서 사용자 요구를 예측하여 배경에서 작동한다. 우리는 언제 응답할지 결정하고, 대화를 향상시키는 간결한 응답을 구성하며, 사용자에 대한 지식을 활용하여 상황 인식 지원을 제공하고, 실시간으로 기기 내에서 처리하는 등 여러 도전 과제를 해결한다. 이를 위해 반합성(semi-synthetic) 대화 데이터셋을 구축하고, 응답 시점을 결정하는 소형 모델과 응답을 생성하는 대형 모델로 구성된 이중 모델 파이프라인을 제안한다. 우리는 실제 데이터셋을 통해 이 접근법을 평가하며, 도움 되면서도 방해가 되지 않는 지원을 제공하는 데 있어 그 효과를 입증한다. Apple Silicon M2 하드웨어에 구현된 우리의 어시스턴트를 대상으로 한 사용자 연구는, 사전적 어시스턴트가 지원이 없는 기준 모델과 반응적(reactive) 모델 모두에 비해 강력한 선호도를 보여주며, LlamaPIE가 실시간 대화를 향상시킬 잠재력을 강조한다.

H^{3}DP: 시각운동 학습을 위한 삼중 계층적 확산 정책
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025
Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
52

시각운동 정책 학습은 로봇 매니퓰레이션 분야에서 상당한 진전을 이루어 왔으며, 최근 접근법들은 주로 생성 모델을 활용하여 행동 분포를 모델링하는 데 의존해 왔습니다. 그러나 이러한 방법들은 시각 인식과 행동 예측 간의 중요한 상호 연관성을 종종 간과해 왔습니다. 본 연구에서는 이러한 문제를 해결하기 위해 Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP})라는 새로운 시각운동 학습 프레임워크를 소개합니다. H^{3}DP는 시각적 특징과 행동 생성 간의 통합을 강화하기 위해 계층적 구조를 명시적으로 통합합니다. H^{3}DP는 3가지 수준의 계층 구조를 포함합니다: (1) 깊이 정보를 기반으로 RGB-D 관측을 조직화하는 깊이 인식 입력 계층화, (2) 다양한 세분화 수준에서 의미론적 특징을 인코딩하는 다중 스케일 시각 표현, 그리고 (3) 거친 행동에서 세밀한 행동까지의 생성을 해당 시각적 특징과 정렬시키는 계층적 조건부 확산 과정. 광범위한 실험을 통해 H^{3}DP가 44개의 시뮬레이션 작업에서 기준선 대비 평균 +27.5%의 상대적 개선을 달성했으며, 4개의 도전적인 양손 실세계 매니퓰레이션 작업에서도 우수한 성능을 보여주었음을 입증했습니다. 프로젝트 페이지: https://lyy-iiis.github.io/h3dp/.

오버플로우 방지는 장문맥 순환 LLM의 성능을 향상시킨다
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12, 2025
Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
32

최근 대형 언어 모델(LLMs)의 한 가지 트렌드는 장문맥 처리 효율성을 개선하기 위해 반복적 서브-2차 모델을 개발하는 것이다. 우리는 주요 대형 장문맥 모델을 조사하며, 이들의 고정 크기 반복 메모리가 성능에 미치는 영향에 초점을 맞춘다. 실험 결과, 이러한 모델들이 확장된 문맥에 대해 훈련되었음에도 불구하고 장문맥 활용도는 여전히 미흡한 것으로 나타났다. 구체적으로, 입력의 가장 관련성 높은 부분만을 식별하고 처리하는 청크 기반 추론 절차가 반복 메모리 실패를 완화하고 많은 장문맥 작업에 효과적임을 입증한다: LongBench에서 우리의 방법은 Falcon3-Mamba-Inst-7B의 전체 성능을 14%, Falcon-Mamba-Inst-7B를 28%, RecurrentGemma-IT-9B를 50%, RWKV6-Finch-7B를 51% 향상시켰다. 놀랍게도, 이 간단한 접근법은 도전적인 LongBench v2 벤치마크에서도 최신 기술 수준의 결과를 보여주며, 동일한 크기의 Transformer 모델과 경쟁력 있는 성능을 보였다. 더 나아가, 우리의 연구 결과는 반복 모델이 실제로 장거리 의존성을 활용하는지에 대한 의문을 제기한다. 단일 청크 전략이 교차 문맥 관계가 필요한 작업에서도 더 강력한 성능을 보여주기 때문이다.

문서 속성 분석: 대규모 언어 모델을 활용한 인용 관계 검토
Document Attribution: Examining Citation Relationships using Large Language Models

May 9, 2025
Vipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka
32

대규모 언어 모델(LLMs)이 문서 요약, 질문 응답, 정보 추출과 같은 문서 기반 작업에 점점 더 많이 적용됨에 따라, 사용자 요구사항이 모델의 파라미터 지식에 의존하기보다는 제공된 문서에서 정보를 검색하는 데 초점을 맞추면서, 이러한 시스템의 신뢰성과 해석 가능성을 보장하는 것이 중요한 문제로 대두되고 있습니다. 이러한 문제를 해결하기 위한 핵심 접근 방식은 생성된 출력을 원본 문서로 추적하는 속성(attribution)입니다. 그러나 LLMs이 부정확하거나 모호한 응답을 생성할 수 있기 때문에, 이러한 인용의 신뢰성을 평가하는 것이 중요합니다. 이를 해결하기 위해, 우리의 연구는 두 가지 기술을 제안합니다. (1) 속성을 단순한 텍스트 함의(textual entailment) 작업으로 프레이밍하는 제로샷(zero-shot) 접근 방식입니다. flan-ul2를 사용한 우리의 방법은 AttributionBench의 ID 및 OOD 데이터셋에서 각각 최고의 베이스라인 대비 0.27%와 2.4%의 개선을 보여줍니다. (2) 또한, 우리는 속성 과정을 강화하는 데 있어 주의 메커니즘(attention mechanism)의 역할을 탐구합니다. 더 작은 LLM인 flan-t5-small을 사용할 때, 4층과 8층부터 11층을 제외한 거의 모든 층에서 F1 점수가 베이스라인을 능가합니다.

물리학 기반 및 위상 구조 정보를 활용한 딥러닝 기반 기상 예측
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8, 2025
Jiaqi Zheng, Qing Ling, Yerong Feng
22

딥러닝 모델들이 기상 예측에서 놀라운 잠재력을 보여주었음에도 불구하고, 대부분의 모델들은 근본적인 기상 변화의 물리학이나 지구 표면의 위상 구조를 간과하고 있습니다. 이러한 단점을 고려하여, 우리는 기상 예측을 위한 새로운 물리학 기반 및 위상 구조 인식 딥러닝 모델인 PASSAT을 개발했습니다. PASSAT은 기상 변화를 두 가지 주요 요인으로 설명합니다: (i) 이류 방정식과 나비에-스토크스 방정식으로 특징지을 수 있는 이류 과정; (ii) 모델링과 계산이 모두 어려운 지구-대기 상호작용. 또한 PASSAT은 지구 표면을 단순히 평면으로 취급하는 대신, 그 위상 구조를 고려합니다. 이러한 고려사항을 바탕으로, PASSAT은 구형 다양체에서 이류 방정식과 나비에-스토크스 방정식을 수치적으로 해결하고, 구형 그래프 신경망을 활용하여 지구-대기 상호작용을 포착하며, 동일한 구형 그래프 신경망에서 이류 방정식 해결에 중요한 초기 속도장을 생성합니다. 5.625^circ 해상도의 ERA5 데이터셋에서, PASSAT은 최첨단 딥러닝 기반 기상 예측 모델들과 운영 중인 수치 기상 예측 모델인 IFS T42를 모두 능가하는 성능을 보여줍니다. 코드와 체크포인트는 https://github.com/Yumenomae/PASSAT_5p625에서 확인할 수 있습니다.

제어 가능한 생물학적 서열 설계를 위한 다목적 지향 이산 흐름 매칭
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11, 2025
Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee
12

여러 가지 종종 상충하는 기능적 및 생물물리학적 기준을 만족하는 생물학적 서열을 설계하는 것은 생체분자 공학의 핵심 과제로 남아 있습니다. 이산형 플로우 매칭 모델이 최근 고차원 서열 공간에서 효율적인 샘플링을 위해 유망한 결과를 보여주었지만, 기존 접근법은 단일 목표만을 다루거나 이산형 분포를 왜곡할 수 있는 연속형 임베딩을 요구합니다. 우리는 사전 학습된 이산형 시간 플로우 매칭 생성기를 다중 스칼라 목표에 걸쳐 파레토 효율적인 균형으로 이끌기 위한 일반적인 프레임워크인 다중 목표 지향 이산형 플로우 매칭(MOG-DFM)을 제안합니다. 각 샘플링 단계에서 MOG-DFM은 후보 전이에 대해 하이브리드 순위-방향 점수를 계산하고, 일관된 다중 목표 진행을 강제하기 위해 적응형 하이퍼콘 필터를 적용합니다. 또한 우리는 MOG-DFM의 기본 생성 모델로 사용하기 위해 두 가지 무조건 이산형 플로우 매칭 모델, 즉 다양한 펩타이드 생성을 위한 PepDFM과 기능적 인핸서 DNA 생성을 위한 EnhancerDFM을 학습시켰습니다. 우리는 MOG-DFM이 5가지 특성(용혈성, 비-오염성, 용해도, 반감기, 결합 친화도)에 걸쳐 최적화된 펩타이드 결합체를 생성하고, 특정 인핸서 클래스와 DNA 형태를 가진 DNA 서열을 설계하는 데 있어서의 효과성을 입증합니다. 전반적으로, MOG-DFM은 다중 특성 지향 생체분자 서열 설계를 위한 강력한 도구임을 보여줍니다.

May 12
May 13
May 14