ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

노멀의 빛: 범용 광도 측정 스테레오를 위한 통합 특징 표현
Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Jun 23, 2025
Hong Li, Houyuan Chen, Chongjie Ye, Zhaoxi Chen, Bohan Li, Shaocong Xu, Xianda Guo, Xuhui Liu, Yikai Wang, Baochang Zhang, Satoshi Ikehata, Boxin Shi, Anyi Rao, Hao Zhao
591

범용 광도 측정 스테레오(Photometric Stereo, PS)는 특정 조명 모델에 의존하지 않고 임의의 조명 조건에서 물체의 고품질 표면 법선을 복원하는 것을 목표로 합니다. SDM-UniPS와 Uni MS-PS와 같은 최근의 발전에도 불구하고, 두 가지 근본적인 문제가 여전히 존재합니다: 1) 변화하는 조명과 표면 법선 특성 간의 깊은 결합으로, 관측된 강도의 모호성 때문에 밝기 변화가 조명 변화에서 비롯된 것인지 표면 방향 변화에서 비롯된 것인지 판단하기 어렵다는 점; 그리고 2) 복잡한 표면에서 고주파 기하학적 세부 사항을 보존하는 문제로, 정교한 기하학 구조가 자체 그림자, 상호 반사, 그리고 미묘한 법선 변화를 만들어내며, 이는 기존의 특성 처리 작업이 정확하게 포착하기 어렵다는 점입니다.

OmniGen2: 고급 멀티모달 생성 기술 탐구
OmniGen2: Exploration to Advanced Multimodal Generation

Jun 23, 2025
Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
321

본 연구에서는 텍스트-이미지 생성, 이미지 편집, 컨텍스트 내 생성 등 다양한 생성 작업을 통합적으로 해결하기 위해 설계된 다목적 오픈소스 생성 모델인 OmniGen2를 소개합니다. OmniGen v1과 달리, OmniGen2는 텍스트와 이미지 모달리티를 위한 두 가지 독립적인 디코딩 경로를 갖추고 있으며, 공유되지 않은 파라미터와 분리된 이미지 토크나이저를 활용합니다. 이러한 설계는 VAE 입력을 재조정할 필요 없이 기존의 멀티모달 이해 모델을 기반으로 구축할 수 있게 하여 원본 텍스트 생성 능력을 유지합니다. OmniGen2의 학습을 지원하기 위해, 이미지 편집 및 컨텍스트 내 생성 데이터를 포함한 포괄적인 데이터 구축 파이프라인을 개발했습니다. 또한, 이미지 생성 작업에 특화된 리플렉션 메커니즘을 도입하고 OmniGen2를 기반으로 전용 리플렉션 데이터셋을 구축했습니다. 비교적 적은 파라미터 크기에도 불구하고, OmniGen2는 텍스트-이미지 생성 및 이미지 편집을 포함한 여러 작업 벤치마크에서 경쟁력 있는 결과를 달성했습니다. 컨텍스트 내 생성(주제 기반 작업이라고도 함)을 추가로 평가하기 위해 OmniContext라는 새로운 벤치마크를 도입했습니다. OmniGen2는 일관성 측면에서 오픈소스 모델 중 최첨단 성능을 보여줍니다. 향후 연구를 지원하기 위해 모델, 학습 코드, 데이터셋 및 데이터 구축 파이프라인을 공개할 예정입니다. 프로젝트 페이지: https://vectorspacelab.github.io/OmniGen2; GitHub 링크: https://github.com/VectorSpaceLab/OmniGen2

LongWriter-Zero: 강화 학습을 통한 초장문 텍스트 생성 기술의 정복
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Jun 23, 2025
Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li
301

대형 언어 모델(LLM)의 초장문 생산은 널리 요구되는 시나리오이지만, 최대 생성 길이 제한과 시퀀스 길이가 증가함에 따른 전반적인 품질 저하로 인해 여전히 중요한 과제로 남아 있습니다. LongWriter와 같은 기존 접근 방식은 일반적으로 합성된 장문 출력에 대한 지도 미세 조정(SFT)을 포함하는 '가르침'에 의존합니다. 그러나 이 전략은 합성 SFT 데이터에 크게 의존하며, 이는 구축하기 어렵고 비용이 많이 들며, 종종 일관성과 통일성이 부족하고, 지나치게 인위적이고 구조적으로 단조로운 경향이 있습니다. 본 연구에서는 주석 처리된 데이터나 합성 데이터에 전혀 의존하지 않고, 처음부터 시작하여 강화 학습(RL)을 활용하여 LLM에서 초장문 고품질 텍스트 생성 능력이 발현되도록 유도하는 인센티브 기반 접근 방식을 제안합니다. R1-Zero와 유사한 기본 모델에서 시작하여 RL 훈련을 수행하며, 이를 통해 작성 과정에서 계획 및 개선을 촉진하는 추론에 참여하도록 유도합니다. 이를 지원하기 위해, LLM이 향상된 길이 제어, 작성 품질 및 구조적 형식화를 향하도록 유도하는 특수 보상 모델을 사용합니다. 실험 평가 결과, Qwen2.5-32B에서 훈련된 우리의 LongWriter-Zero 모델은 장문 작성 작업에서 전통적인 SFT 방법을 지속적으로 능가하며, WritingBench와 Arena-Write에서 모든 지표에서 최신 기술을 달성하고, DeepSeek R1 및 Qwen3-235B와 같은 100B+ 모델을 능가하는 결과를 보여줍니다. 우리는 데이터와 모델 체크포인트를 https://huggingface.co/THU-KEG/LongWriter-Zero-32B에서 오픈소스로 공개합니다.

팬텀-데이터: 일반적인 주체 일관성 비디오 생성 데이터셋을 향하여
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

Jun 23, 2025
Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
202

주제-대-비디오 생성은 최근 몇 년 동안 상당한 발전을 이루었습니다. 그러나 기존 모델들은 여전히 텍스트 지시를 충실히 따르는 데 있어 상당한 어려움을 겪고 있습니다. 이러한 한계는 일반적으로 복사-붙여넣기 문제로 알려져 있으며, 널리 사용되는 동일 쌍 내 훈련 패러다임에서 비롯됩니다. 이 접근 방식은 대상 비디오와 동일한 장면에서 참조 이미지를 샘플링함으로써 주제의 정체성을 배경 및 문맥적 속성과 본질적으로 얽히게 만듭니다. 이 문제를 해결하기 위해 우리는 다양한 범주에 걸쳐 약 100만 개의 정체성 일치 쌍을 포함한 최초의 범용 교차 쌍 주제-대-비디오 일관성 데이터셋인 Phantom-Data를 소개합니다. 우리의 데이터셋은 세 단계의 파이프라인을 통해 구축되었습니다: (1) 일반적이고 입력에 정렬된 주제 탐지 모듈, (2) 5,300만 개 이상의 비디오와 30억 개의 이미지로부터 대규모 교차 문맥 주제 검색, 그리고 (3) 문맥적 변화 하에서 시각적 일관성을 보장하기 위한 사전 지도 정체성 검증. 포괄적인 실험 결과, Phantom-Data를 사용한 훈련은 동일 쌍 내 기준선과 동등한 수준의 정체성 일관성을 유지하면서 프롬프트 정렬과 시각적 품질을 크게 향상시키는 것으로 나타났습니다.

ReasonFlux-PRM: 장기 사고 사슬 추론을 위한 궤적 인식 PRM 및 대형 언어 모델
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

Jun 23, 2025
Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
191

프로세스 보상 모델(Process Reward Models, PRMs)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 중간 추론 단계를 감독하기 위한 강력한 프레임워크로 부상하고 있다. 기존 PRMs는 주로 모델의 최종 출력 응답에 대해 훈련되었으며, 특히 Deepseek-R1과 같은 최신 추론 모델에서 생성되는 궤적-응답 출력과 같은 새로운 설정에서 중간 사고 궤적을 견고하게 평가하는 데 어려움을 겪었다. 본 연구에서는 궤적-응답 유형의 추론 흔적을 평가하기 위해 명시적으로 설계된 새로운 궤적 인식 PRM인 ReasonFlux-PRM을 소개한다. ReasonFlux-PRM은 단계별 및 궤적별 감독을 통합하여 구조화된 사고의 연쇄 데이터와 일치하는 세밀한 보상 할당을 가능하게 한다. 우리는 ReasonFlux-PRM을 오프라인 및 온라인 설정 모두에서 보상 감독을 지원하도록 적응시켰으며, 이는 (i) 더 작은 모델의 지도 미세 조정을 위한 고품질 모델 증류 데이터 선택, (ii) 강화 학습 중 정책 최적화를 위한 밀집 프로세스 수준 보상 제공, (iii) 보안 Best-of-N 테스트 시간 스케일링을 가능하게 하는 것을 포함한다. AIME, MATH500, GPQA-Diamond와 같은 도전적인 하위 벤치마크에서의 실험 결과는 ReasonFlux-PRM-7B가 강력한 PRMs(예: Qwen2.5-Math-PRM-72B) 및 인간이 선별한 기준선보다 더 높은 품질의 데이터를 선택함을 보여준다. 또한, 우리가 도출한 ReasonFlux-PRM-7B는 일관된 성능 향상을 달성하며, 지도 미세 조정에서 평균 12.1%, 강화 학습에서 4.5%, 테스트 시간 스케일링에서 6.3%의 이득을 얻었다. 우리는 또한 자원이 제한된 애플리케이션 및 에지 배포를 위한 효율적인 ReasonFlux-PRM-1.5B를 공개한다. 프로젝트: https://github.com/Gen-Verse/ReasonFlux

비전을 방언으로: 텍스트 정렬 표현을 통한 시각적 이해와 생성의 통합
Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

Jun 23, 2025
Jiaming Han, Hao Chen, Yang Zhao, Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He, Xiangyu Yue, Lu Jiang
181

본 논문은 시각적 이해와 생성을 공유된 이산적 의미 표현 내에서 통합하려는 다중모달 프레임워크를 제시한다. 핵심에는 대규모 언어 모델(LLM)의 어휘에서 투영된 텍스트 정렬 코드북을 사용하여 이미지를 이산적 토큰으로 변환하는 텍스트 정렬 토크나이저(TA-Tok)가 있다. 확장된 어휘를 통해 시각과 텍스트를 통합된 공간으로 통합함으로써, 우리의 다중모달 LLM인 Tar는 모달리티별 설계 없이 공유 인터페이스를 통해 크로스모달 입력과 출력을 가능하게 한다. 또한, 효율성과 시각적 세부 사항의 균형을 맞추기 위해 스케일 적응형 인코딩 및 디코딩을 제안하고, 고품질 시각적 출력을 생성하기 위한 생성적 디토크나이저를 제안한다. 다양한 디코딩 요구를 해결하기 위해, 우리는 빠른 자기회귀 모델과 확산 기반 모델이라는 두 가지 상호 보완적인 디토크나이저를 활용한다. 모달리티 융합을 강화하기 위해, 우리는 고급 사전 학습 작업을 조사하여 시각적 이해와 생성 모두에서 개선을 입증한다. 벤치마크 전반에 걸친 실험은 Tar가 기존의 다중모달 LLM 방법을 능가하거나 동등한 성능을 보이며, 더 빠른 수렴과 더 큰 훈련 효율성을 달성함을 보여준다. 코드, 모델 및 데이터는 https://tar.csuhan.com에서 이용 가능하다.

RLPR: 검증자 없이 일반 도메인에 RLVR을 확장하기
RLPR: Extrapolating RLVR to General Domains without Verifiers

Jun 23, 2025
Tianyu Yu, Bo Ji, Shouli Wang, Shu Yao, Zefan Wang, Ganqu Cui, Lifan Yuan, Ning Ding, Yuan Yao, Zhiyuan Liu, Maosong Sun, Tat-Seng Chua
183

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대형 언어 모델(LLM)의 추론 능력을 발전시킬 수 있는 유망한 잠재력을 보여줍니다. 그러나 그 성공은 주로 수학 및 코드 도메인에 국한되어 있습니다. 이러한 주요 한계는 도메인 특화 검증기에 대한 과도한 의존에서 비롯되며, 이는 복잡성을 과도하게 증가시키고 확장성을 제한하는 결과를 가져옵니다. 이 문제를 해결하기 위해, 우리는 LLM이 자유 형식의 정답을 생성할 때의 내재적 확률이 그 자체의 추론 보상(즉, 추론 과정이 정답으로 이어지는 정도)을 직접적으로 나타낸다는 핵심 관찰을 바탕으로 합니다. 이러한 통찰을 기반으로, 우리는 RLVR을 더 넓은 일반 도메인으로 확장하는 간단한 검증기 없는 프레임워크인 RLPR을 제안합니다. RLPR은 LLM의 토큰 확률 점수를 참조 답변에 대한 보상 신호로 사용하며, 훈련 중에 기대 보상을 최대화합니다. 우리는 이 잡음이 섞인 확률 보상의 높은 분산을 해결하는 것이 중요하다는 것을 발견했으며, 이를 위해 확률-보상 변환 및 안정화 기법을 제안하여 LLM의 내재적 확률로부터 정확하고 안정적인 보상을 보장합니다. 네 가지 일반 도메인 벤치마크와 세 가지 수학 벤치마크에서의 포괄적인 실험을 통해 RLPR이 Gemma, Llama, Qwen 기반 모델에서 두 영역 모두에서 추론 능력을 꾸준히 향상시킨다는 것을 확인했습니다. 특히, RLPR은 TheoremQA에서 VeriFree를 7.6점, Minerva에서 7.5점 앞섰으며, 강력한 검증기 모델에 의존하는 General-Reasoner 접근법보다도 7개 벤치마크에서 평균 1.6점 더 높은 성능을 보였습니다.

OAgents: 효과적인 에이전트 구축에 관한 실증적 연구
OAgents: An Empirical Study of Building Effective Agents

Jun 17, 2025
He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
181

최근 에이전트 AI는 점점 더 인기 있는 연구 분야로 부상하고 있습니다. 그러나 현재의 에이전트 연구 관행은 표준화와 과학적 엄격성이 부족하여 다양한 방법론 간의 공정한 비교를 수행하기 어렵다는 점을 지적합니다. 그 결과, 에이전트 프레임워크에서의 다양한 설계 선택이 효과성에 미치는 영향이 여전히 명확하지 않으며, 그들의 진전을 측정하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 GAIA 벤치마크와 BrowseComp를 통해 주요 에이전트 구성 요소에서의 인기 있는 설계 선택이 미치는 영향을 공정하고 엄격하게 검토하는 체계적인 실증 연구를 수행합니다. 우리는 표준 평가 프로토콜의 부재로 인해 이전 연구들, 심지어 오픈소스 프로젝트들도 재현이 불가능하며, 무작위 실행 간에 상당한 변동성이 존재함을 발견했습니다. 따라서 우리는 비교를 안정화하기 위해 더 견고한 평가 프로토콜을 도입했습니다. 본 연구는 효과적인 에이전트를 위해 어떤 구성 요소와 설계가 중요한지, 그리고 논리적으로 보이지만 실제로는 불필요한 요소들이 무엇인지를 밝혀냈습니다. 이러한 연구 결과를 바탕으로, 우리는 오픈소스 프로젝트 중 최첨단 성능을 달성하는 새로운 기반 에이전트 프레임워크인 OAgents를 구축하고 공개했습니다. OAgents는 다양한 에이전트 구성 요소를 위한 모듈식 설계를 제공하여, 에이전트 AI 분야의 미래 연구를 촉진합니다.

VMem: 서펠 인덱싱 뷰 메모리를 활용한 일관적인 인터랙티브 비디오 장면 생성
VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory

Jun 23, 2025
Runjia Li, Philip Torr, Andrea Vedaldi, Tomas Jakab
61

우리는 환경을 인터랙티브하게 탐색할 수 있는 비디오 생성기를 구축하기 위한 새로운 메모리 메커니즘을 제안한다. 이전에는 장면의 2D 뷰를 아웃페인팅하면서 점진적으로 3D 기하구조를 재구성하는 방식으로 유사한 결과를 달성했지만, 이 방법은 빠르게 오차가 누적되거나, 짧은 컨텍스트 윈도우를 가진 비디오 생성기를 사용하여 장기간 장면 일관성을 유지하는 데 어려움을 겪었다. 이러한 한계를 해결하기 위해, 우리는 Surfel-Indexed View Memory(VMem)를 도입한다. 이 메커니즘은 과거 뷰를 3D 표면 요소(surfels)를 기반으로 기하학적으로 인덱싱하여 기억한다. VMem은 새로운 뷰를 생성할 때 가장 관련성이 높은 과거 뷰를 효율적으로 검색할 수 있게 한다. 이러한 관련 뷰에만 초점을 맞춤으로써, 우리의 방법은 모든 과거 뷰를 컨텍스트로 사용하는 것보다 훨씬 적은 계산 비용으로 상상된 환경의 일관된 탐색을 생성한다. 우리는 이 접근 방식을 도전적인 장기 장면 합성 벤치마크에서 평가하고, 장면 일관성과 카메라 제어 측면에서 기존 방법 대비 우수한 성능을 입증한다.

LettinGo: 추천 시스템을 위한 사용자 프로필 생성 탐구
LettinGo: Explore User Profile Generation for Recommendation System

Jun 23, 2025
Lu Wang, Di Zhang, Fangkai Yang, Pu Zhao, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang
61

사용자 프로파일링은 추천 시스템에서 핵심적인 역할을 하며, 원시 사용자 상호작용 데이터를 간결하고 구조화된 표현으로 변환하여 개인화된 추천을 가능하게 합니다. 전통적인 임베딩 기반 프로파일은 해석 가능성과 적응성이 부족한 반면, 최근의 대형 언어 모델(LLM)의 발전은 의미적으로 더 풍부하고 투명한 텍스트 기반 프로파일을 가능하게 합니다. 그러나 기존 방법들은 고정된 형식을 따르는 경우가 많아 사용자 행동의 다양성을 충분히 포착하는 데 한계가 있습니다. 본 논문에서는 다양한 적응형 사용자 프로파일을 생성하기 위한 새로운 프레임워크인 LettinGo를 소개합니다. LLM의 표현력을 활용하고 하위 추천 작업으로부터 직접적인 피드백을 통합함으로써, 우리의 접근 방식은 지도 미세 조정(SFT)이 부과하는 엄격한 제약을 피합니다. 대신, 작업별 성능과 프로파일 생성기를 정렬하기 위해 직접 선호 최적화(DPO)를 사용하여 프로파일이 적응적이고 효과적으로 유지되도록 합니다. LettinGo는 세 단계로 작동합니다: (1) 여러 LLM을 통해 다양한 사용자 프로파일 탐색, (2) 추천 시스템에서의 영향력을 기반으로 프로파일 품질 평가, (3) 작업 성능에서 도출된 쌍별 선호 데이터를 통해 프로파일 생성 정렬. 실험 결과는 우리의 프레임워크가 추천 정확도, 유연성 및 상황 인식을 크게 향상시킴을 보여줍니다. 이 연구는 차세대 추천 시스템을 위한 핵심 혁신으로서 프로파일 생성을 강화합니다.

ReDit: 향상된 LLM 정책 최적화를 위한 보상 디더링
ReDit: Reward Dithering for Improved LLM Policy Optimization

Jun 23, 2025
Chenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu
51

DeepSeek-R1은 규칙 기반 보상 시스템을 통해 대규모 언어 모델(LLM)의 추론 능력을 성공적으로 향상시켰습니다. 이는 '완벽한' 보상 시스템으로, 보상 해킹을 효과적으로 완화하지만, 이러한 보상 함수는 종종 이산적입니다. 우리의 실험적 관찰에 따르면, 이산적 보상은 그래디언트 이상, 불안정한 최적화, 그리고 느린 수렴을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 ReDit(보상 디더링)을 제안합니다. 이 방법은 간단한 무작위 노이즈를 추가하여 이산적 보상 신호를 디더링합니다. 이렇게 교란된 보상을 통해 학습 과정 전반에 걸쳐 탐색적 그래디언트가 지속적으로 제공되어, 더 부드러운 그래디언트 업데이트와 빠른 수렴이 가능해집니다. 주입된 노이즈는 또한 평탄한 보상 영역에 확률성을 도입하여, 모델이 새로운 정책을 탐색하고 지역 최적점에서 벗어나도록 장려합니다. 다양한 작업에 걸친 실험은 ReDit의 효과성과 효율성을 입증합니다. 평균적으로, ReDit은 기존 GRPO와 비슷한 성능을 약 10%의 학습 단계로 달성하며, 더 나아가 비슷한 학습 기간 동안에도 기존 GRPO보다 4%의 성능 향상을 보입니다. 시각화는 ReDit을 통해 그래디언트 문제가 상당히 완화되었음을 확인시켜 줍니다. 또한, 이러한 장점을 추가로 검증하기 위한 이론적 분석이 제공됩니다.

자기회귀적으로 다중 뷰 일관성 이미지 생성하기
Auto-Regressively Generating Multi-View Consistent Images

Jun 23, 2025
JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
41

인간의 지시로부터 다중 시점 이미지를 생성하는 것은 3D 콘텐츠 제작에 있어 매우 중요하다. 주요 과제는 다중 시점 간의 일관성을 유지하고 다양한 조건 하에서 형태와 질감을 효과적으로 합성하는 것이다. 본 논문에서는 자동 회귀 모델을 활용하여 임의의 프롬프트로부터 점진적으로 일관된 다중 시점 이미지를 생성하는 다중 시점 자동 회귀(Multi-View Auto-Regressive, MV-AR) 방법을 제안한다. 첫째, AR 모델의 다음 토큰 예측 능력은 점진적 다중 시점 합성을 촉진하는 데 있어 그 효과를 크게 향상시킨다. 넓게 분리된 시점을 생성할 때, MV-AR은 모든 이전 시점을 활용하여 효과적인 참조 정보를 추출할 수 있다. 둘째, 다양한 프롬프트를 수용할 수 있는 통합 모델을 아키텍처 설계 및 학습 전략을 통해 제안한다. 다중 조건을 처리하기 위해 텍스트, 카메라 포즈, 이미지, 형태에 대한 조건 주입 모듈을 도입한다. 다중 모달 조건을 동시에 관리하기 위해 점진적 학습 전략을 채택한다. 이 전략은 초기에 텍스트-다중 시점(t2mv) 모델을 기준으로 삼아, 조건을 무작위로 제거하고 결합함으로써 포괄적인 X-다중 시점(X2mv) 모델의 개발을 촉진한다. 마지막으로, 고품질 데이터의 제한으로 인한 과적합 문제를 완화하기 위해 "셔플 뷰(Shuffle View)" 데이터 증강 기법을 제안함으로써 학습 데이터를 크게 확장한다. 실험 결과, 우리의 MV-AR은 다양한 조건에서 일관된 다중 시점 이미지를 생성하며, 선도적인 확산 기반 다중 시점 이미지 생성 모델과 동등한 성능을 보인다. 코드와 모델은 https://github.com/MILab-PKU/MVAR에서 공개될 예정이다.

SlimMoE: 전문가 경량화와 지식 증류를 통한 대규모 MoE 모델의 구조적 압축
SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation

Jun 23, 2025
Zichong Li, Chen Liang, Zixuan Zhang, Ilgee Hong, Young Jin Kim, Weizhu Chen, Tuo Zhao
41

전문가 혼합(Mixture of Experts, MoE) 아키텍처는 추론 효율성을 유지하면서 대규모 언어 모델(LLMs)을 확장하기 위한 강력한 패러다임으로 부상했습니다. 그러나 이러한 모델의 막대한 메모리 요구 사항은 리소스가 제한된 환경에서 미세 조정하거나 배포하기에는 비용이 너무 많이 든다는 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 대규모 MoE 모델을 훨씬 더 작고 효율적인 변형으로 변환하는 다단계 압축 프레임워크인 SlimMoE를 소개합니다. 이 방법은 전문가를 간소화하고 중간 단계를 통해 지식을 전달함으로써 매개변수 수를 체계적으로 줄여, 일회성 가지치기 접근법에서 흔히 발생하는 성능 저하를 효과적으로 완화합니다. 이 프레임워크를 사용하여, 우리는 Phi 3.5-MoE(총 41.9B/활성화 6.6B 매개변수)를 압축하여 Phi-mini-MoE(총 7.6B/활성화 2.4B 매개변수)와 Phi-tiny-MoE(총 3.8B/활성화 1.1B 매개변수)를 단 400B 토큰만으로 생성했습니다. 이는 원본 모델의 학습 데이터의 10%도 되지 않는 양입니다. 이러한 압축된 모델은 단일 GPU(A100은 Phi-mini-MoE, A6000은 Phi-tiny-MoE)에서 미세 조정할 수 있어, 학술적 및 리소스가 제한된 환경에 매우 적합합니다. 우리의 실험은 이러한 압축된 모델이 유사한 크기의 다른 모델을 능가하며 더 큰 모델과도 경쟁력을 유지한다는 것을 보여줍니다. 예를 들어, Phi-mini-MoE는 활성화 매개변수의 2/3만 사용하여 Phi-3-mini와 유사하거나 더 나은 성능을 달성하며, 훨씬 낮은 지연 시간에도 불구하고 Llama 3.1 8B와 비슷한 MMLU 점수를 얻습니다. 우리의 연구 결과는 구조화된 가지치기와 단계적 증류를 결합함으로써 고품질의 소형 MoE 모델을 만드는 효과적인 방법을 제시하며, MoE 아키텍처의 보다 광범위한 채택을 위한 길을 열어줍니다. 우리는 모델을 https://huggingface.co/microsoft/Phi-mini-MoE-instruct와 https://huggingface.co/microsoft/Phi-tiny-MoE-instruct에서 공개적으로 제공합니다.

MLLM에서 단계적이고 검증 가능한 의료 추론 능력 강화
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

Jun 20, 2025
Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
42

다중모드 대형 언어 모델(MLLMs)은 일반적인 작업에서 강력한 추론 능력을 보이기 시작했지만, 의료 분야에서의 적용은 아직 초기 단계에 머물러 있습니다. 의료 MLLMs의 추론 능력을 강화하기 위해서는 사고의 연쇄(CoT) 훈련 데이터를 구축하는 것이 필수적입니다. 그러나 기존 접근법들은 중요한 진단을 위한 효과적인 추론 경로를 탐색하고 평가하는 포괄적인 프레임워크를 제공하는 데 있어 부족함을 보입니다. 이러한 문제를 해결하기 위해, 우리는 엄격하고 효과적인 의료 CoT 데이터를 생성하기 위한 새로운 추론 경로 탐색 기법인 멘토-인턴 협력 탐색(MICS)을 제안합니다. MICS는 먼저 멘토 모델을 활용하여 한 단계씩 추론을 초기화한 다음, 각 인턴 모델이 시작된 경로를 따라 사고를 계속하도록 유도하고, 마지막으로 여러 인턴 모델의 전반적인 추론 성능에 따라 최적의 추론 경로를 선택합니다. 추론 성능은 생성된 추론 경로의 품질을 평가하는 MICS-Score에 의해 결정됩니다. 결국, 우리는 난이도가 순위화된 다중 작업 의료 추론 데이터셋인 MMRP와 커리큘럼 학습 전략을 통해 설계된 새로운 의료 MLLM인 Chiron-o1을 구축했습니다. Chiron-o1은 강력한 시각적 질문 응답 및 일반화 가능한 추론 능력을 갖추고 있습니다. 광범위한 실험을 통해 MICS를 사용하여 구축한 CoT 데이터셋으로 훈련된 Chiron-o1이 다양한 의료 시각적 질문 응답 및 추론 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 코드는 GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs에서 확인할 수 있습니다.

ConsumerBench: 최종 사용자 기기에서의 생성형 AI 애플리케이션 벤치마킹
ConsumerBench: Benchmarking Generative AI Applications on End-User Devices

Jun 21, 2025
Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci
31

최근 생성형 AI(GenAI) 애플리케이션이 클라우드 전용 환경에서 최종 사용자 기기로 전환되면서 자원 관리, 시스템 효율성, 사용자 경험 측면에서 새로운 도전 과제가 등장하고 있습니다. 본 논문은 최종 사용자 기기에서 실행되는 GenAI 모델의 시스템 효율성과 응답 시간을 평가하기 위해 설계된 포괄적인 벤치마킹 프레임워크인 ConsumerBench를 소개합니다. 전용 GPU에서 모델에 독점적으로 접근한다고 가정하는 기존 벤치마크와 달리, ConsumerBench는 제한된 하드웨어에서 동시에 실행되는 현실적인 다중 애플리케이션 시나리오를 시뮬레이션합니다. 또한 ConsumerBench는 여러 애플리케이션 간의 조정이 필요한 복잡한 작업을 시뮬레이션하는 사용자 정의 가능한 워크플로를 지원합니다. ConsumerBench는 지연 시간 및 서비스 수준 목표(SLO) 달성과 같은 애플리케이션 수준 메트릭과 CPU/GPU 사용률 및 메모리 대역폭과 같은 시스템 수준 메트릭을 모두 포착합니다. 광범위한 실험을 통해 ConsumerBench는 자원 공유의 비효율성, 탐욕적 할당 하에서의 불공정한 스케줄링, 정적 모델 서버 구성의 성능 문제점을 밝혀냅니다. 또한 본 논문은 소비자 등급 GPU 아키텍처에 맞춤화된 커널의 이점과 SLO 인식 스케줄링 전략 구현의 가치를 강조하며, 모델 개발자와 시스템 설계자를 위한 실용적인 통찰을 제공합니다.

CommVQ: KV 캐시 압축을 위한 교환 가능 벡터 양자화
CommVQ: Commutative Vector Quantization for KV Cache Compression

Jun 23, 2025
Junyan Li, Yang Zhang, Muhammad Yusuf Hassan, Talha Chafekar, Tianle Cai, Zhile Ren, Pengsheng Guo, Foroozan Karimzadeh, Colorado Reed, Chong Wang, Chuang Gan
21

대규모 언어 모델(LLM)은 긴 문맥 길이가 필요한 애플리케이션에서 점점 더 많이 사용되고 있지만, 문맥이 길어질수록 키-값(KV) 캐시가 GPU에서 메모리 병목 현상을 일으키는 경우가 많습니다. 이를 해결하기 위해, 우리는 긴 문맥 LLM 추론을 위한 메모리 사용량을 크게 줄이는 교환 가능한 벡터 양자화(CommVQ)를 제안합니다. 먼저, 가벼운 인코더와 코드북을 사용한 가법 양자화를 도입하여 KV 캐시를 압축하며, 이를 간단한 행렬 곱셈으로 디코딩할 수 있도록 합니다. 디코딩 과정에서의 계산 비용을 더욱 줄이기 위해, 우리는 코드북이 회전 위치 임베딩(RoPE)과 교환 가능하도록 설계하고, 이를 기대값 최대화(EM) 알고리즘을 사용하여 학습시킵니다. 이를 통해 디코딩을 자기 주의 메커니즘에 효율적으로 통합할 수 있습니다. 우리의 접근 방식은 가법 양자화를 통해 높은 정확도를 달성하고, RoPE-교환 가능한 코드북을 통해 낮은 오버헤드를 유지합니다. 긴 문맥 벤치마크와 GSM8K에 대한 실험 결과, 우리의 방법은 2비트 양자화로 FP16 KV 캐시 크기를 87.5% 줄이면서도 최신 KV 캐시 양자화 방법을 능가하는 성능을 보여줍니다. 특히, 최소한의 정확도 손실로 1비트 KV 캐시 양자화를 가능하게 하여, LLaMA-3.1 8B 모델이 단일 RTX 4090 GPU에서 128K 문맥 길이로 실행될 수 있도록 합니다. 소스 코드는 https://github.com/UMass-Embodied-AGI/CommVQ에서 확인할 수 있습니다.

FaithfulSAE: 외부 데이터셋 의존 없이 신뢰할 수 있는 특징을 포착하기 위한 희소 오토인코더
FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies

Jun 21, 2025
Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed
01

희소 오토인코더(Sparse Autoencoders, SAEs)는 대규모 언어 모델의 표현을 해석 가능한 특징으로 분해하기 위한 유망한 해결책으로 부상했다. 그러나 Paulo와 Belrose(2025)는 다양한 초기화 시드 간의 불안정성을 지적했으며, Heap 등(2025)은 SAEs가 모델 내부 특징을 제대로 포착하지 못할 수 있음을 지적했다. 이러한 문제는 웹에서 수집되거나 다른 모델에 의해 생성된 외부 데이터셋에서 SAEs를 훈련시키는 데서 비롯된 것으로 보이며, 이는 모델의 일반화 능력을 벗어난 분포 외(Out-of-Distribution, OOD) 데이터를 포함할 가능성이 있다. 이로 인해 모델의 내부 활성화를 잘못 표현하는 "가짜 특징(Fake Features)"이라 불리는 SAE 특징이 생성될 수 있다. 이러한 문제를 해결하기 위해, 우리는 모델 자체의 합성 데이터셋에서 SAEs를 훈련시키는 FaithfulSAE 방법을 제안한다. FaithfulSAE를 사용하여, 덜 OOD인 명령어 데이터셋에서 SAEs를 훈련시킬 경우 시드 간 안정성이 더 높아짐을 입증했다. 특히, FaithfulSAE는 웹 기반 데이터셋에서 훈련된 SAEs보다 SAE 탐색 작업에서 더 우수한 성능을 보였으며, 7개 모델 중 5개에서 더 낮은 가짜 특징 비율을 나타냈다. 전반적으로, 우리의 접근 방식은 외부 데이터셋에 대한 의존성을 제거함으로써 모델 내부 특징을 더 잘 포착하여 해석 가능성을 향상시키고, SAE 훈련 데이터셋의 중요성을 강조한다.

SoK: 대형 언어 모델의 탈옥 방지 장치 평가
SoK: Evaluating Jailbreak Guardrails for Large Language Models

Jun 12, 2025
Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
01

대규모 언어 모델(LLMs)은 놀라운 발전을 이루었지만, 그 배포 과정에서 특히 안전 메커니즘을 우회하는 탈옥(jailbreak) 공격에 대한 취약성이 노출되었습니다. 이러한 문제를 해결하기 위해, LLM 상호작용을 모니터링하고 제어하는 외부 방어 메커니즘인 가드레일(guardrails)이 유망한 해결책으로 부상했습니다. 그러나 현재 LLM 가드레일 환경은 분열되어 있으며, 통일된 분류 체계와 포괄적인 평가 프레임워크가 부족한 상황입니다. 본 시스템화 지식(Systematization of Knowledge, SoK) 논문에서는 LLM을 위한 탈옥 가드레일에 대한 최초의 종합적 분석을 제시합니다. 우리는 여섯 가지 주요 차원을 따라 가드레일을 분류하는 새로운 다차원 분류 체계를 제안하고, 실질적인 효과를 평가하기 위한 보안-효율성-유용성(Security-Efficiency-Utility) 평가 프레임워크를 소개합니다. 광범위한 분석과 실험을 통해 기존 가드레일 접근법의 강점과 한계를 식별하고, 다양한 공격 유형에 대한 보편성을 탐구하며, 방어 조합을 최적화하기 위한 통찰을 제공합니다. 본 연구는 미래 연구 및 개발을 위한 구조화된 기반을 제공함으로써, 견고한 LLM 가드레일의 원칙적 발전과 배포를 안내하고자 합니다. 코드는 https://github.com/xunguangwang/SoK4JailbreakGuardrails에서 확인할 수 있습니다.

Jun 23
Jun 24