HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

28 papers found

Phi-4-Mini 기술 보고서: Mixture-of-LoRAs를 통한 컴팩트하면서도 강력한 멀티모달 언어 모델
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Mar 3

ByAbdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou

Phi-4-Mini와 Phi-4-Multimodal을 소개합니다. 이들은 컴팩트하면서도 매우 강력한 언어 및 멀티모달 모델입니다. Phi-4-Mini는 고품질 웹 데이터와 합성 데이터로 훈련된 38억 개의 파라미터를 가진 언어 모델로, 복잡한 추론이 필요한 수학 및 코딩 작업에서 비슷한 크기의 최근 오픈소스 모델들을 크게 능가하며, 그 두 배 크기의 모델들과도 성능을 맞먹습니다. 이러한 성과는 고품질 수학 및 코딩 데이터셋을 강조한 신중하게 선별된 합성 데이터 레시피에 의해 주도되었습니다. 전작인 Phi-3.5-Mini와 비교하여, Phi-4-Mini는 다국어 애플리케이션을 더 잘 지원하기 위해 20만 개의 토큰으로 확장된 어휘 크기와 더 효율적인 장문 생성을 위한 그룹 쿼리 어텐션을 특징으로 합니다. Phi-4-Multimodal은 텍스트, 비전, 음성/오디오 입력 모달리티를 단일 모델로 통합한 멀티모달 모델입니다. 이 모델의 새로운 모달리티 확장 접근 방식은 LoRA 어댑터와 모달리티별 라우터를 활용하여 다양한 모달리티를 간섭 없이 결합한 여러 추론 모드를 가능하게 합니다. 예를 들어, 이 모델은 현재 OpenASR 리더보드에서 1위를 차지하고 있으며, 음성/오디오 모달리티의 LoRA 구성 요소는 단 4억 6천만 개의 파라미터만을 가지고 있습니다. Phi-4-Multimodal은 (비전 + 언어), (비전 + 음성), (음성/오디오) 입력을 포함한 시나리오를 지원하며, 다양한 작업에서 더 큰 비전-언어 및 음성-언어 모델들을 능가합니다. 또한, Phi-4-Mini의 추론 능력을 향상시키기 위해 추가 훈련을 실험합니다. 이 실험 버전은 38억 개의 파라미터라는 컴팩트한 크기에도 불구하고, DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B와 같은 훨씬 더 큰 모델들과 동등하거나 이를 넘어서는 추론 성능을 달성합니다.

Visual-RFT: 시각적 강화 미세 조정
Visual-RFT: Visual Reinforcement Fine-Tuning

Mar 3

ByZiyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang

OpenAI o1과 같은 대규모 추론 모델에서의 강화 미세 조정(Reinforcement Fine-Tuning, RFT)은 답변에 대한 피드백을 통해 학습하며, 특히 미세 조정 데이터가 부족한 애플리케이션에서 유용합니다. DeepSeek-R1과 같은 최근의 오픈소스 작업은 검증 가능한 보상을 통한 강화 학습이 o1을 재현하는 데 있어 핵심 방향 중 하나임을 보여줍니다. R1 스타일 모델이 언어 모델에서 성공을 거두었지만, 다중 모달 영역에서의 적용은 아직 충분히 탐구되지 않았습니다. 본 연구는 시각적 작업에서 RFT의 적용 범위를 더욱 확장한 시각적 강화 미세 조정(Visual-RFT)을 소개합니다. 구체적으로, Visual-RFT는 먼저 대형 시각-언어 모델(Large Vision-Language Models, LVLMs)을 사용하여 각 입력에 대해 추론 토큰과 최종 답변을 포함한 여러 응답을 생성한 후, 제안된 시각적 인식 검증 가능 보상 함수를 사용해 Group Relative Policy Optimization(GRPO)과 같은 정책 최적화 알고리즘을 통해 모델을 업데이트합니다. 객체 탐지를 위한 Intersection over Union(IoU) 보상과 같이, 다양한 인식 작업에 대해 서로 다른 검증 가능 보상 함수를 설계합니다. 세분화된 이미지 분류, 소수 샷 객체 탐지, 추론 기반 작업 및 오픈 어휘 객체 탐지 벤치마크에서의 실험 결과는 Visual-RFT가 지도 미세 조정(Supervised Fine-tuning, SFT)에 비해 경쟁력 있는 성능과 향상된 일반화 능력을 보여줍니다. 예를 들어, Visual-RFT는 약 100개의 샘플을 사용한 원샷 세분화된 이미지 분류에서 기준선 대비 24.3%의 정확도 향상을 달성했습니다. 소수 샷 객체 탐지에서도 Visual-RFT는 COCO의 2샷 설정에서 21.9, LVIS에서 15.4로 기준선을 초과했습니다. 우리의 Visual-RFT는 LVLM 미세 조정에 있어 패러다임 전환을 나타내며, 도메인 특화 작업을 위한 추론과 적응성을 강화하는 데이터 효율적이고 보상 기반의 접근 방식을 제공합니다.

Difix3D+: 단일 단계 확산 모델을 활용한 3D 재구성 개선
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

Mar 3

ByJay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling

Neural Radiance Fields(NeRF)와 3D Gaussian Splatting은 3D 재구성 및 새로운 시점 합성 작업에 혁신을 가져왔습니다. 그러나 극단적인 새로운 시점에서의 사실적인 렌더링을 달성하는 것은 여전히 어려운 과제로, 다양한 표현 방식에서 아티팩트가 지속적으로 발생합니다. 본 연구에서는 단일 단계 확산 모델을 통해 3D 재구성과 새로운 시점 합성을 향상시키기 위해 설계된 새로운 파이프라인인 Difix3D+를 소개합니다. 우리의 접근 방식의 핵심은 3D 표현의 제약이 부족한 영역으로 인해 렌더링된 새로운 시점에서 발생하는 아티팩트를 제거하고 향상시키도록 훈련된 단일 단계 이미지 확산 모델인 Difix입니다. Difix는 우리의 파이프라인에서 두 가지 중요한 역할을 수행합니다. 첫째, 재구성 단계에서 재구성된 가짜 훈련 뷰를 정리한 후 이를 다시 3D로 증류하는 데 사용됩니다. 이는 제약이 부족한 영역을 크게 향상시키고 전반적인 3D 표현 품질을 개선합니다. 더 중요한 것은, Difix가 추론 단계에서 신경망 향상기로 작용하여 불완전한 3D 지도와 현재 재구성 모델의 제한된 용량으로 인해 발생하는 잔여 아티팩트를 효과적으로 제거한다는 점입니다. Difix3D+는 NeRF와 3DGS 표현 모두와 호환되는 일반적인 솔루션으로, 3D 일관성을 유지하면서 기준선 대비 평균 2배의 FID 점수 향상을 달성합니다.

자기 개선이 가능한 추론자를 가능하게 하는 인지적 행동들, 또는 고효율 STaR의 네 가지 습관
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Mar 3

ByKanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman

테스트 시간 추론(test-time inference)은 언어 모델이 숙련된 인간 전문가처럼 복잡한 문제에 대해 더 오래, 더 신중하게 '생각'할 수 있게 하는 강력한 패러다임으로 부상했습니다. 강화 학습(RL)은 검증 가능한 작업에서 언어 모델의 자기 개선을 이끌 수 있지만, 일부 모델은 상당한 성과를 보이는 반면 다른 모델은 빠르게 정체되는 현상을 보입니다. 예를 들어, 우리는 Countdown 게임에서 동일한 RL 훈련을 받은 Qwen-2.5-3B가 Llama-3.2-3B를 훨씬 능가하는 것을 발견했습니다. 이러한 차이는 중요한 질문을 제기합니다: 어떤 내재적 특성이 효과적인 자기 개선을 가능하게 하는가? 우리는 이 질문을 탐구하기 위해 전문가 인간 문제 해결자와 성공적인 언어 모델이 모두 사용하는 네 가지 주요 인지 행동 -- 검증(verification), 역추적(backtracking), 하위 목표 설정(subgoal setting), 역방향 연결(backward chaining) --을 분석하는 프레임워크를 소개합니다. 우리의 연구는 Qwen이 이러한 추론 행동을 자연스럽게 보이는 반면, Llama는 초기에 이를 결여하고 있음을 보여줍니다. 통제된 행동 데이터셋을 사용한 체계적인 실험에서, 우리는 이러한 추론 행동을 포함한 예제로 Llama를 사전 준비(priming)하면 RL 동안 상당한 개선이 이루어져 Qwen의 성능을 따라잡거나 능가한다는 것을 발견했습니다. 중요한 것은, 답변의 정확성이 아니라 추론 행동의 존재가 결정적인 요인이라는 점입니다 -- 적절한 추론 패턴을 포함한 잘못된 솔루션으로 사전 준비된 모델은 올바른 솔루션으로 훈련된 모델과 비슷한 성능을 달성합니다. 마지막으로, 추론 행동을 증폭하도록 필터링된 OpenWebMath 데이터를 사용한 지속적인 사전 훈련을 통해 Llama 모델은 Qwen의 자기 개선 궤적을 따라잡을 수 있습니다. 우리의 연구 결과는 초기 추론 행동과 개선 능력 사이의 근본적인 관계를 확립하며, 왜 일부 언어 모델은 추가 계산을 효과적으로 활용하는 반면 다른 모델은 정체되는지를 설명합니다.

수 시간에서 수 분으로: 최대 10만 토큰의 초장기 시퀀스 생성을 위한 무손실 가속화
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

Feb 26

ByTong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng

대규모 언어 모델(LLM)을 사용하여 초장기 시퀀스를 생성하는 것은 점점 더 중요해지고 있지만, 특히 100K 토큰에 이르는 시퀀스의 경우 여전히 시간이 많이 소요되는 작업입니다. 기존의 스펙티브 디코딩(speculative decoding) 방법들이 존재하지만, 단순히 이들의 생성 한계를 확장하는 것은 프로세스를 가속화하지 못할 뿐만 아니라 오히려 해로울 수 있습니다. 심층 분석을 통해 우리는 효율적인 생성을 방해하는 세 가지 주요 문제를 확인했습니다: 빈번한 모델 재로딩, 동적 키-값(KV) 관리, 그리고 반복적인 생성입니다. 이러한 문제를 해결하기 위해, 우리는 TOKENSWIFT라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 초장기 시퀀스의 생성 프로세스를 상당히 가속화하면서도 대상 모델의 본질적인 품질을 유지하도록 설계되었습니다. 실험 결과, TOKENSWIFT는 다양한 규모(1.5B, 7B, 8B, 14B)와 아키텍처(MHA, GQA)의 모델에서 3배 이상의 속도 향상을 달성했습니다. 이 가속화는 초장기 시퀀스 생성에 있어 수 시간의 시간 절약으로 이어지며, TOKENSWIFT를 전례 없는 길이에서도 확장 가능하고 효과적인 솔루션으로 입증합니다. 코드는 https://github.com/bigai-nlco/TokenSwift에서 확인할 수 있습니다.

DiffRhythm: 잠재적 확산 모델을 활용한 초고속 및 놀라울 정도로 간단한 종단간 풀렝쓰 음악 생성
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

Mar 3

ByZiqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie

최근 음악 생성 분야의 발전은 상당한 주목을 받고 있지만, 기존 접근 방식들은 중요한 한계에 직면해 있습니다. 현재 일부 생성 모델은 보컬 트랙 또는 반주 트랙 중 하나만을 합성할 수 있습니다. 보컬과 반주를 함께 생성할 수 있는 모델들도 있지만, 이들은 일반적으로 세심하게 설계된 다단계 캐스케이드 아키텍처와 복잡한 데이터 파이프라인에 의존하여 확장성을 저해합니다. 또한, 대부분의 시스템은 전체 길이의 곡이 아닌 짧은 음악 세그먼트만을 생성하는 데 제한됩니다. 더욱이, 널리 사용되는 언어 모델 기반 방법들은 느린 추론 속도로 인해 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 최대 4분 45초 길이의 완전한 곡을 보컬과 반주와 함께 단 10초 만에 생성할 수 있는 최초의 잠재 확산 기반 음악 생성 모델인 DiffRhythm을 제안합니다. 이 모델은 높은 음악성과 명료성을 유지하면서도, 복잡한 데이터 준비 과정을 제거하고 간결한 모델 구조를 채택하며, 추론 시 가사와 스타일 프롬프트만을 요구하는 단순하고 우아한 설계를 갖추고 있습니다. 또한, 비자기회귀 구조를 통해 빠른 추론 속도를 보장합니다. 이러한 단순성은 DiffRhythm의 확장성을 보장합니다. 더 나아가, 재현성과 추가 연구를 촉진하기 위해 대규모 데이터로 사전 학습된 모델과 함께 완전한 학습 코드를 공개합니다.

OneRec: 생성적 추천 시스템과 반복적 선호도 정렬을 통한 검색과 순위의 통합
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

Feb 26

ByJiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou

최근 생성 기반 검색 추천 시스템이 유망한 패러다임으로 부상하고 있습니다. 그러나 대부분의 현대 추천 시스템은 검색 단계에서 생성 모델이 선택자 역할만 수행하는 검색 후 순위 지정 전략을 채택하고 있습니다. 본 논문에서는 이러한 계단식 학습 프레임워크를 통합 생성 모델로 대체하는 OneRec을 제안합니다. 우리가 아는 한, 이는 실제 시나리오에서 현재의 복잡하고 잘 설계된 추천 시스템을 크게 능가하는 최초의 종단 간(end-to-end) 생성 모델입니다. 구체적으로, OneRec은 다음과 같은 특징을 포함합니다: 1) 사용자의 과거 행동 시퀀스를 인코딩하고 사용자가 관심을 가질 만한 비디오를 점진적으로 디코딩하는 인코더-디코더 구조. 계산 FLOPs를 비례적으로 증가시키지 않으면서 모델 용량을 확장하기 위해 희소 Mixture-of-Experts(MoE)를 채택했습니다. 2) 세션 단위 생성 접근법. 기존의 다음 항목 예측과 달리, 우리는 세션 단위 생성을 제안하며, 이는 생성된 결과를 적절히 결합하기 위해 수작업 규칙에 의존하는 점진적 생성보다 더 우아하고 문맥적으로 일관성이 있습니다. 3) 생성된 결과의 품질을 향상시키기 위해 Direct Preference Optimization(DPO)과 결합된 Iterative Preference Alignment 모듈. NLP에서의 DPO와 달리, 추천 시스템은 일반적으로 각 사용자의 탐색 요청에 대해 결과를 표시할 기회가 단 한 번뿐이므로 긍정적 및 부정적 샘플을 동시에 얻는 것이 불가능합니다. 이러한 한계를 해결하기 위해, 우리는 사용자 생성을 시뮬레이션하고 샘플링 전략을 맞춤화하기 위해 보상 모델을 설계했습니다. 광범위한 실험을 통해 제한된 수의 DPO 샘플만으로도 사용자의 관심 선호도를 정렬하고 생성된 결과의 품질을 크게 향상시킬 수 있음을 입증했습니다. 우리는 OneRec을 Kuaishou의 주요 장면에 배포하여 시청 시간이 1.6% 증가하는 상당한 개선을 달성했습니다.

LLM이 자신의 답변에 대해 불안해할 때 -- 그리고 그 불확실성이 정당화될 때
When an LLM is apprehensive about its answers -- and when its uncertainty is justified

Mar 3

ByPetr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev

불확실성 추정은 대규모 언어 모델(LLM)을 평가하는 데 있어 특히 잘못된 답변이 중대한 결과를 초래할 수 있는 고위험 영역에서 중요합니다. 이 문제를 다루는 다양한 접근법들이 있지만, 특정 유형의 불확실성에만 초점을 맞추고 다른 유형은 무시하는 경우가 많습니다. 본 연구에서는 다양한 주제의 객관식 문제 해결 작업에 대해 토큰 단위 엔트로피(token-wise entropy)와 모델-판단자(model-as-judge, MASJ)와 같은 추정치가 어떻게 작동하는지 조사합니다. 실험에서는 1.5B에서 72B까지 다양한 크기의 세 가지 LLM(Phi-4, Mistral, Qwen)과 14개의 주제를 고려했습니다. MASJ는 무작위 오류 예측기와 유사한 성능을 보인 반면, 응답 엔트로피는 지식 의존적 영역에서 모델 오류를 예측하고 문제 난이도의 효과적인 지표로 작용했습니다: 생물학의 경우 ROC AUC는 0.73입니다. 그러나 이 상관관계는 추론 의존적 영역에서는 사라집니다: 수학 문제의 경우 ROC-AUC는 0.55입니다. 더 근본적으로, 엔트로피 측정은 일정량의 추론을 필요로 한다는 사실을 발견했습니다. 따라서 데이터 불확실성과 관련된 엔트로피는 불확실성 추정 프레임워크 내에 통합되어야 하며, MASJ는 개선이 필요합니다. 또한 기존의 MMLU-Pro 샘플은 편향되어 있으며, LLM 성능을 보다 공정하게 평가하기 위해 다양한 하위 영역에 필요한 추론 양을 균형 있게 조정해야 합니다.

Liger: 대규모 언어 모델을 게이트 순환 구조로 선형화하기
Liger: Linearizing Large Language Models to Gated Recurrent Structures

Mar 3

ByDisen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng

선형 순환 모델링을 적용한 트랜스포머는 선형 시간의 학습과 일정한 메모리 추론을 제공합니다. 이러한 비표준 아키텍처의 효율성과 성능이 입증되었음에도 불구하고, 처음부터 이러한 모델을 사전 학습하는 것은 여전히 비용이 많이 들고 위험성이 있습니다. 대규모 언어 모델(LLM)의 선형화는 사전 학습된 표준 모델을 선형 순환 구조로 변환하여 더 효율적인 배포를 가능하게 합니다. 그러나 현재의 선형화 방법은 일반적으로 추가적인 특징 맵 모듈을 도입하여 광범위한 미세 조정이 필요하며, 최신 선형 순환 모델에서 사용되는 게이트 메커니즘을 간과하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 본 논문은 Liger(Linearizing LLMs to gated recurrent structures)를 제안합니다. Liger는 사전 학습된 LLM을 게이트 선형 순환 모델로 변환하는 새로운 접근 방식으로, 추가 매개변수를 도입하지 않고도 사전 학습된 키 행렬 가중치를 재활용하여 다양한 게이트 메커니즘을 구성합니다. 이를 통해 다양한 게이트 순환 구조를 형성하면서도 추가 구성 요소를 처음부터 학습할 필요를 피할 수 있습니다. Liger는 Low-Rank Adaptation(LoRA)를 사용한 경량 미세 조정을 통해 선형화된 게이트 순환 모델의 성능을 원래 LLM 수준으로 복원합니다. 또한, Liger Attention이라는 계층 내 하이브리드 어텐션 메커니즘을 도입하여 선형화 과정에서 0.02%의 사전 학습 토큰으로 트랜스포머 기반 LLM의 93%를 회복하며, 1B에서 8B 파라미터 범위의 모델에서 검증된 바와 같이 여러 벤치마크에서 경쟁력 있는 결과를 달성합니다. 코드는 https://github.com/OpenSparseLLMs/Linearization에서 확인할 수 있습니다.

자기 보정을 통한 효율적인 테스트 타임 스케일링
Efficient Test-Time Scaling via Self-Calibration

Feb 25

ByChengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang

테스트 시간 계산량을 증가시키는 것은 대규모 언어 모델(LLM)의 응답 품질을 향상시키는 직관적인 접근 방식입니다. Best-of-N 샘플링과 다수결 투표를 통한 Self-Consistency는 간단하면서도 효과적인 방법이지만, 각 질문의 복잡도와 상관없이 고정된 수의 샘플링 응답을 요구합니다. 이는 더 간단한 질문에 대해 불필요한 계산을 초래하거나, 더 어려운 질문에 대해 충분한 탐색을 하지 못하게 할 수 있습니다. 본 연구에서는 모델 응답의 신뢰도를 활용하여 테스트 시간 스케일링의 효율성을 개선할 수 있다고 주장합니다. 그러나 LLM은 과도하게 자신감을 보이며 신뢰할 수 없는 신뢰도 추정을 제공하는 것으로 알려져 있습니다. 이러한 한계를 해결하기 위해, 우리는 Self-Consistency에서 도출된 신뢰도를 모델 자체에 증류하는 Self-Calibration을 도입했습니다. 이를 통해 테스트 시간에 단일 순방향 전파만으로도 신뢰할 수 있는 신뢰도 추정이 가능해졌습니다. 그런 다음, 다양한 난이도의 질문을 처리하기 위해 신뢰도 기반의 효율적인 테스트 시간 스케일링 방법을 설계했습니다. 이는 Best-of-N을 위한 Early-Stopping와 보정된 신뢰도를 활용한 Self-Consistency 등을 포함합니다. 세 가지 LLM과 여섯 개의 데이터셋에서 진행한 실험은 우리의 접근 방식의 효과를 입증했습니다. 특히, Best-of-N에 신뢰도 기반 Early Stopping을 적용했을 때, 16개의 응답 샘플 예산으로 MathQA 정확도가 81.0에서 83.6으로 향상되었으며, 이는 추론 시간에 신뢰도 기반 샘플링 전략의 효용성을 보여줍니다.

Kiss3DGen: 이미지 확산 모델을 3D 자산 생성에 재활용하기
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

Mar 3

ByJiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen

디퓨전 모델은 2D 이미지 생성에서 큰 성공을 거두었습니다. 그러나 3D 콘텐츠 생성의 품질과 일반화 가능성은 여전히 제한적입니다. 최신 방법들은 대규모 3D 자산을 학습에 필요로 하는데, 이를 수집하는 것은 어려운 과제입니다. 본 연구에서는 잘 학습된 2D 이미지 디퓨전 모델을 3D 생성에 재활용하여 3D 객체를 생성, 편집 및 향상시키는 효율적인 프레임워크인 Kiss3DGen(Keep It Simple and Straightforward in 3D Generation)을 소개합니다. 구체적으로, 우리는 디퓨전 모델을 미세 조정하여 다중 뷰 이미지와 해당 노멀 맵으로 구성된 "3D 번들 이미지"를 생성합니다. 노멀 맵은 3D 메시를 재구성하는 데 사용되며, 다중 뷰 이미지는 텍스처 매핑을 제공하여 완전한 3D 모델을 생성합니다. 이 간단한 방법은 3D 생성 문제를 2D 이미지 생성 작업으로 효과적으로 변환하여 사전 학습된 디퓨전 모델의 지식을 최대한 활용합니다. 또한, 우리의 Kiss3DGen 모델은 다양한 디퓨전 모델 기술과 호환되어 3D 편집, 메시 및 텍스처 향상과 같은 고급 기능을 가능하게 합니다. 광범위한 실험을 통해 우리는 이 접근법의 효과를 입증하고, 고품질 3D 모델을 효율적으로 생성할 수 있는 능력을 보여줍니다.

대규모 데이터 선택을 통한 지시 튜닝
Large-Scale Data Selection for Instruction Tuning

Mar 3

ByHamish Ivison, Muru Zhang, Faeze Brahman, Pang Wei Koh, Pradeep Dasigi

더 큰 데이터 풀에서 고품질의 학습 데이터를 선택하는 것은 언어 모델을 인스트럭션 튜닝할 때 매우 중요한 단계입니다. 신중하게 선별된 데이터셋은 훨씬 더 크고 노이즈가 많은 데이터셋으로 학습된 모델보다 더 나은 성능을 보이는 경우가 많기 때문입니다. 인스트럭션 튜닝을 위한 자동화된 데이터 선택 접근법은 일반적으로 작은 데이터 풀(10만~20만 개 샘플)에서 작은 데이터셋(약 1만 개 샘플)을 선택하는 방식으로 테스트됩니다. 그러나 실제로 배포된 인기 있는 인스트럭션 튜닝 모델들은 훨씬 더 큰 데이터 풀에서 서브샘플링된 수십만에서 수백만 개의 샘플로 학습하는 경우가 많습니다. 본 연구에서는 이러한 환경에서 데이터 선택 방법이 얼마나 잘 확장되는지 체계적으로 연구하며, 최대 580만 개의 데이터 풀에서 최대 250만 개의 샘플을 선택하고 7가지 다양한 작업에서 평가를 진행했습니다. 그 결과, 최근 제안된 많은 방법들이 이 환경에서 무작위 선택보다 성능이 떨어지는 동시에 더 많은 계산 자원을 사용하는 것으로 나타났으며, 더 큰 데이터 풀에 접근할수록 성능이 저하되는 경우도 확인했습니다. 그러나 사전 학습된 언어 모델의 은닉 상태에 가중 평균 풀링을 적용한 표현 기반 데이터 선택(RDS+)의 변형은 모든 테스트 환경에서 더 복잡한 방법들을 일관되게 능가하면서도 계산 효율성이 더 높은 것으로 나타났습니다. 본 연구 결과는 제안된 자동화된 선택 방법들의 확장성을 더 면밀히 검토해야 할 필요성을 강조합니다. 코드, 데이터 및 모델은 https://github.com/hamishivi/automated-instruction-selection에서 공개합니다.

추측적 임시 쿼리
Speculative Ad-hoc Querying

Mar 2

ByHaoyu Li, Srikanth Kandula, Maria Angels de Luis Balaguer, Aditya Akella, Venkat Arun

대규모 데이터셋을 분석하려면 빠른 쿼리 실행이 필요하지만, 방대한 데이터셋에 SQL 쿼리를 실행하는 것은 느릴 수 있습니다. 본 논문은 사용자가 쿼리 입력을 완료하기 전에 쿼리 실행을 시작하여 결과를 거의 즉시 표시할 수 있는지 탐구합니다. 우리는 SpeQL이라는 시스템을 제안하는데, 이 시스템은 대형 언어 모델(LLM)을 활용하여 데이터베이스 스키마, 사용자의 과거 쿼리, 그리고 불완전한 쿼리를 기반으로 가능성이 높은 쿼리를 예측합니다. 정확한 쿼리 예측은 불가능하기 때문에, SpeQL은 부분 쿼리를 두 가지 방식으로 추측합니다: 1) 쿼리 구조를 예측하여 미리 쿼리를 컴파일하고 계획하며, 2) 원본 데이터베이스보다 훨씬 작지만 사용자의 최종 쿼리에 필요한 모든 정보를 포함할 것으로 예측되는 임시 테이블을 미리 계산합니다. 또한, SpeQL은 추측된 쿼리와 하위 쿼리에 대한 결과를 실시간으로 지속적으로 표시하여 탐색적 분석을 돕습니다. 유틸리티/사용자 연구에서 SpeQL은 작업 완료 시간을 단축했으며, 참가자들은 결과의 추측적 표시가 데이터 내 패턴을 더 빠르게 발견하는 데 도움이 되었다고 보고했습니다. 연구에서 SpeQL은 사용자의 쿼리 지연 시간을 최대 289배까지 개선했으며, 시간당 4달러의 합리적인 오버헤드를 유지했습니다.

DuoDecoding: 동적 다중 시퀀스 드래프팅을 통한 하드웨어 인식 이종 스펙큘레이티브 디코딩
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

Mar 2

ByKai Lv, Honglin Guo, Qipeng Guo, Xipeng Qiu

대규모 언어 모델(LLMs)은 다양한 작업에서 탁월한 성능을 보여주지만, 토큰 단위의 자기회귀적 생성 과정으로 인해 추론 속도가 크게 저하됩니다. 스펙티브 디코딩은 출력 분포의 충실도를 유지하면서 생성 지연 시간을 줄이는 유망한 드래프트-검증 프레임워크를 제시합니다. 그러나 드래프트 모델은 추가적인 계산 오버헤드를 유발하여 성능 병목 현상을 일으키고 첫 토큰까지의 시간(TTFT)을 증가시킵니다. 드래프트 모델 오버헤드를 완화하기 위한 기존 접근 방식은 주로 휴리스틱에 의존했으며, 일반적으로 드래프트 언어 모델의 품질을 따라잡지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 CPU와 GPU에 각각 드래프트 모델과 타겟 모델을 전략적으로 배치하여 드래프트 품질을 유지하면서 병렬 디코딩을 가능하게 하는 새로운 접근 방식인 DuoDecoding을 제안합니다. 우리의 방법은 하드웨어 인식 최적 드래프트 예산을 도입하여 유휴 시간을 최소화하고, 동적 다중 시퀀스 드래프팅을 통해 드래프트 품질을 향상시킵니다. 7가지 작업에 걸친 광범위한 실험 결과, DuoDecoding은 생성 지연 시간에서 최대 2.61배의 속도 향상을 달성했으며, TTFT를 기존 스펙티브 디코딩의 83%로 줄였습니다. 코드는 https://github.com/KaiLv69/DuoDecoding에서 확인할 수 있습니다.

Qilin: 앱 수준 사용자 세션을 포함한 멀티모달 정보 검색 데이터셋
Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

Mar 1

ByJia Chen, Qian Dong, Haitao Li, Xiaohui He, Yan Gao, Shaosheng Cao, Yi Wu, Ping Yang, Chen Xu, Yao Hu, Qingyao Ai, Yiqun Liu

사용자 생성 콘텐츠(UGC) 커뮤니티, 특히 멀티모달 콘텐츠를 특징으로 하는 커뮤니티는 시각적 및 텍스트 정보를 결과(또는 항목)에 통합함으로써 사용자 경험을 향상시킵니다. 검색 및 추천(S&R) 서비스를 포함한 복잡한 시스템에서 사용자 경험을 개선하는 문제는 최근 몇 년 동안 학계와 산업계 모두로부터 상당한 관심을 받아왔습니다. 그러나 고품질 데이터셋의 부족은 멀티모달 S&R 연구의 진전을 제한해 왔습니다. 더 나은 S&R 서비스 개발에 대한 증가하는 요구를 해결하기 위해, 본 논문에서는 새로운 멀티모달 정보 검색 데이터셋인 Qilin을 소개합니다. 이 데이터셋은 월간 활성 사용자 수가 3억 명 이상이고 평균 검색 접근률이 70%를 넘는 인기 소셜 플랫폼인 샤오홍슈(Xiaohongshu)에서 수집되었습니다. 기존 데이터셋과 달리, Qilin은 이미지-텍스트 노트, 비디오 노트, 상업적 노트, 직접 답변과 같은 다양한 결과를 포함한 사용자 세션의 포괄적인 컬렉션을 제공하여 다양한 작업 설정에서 고급 멀티모달 신경 검색 모델의 개발을 촉진합니다. 사용자 만족도를 더 잘 모델링하고 다양한 사용자 행동 분석을 지원하기 위해, 우리는 또한 광범위한 앱 수준의 컨텍스트 신호와 진정한 사용자 피드백을 수집했습니다. 특히, Qilin은 Deep Query Answering (DQA) 모듈을 트리거하는 검색 요청에 대한 사용자 선호 답변과 그들이 참조한 결과를 포함합니다. 이는 Retrieval-augmented Generation (RAG) 파이프라인의 훈련 및 평가뿐만 아니라, 이러한 모듈이 사용자의 검색 행동에 어떻게 영향을 미치는지 탐구할 수 있게 합니다. 포괄적인 분석과 실험을 통해, 우리는 S&R 시스템을 더욱 개선하기 위한 흥미로운 발견과 통찰을 제공합니다. 우리는 Qilin이 향후 S&R 서비스를 갖춘 멀티모달 콘텐츠 플랫폼의 발전에 크게 기여하기를 바랍니다.

SampleMix: 데이터 품질과 다양성 조정을 통한 샘플 단위 사전 학습 데이터 혼합 전략
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity

Mar 3

ByXiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye

대규모 언어 모델(LLM)을 위한 기존의 사전 학습 데이터 혼합 방법은 일반적으로 도메인별 방법론을 따르며, 이는 상향식 프로세스로 먼저 도메인 가중치를 결정한 후 각 도메인 내에서 균일한 데이터 샘플링을 수행합니다. 그러나 이러한 접근 방식은 중요한 도메인 간 중첩과 공통점을 간과하여 구성된 훈련 데이터셋의 전역적 다양성을 제어하지 못합니다. 더욱이, 도메인 내에서의 균일한 샘플링은 세부적인 샘플별 특성을 무시함으로써 최적이 아닌 데이터 분포를 초래할 수 있습니다. 이러한 단점을 해결하기 위해, 우리는 하향식 패러다임을 기반으로 한 새로운 샘플별 데이터 혼합 접근법을 제안합니다. 이 방법은 각 샘플의 품질과 다양성을 체계적으로 평가함으로써 전역적인 도메인 간 샘플링을 수행하며, 이를 통해 최적의 도메인 분포를 동적으로 결정합니다. 다수의 다운스트림 작업과 복잡도 평가를 통해 수행된 포괄적인 실험은 SampleMix가 기존의 도메인 기반 방법을 능가함을 보여줍니다. 한편, SampleMix는 기준 성능을 달성하기 위해 1.4배에서 2.1배의 훈련 단계가 필요하며, 이는 SampleMix가 사전 학습 데이터를 최적화할 수 있는 상당한 잠재력을 강조합니다.

VideoUFO: 텍스트-비디오 생성을 위한 백만 규모 사용자 중심 데이터셋
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation

Mar 3

ByWenhao Wang, Yi Yang

텍스트-투-비디오 생성 모델은 텍스트 프롬프트를 동적 시각 콘텐츠로 변환하여 영화 제작, 게임, 교육 등 다양한 분야에서 활용될 수 있습니다. 그러나 이러한 모델들의 실제 성능은 종종 사용자 기대에 미치지 못합니다. 주요 이유 중 하나는 사용자가 생성하고자 하는 일부 주제와 관련된 비디오로 이러한 모델들이 훈련되지 않았기 때문입니다. 본 논문에서는 사용자의 실제 시나리오에서의 관심사와 일치하도록 특별히 선별된 최초의 비디오 데이터셋인 VideoUFO를 제안합니다. 또한, VideoUFO는 (1) 기존 비디오 데이터셋과의 중복이 최소화된(0.29%) 특징과 (2) YouTube의 공식 API를 통해 크리에이티브 커먼즈 라이선스 하에 독점적으로 검색된 비디오를 포함합니다. 이러한 두 가지 특성은 향후 연구자들이 훈련 소스를 확장하는 데 더 큰 자유를 제공합니다. VideoUFO는 109만 개 이상의 비디오 클립으로 구성되며, 각 클립은 간단한 캡션과 상세한 설명(description)과 짝을 이룹니다. 구체적으로, 클러스터링을 통해 백만 규모의 실제 텍스트-투-비디오 프롬프트 데이터셋인 VidProM에서 1,291개의 사용자 중심 주제를 식별합니다. 그런 다음, 이러한 주제를 사용하여 YouTube에서 비디오를 검색하고, 검색된 비디오를 클립으로 분할한 후 각 클립에 대해 간단한 캡션과 상세한 설명을 생성합니다. 지정된 주제와 일치하는 클립을 검증한 후, 약 109만 개의 비디오 클립이 남습니다. 우리의 실험 결과는 (1) 현재의 16개 텍스트-투-비디오 모델이 모든 사용자 중심 주제에서 일관된 성능을 보이지 않으며, (2) VideoUFO로 훈련된 간단한 모델이 가장 낮은 성능을 보이는 주제에서 다른 모델들을 능가한다는 것을 보여줍니다. 이 데이터셋은 CC BY 4.0 라이선스 하에 https://huggingface.co/datasets/WenhaoWang/VideoUFO에서 공개적으로 이용 가능합니다.

CodeArena: LLM 코드 생성을 위한 집단 평가 플랫폼
CodeArena: A Collective Evaluation Platform for LLM Code Generation

Mar 3

ByMingzhe Du, Anh Tuan Luu, Bin Ji, Xiaobao Wu, Dong Huang, Terry Yue Zhuo, Qian Liu, See-Kiong Ng

대형 언어 모델(LLMs)은 자연어와 프로그래밍 구문에 대한 탁월한 이해력을 결합하여 코드 생성을 혁신적으로 변화시켰으며, 이를 통해 개발자 생산성을 크게 향상시켰습니다. 이러한 발전은 LLM의 코딩 능력을 정량적으로 평가하려는 수많은 노력을 촉발시켰습니다. 그러나 벤치마크 누출, 데이터 소산, 제한된 시스템 접근성과 같은 지속적인 문제들은 적시에 정확한 평가를 방해하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 LLM 코드 생성을 위한 온라인 평가 프레임워크인 CodeArena를 소개합니다. 주요 혁신은 집단 평가 메커니즘으로, 이는 모든 참여 모델의 전반적인 성능을 기반으로 개별 모델 점수를 동적으로 재조정하여 널리 퍼진 벤치마크 누출로 인한 점수 편향을 완화합니다. 또한, CodeArena는 제출된 모든 솔루션과 테스트 케이스에 대한 공개 접근을 보장하고, 코드 평가 워크플로우를 간소화하기 위해 자동화 친화적인 API를 제공합니다. 우리의 주요 기여는 다음과 같습니다: (1) 편향 없는 평가를 위한 집단 평가 시스템, (2) 솔루션 및 테스트 케이스의 공개 저장소, (3) 원활한 통합을 위한 자동화 준비 API.

PodAgent: 팟캐스트 생성을 위한 포괄적 프레임워크
PodAgent: A Comprehensive Framework for Podcast Generation

Mar 1

ByYujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee

기존의 자동 오디오 생성 방법들은 팟캐스트 형태의 오디오 프로그램을 효과적으로 생성하는 데 어려움을 겪고 있습니다. 주요 과제는 심층적인 콘텐츠 생성과 적절하며 표현력 있는 음성 생산에 있습니다. 본 논문은 오디오 프로그램 제작을 위한 포괄적인 프레임워크인 PodAgent를 제안합니다. PodAgent는 1) 호스트-게스트-작가 다중 에이전트 협업 시스템을 설계하여 정보성 있는 토론 콘텐츠를 생성하고, 2) 적절한 음성-역할 매칭을 위한 음성 풀을 구축하며, 3) LLM(대형 언어 모델) 강화 음성 합성 방법을 활용하여 표현력 있는 대화형 음성을 생성합니다. 팟캐스트 형태의 오디오 생성을 위한 표준화된 평가 기준이 부재함에 따라, 우리는 모델의 성능을 효과적으로 평가하기 위한 포괄적인 평가 지침을 개발했습니다. 실험 결과는 PodAgent의 효과성을 입증하며, 토론 대화 콘텐츠에서 직접 GPT-4 생성보다 월등히 뛰어난 성능을 보이고, 87.4%의 음성 매칭 정확도를 달성하며, LLM 기반 합성을 통해 더욱 표현력 있는 음성을 생성합니다. 데모 페이지: https://podcast-agent.github.io/demo/. 소스 코드: https://github.com/yujxx/PodAgent.

단어 형태의 중요성: 타이포글리세미아 상황에서의 대형 언어 모델의 의미 재구성
Word Form Matters: LLMs' Semantic Reconstruction under Typoglycemia

Mar 3

ByChenxi Wang, Tianle Gu, Zhongyu Wei, Lang Gao, Zirui Song, Xiuying Chen

인간 독자들은 단어 형태에 주로 의존하여 뒤섞인 단어를 효율적으로 이해할 수 있으며, 이러한 현상을 타이포글리세미아(Typoglycemia)라고 부릅니다. 단어 형태만으로는 부족할 경우, 추가적으로 문맥적 단서를 활용하여 해석합니다. 고도로 발전된 대형 언어 모델(LLM)도 유사한 능력을 보이지만, 그 근본적인 메커니즘은 여전히 명확하지 않습니다. 이를 조사하기 위해, 우리는 통제된 실험을 통해 단어 형태와 문맥 정보가 의미 재구성에 미치는 역할을 분석하고, LLM의 주의 패턴을 검토합니다. 구체적으로, 우리는 먼저 의미 재구성 정도를 정량화하는 신뢰할 수 있는 지표인 SemRecScore를 제안하고, 그 효과성을 검증합니다. 이 지표를 사용하여 단어 형태와 문맥 정보가 LLM의 의미 재구성 능력에 미치는 영향을 연구하며, 이 과정에서 단어 형태가 핵심 요소임을 확인합니다. 더 나아가, LLM이 단어 형태를 어떻게 활용하는지 분석한 결과, LLM은 특수화된 주의 헤드를 사용하여 단어 형태 정보를 추출하고 처리하며, 이 메커니즘은 단어 뒤섞임 정도에 관계없이 안정적으로 유지됨을 발견했습니다. 단어 형태에 주로 초점을 맞춘 LLM의 고정된 주의 패턴과 단어 형태와 문맥 정보를 균형 있게 활용하는 인간 독자의 적응적 전략 간의 이러한 차이는, 인간과 같은 문맥 인식 메커니즘을 통합하여 LLM 성능을 향상시킬 수 있는 통찰을 제공합니다.

인공지능이 발명한 음조 언어: 인간의 이해를 초월하는 기계 공용어 방지
AI-Invented Tonal Languages: Preventing a Machine Lingua Franca Beyond Human Understanding

Mar 2

ByDavid Noever

본 논문은 대규모 언어 모델(LLM)이 기계 간 통신(M2M)을 위해 사적 음성 언어를 개발할 가능성을 탐구한다. 인간 쌍둥이 간의 암호어 현상(최대 50%의 쌍둥이 출생에 영향을 미침)과 중국어 및 베트남어와 같은 자연 음성 언어에서 영감을 받아, 우리는 음계 반음을 사용하여 전체 ASCII 문자 집합(32-126)을 인코딩하는 정밀한 문자-주파수 매핑 시스템을 구현했다. 각 문자는 고유한 주파수에 할당되며, 공백(220Hz)에서 시작하여 물결표(50,175.42Hz)로 끝나는 로그적 진행을 생성한다. 이는 약 7.9옥타브에 걸쳐 있으며, 높은 문자는 의도적으로 인간의 인식 범위를 초과하는 초음파 주파수(>20kHz)로 매핑된다. 우리가 구현한 소프트웨어 프로토타입은 시각화, 청각 재생 및 ABC 악보를 통해 이 인코딩을 시연하며, 정보 밀도와 전송 속도를 분석할 수 있도록 한다. 테스트 결과, 음성 인코딩은 인간의 인식 경계를 부분적으로 벗어나면서도 인간의 음성보다 높은 정보 전송률을 달성할 수 있음이 밝혀졌다. 이 연구는 향후 5년 내에 AI 시스템이 재앙적으로 사적 언어를 개발할 것이라는 우려에 직접적으로 대응하며, 그러한 통신이 어떻게 기능할 수 있는지에 대한 구체적인 소프트웨어 프로토타입 예시와 그 출현, 탐지 및 거버넌스에 필요한 기술적 기반을 제공한다.

일반적인 추론 능력은 처음부터 추론하는 법을 배우는 것을 필요로 한다.
General Reasoning Requires Learning to Reason from the Get-go

Feb 26

BySeungwook Han, Jyothish Pari, Samuel J. Gershman, Pulkit Agrawal

대규모 언어 모델(LLM)은 실제 세계에서 인상적인 유용성을 보여주며, 인공 유용 지능(AUI)의 전형을 보여주고 있습니다. 그러나 적응적이고 견고하게 사고하는 능력, 즉 인공 일반 지능(AGI)의 핵심 특징은 여전히 취약합니다. LLM은 상식적 추론, 프로그래밍, 수학 분야에서 성공적으로 보이지만, 새로운 맥락에서 알고리즘적 이해를 일반화하는 데 어려움을 겪습니다. 우리의 실험에서, 난해한 프로그래밍 언어로 된 알고리즘 과제를 통해 LLM의 추론이 훈련 데이터에 과적합되어 있고 전이 가능성이 제한적임을 확인했습니다. 우리는 이러한 제한된 전이 가능성의 근본적인 문제가 LLM에서 지식과 추론이 결합되어 있기 때문이라고 가정합니다. AUI에서 AGI로 전환하기 위해, 우리는 지식과 추론을 분리하는 세 가지 주요 방향을 제안합니다: (1) 널리 사용되는 다음 토큰 예측 사전 훈련 대신 처음부터 강화 학습(RL)을 사용하여 추론을 사전 훈련하는 것, (2) 합성 과제의 커리큘럼을 사용하여 자연어 과제로 전이할 수 있는 추론 사전을 학습하기 쉽게 하는 것, (3) 작은 컨텍스트 윈도우를 사용하여 토큰 간의 허위 상관 관계를 활용하는 것을 줄이고 더 일반화 가능한 추론 함수를 학습하는 것. 이러한 추론 시스템은 훈련된 검색 시스템과 대규모 외부 메모리 뱅크를 지식 저장소로 결합함으로써, 새로운 시나리오에서 추론을 학습하는 데 있어 기존 아키텍처의 여러 한계를 극복할 수 있습니다.

직접 판별 최적화: 당신의 가능도 기반 시각적 생성 모델은 사실 GAN 판별기입니다
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

Mar 3

ByKaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang

가능도 기반 생성 모델, 특히 확산 모델과 자기회귀 모델은 시각적 생성에서 뛰어난 충실도를 달성했지만, 최대가능도 추정(MLE) 목표 함수는 본질적으로 모드 커버링 경향성을 가지고 있어 제한된 모델 용량 하에서 생성 품질을 제한합니다. 본 연구에서는 이러한 근본적인 제약을 우회하기 위해 가능도 기반 생성 학습과 GAN 목표 함수를 연결하는 통합 프레임워크로서 직접 판별 최적화(Direct Discriminative Optimization, DDO)를 제안합니다. 우리의 핵심 통찰은 학습 가능한 목표 모델과 고정된 참조 모델 간의 가능도 비율을 사용하여 판별자를 암묵적으로 매개변수화하는 것으로, 직접 선호 최적화(Direct Preference Optimization, DPO)의 철학과 유사성을 가집니다. GAN과 달리, 이러한 매개변수화는 생성기와 판별기 네트워크의 공동 학습 필요성을 제거하여, MLE의 한계를 넘어 잘 학습된 모델을 직접적이고 효율적이며 효과적으로 미세 조정할 수 있게 합니다. DDO는 자기 주도 방식으로 반복적으로 수행되어 점진적인 모델 개선이 가능하며, 각 라운드에서 사전 학습 epoch의 1% 미만만 필요로 합니다. 우리의 실험은 DDO의 효과를 입증하며, CIFAR-10/ImageNet-64 데이터셋에서 이전 SOTA 확산 모델인 EDM의 FID 점수를 1.79/1.58에서 새로운 기록인 1.30/0.97로 크게 개선하고, ImageNet 256×256에서 시각적 자기회귀 모델의 가이드 없는 FID와 CFG 강화 FID를 모두 일관되게 향상시켰습니다.

프리트레인 모델 시대의 자연스러운 희소 뷰 기반 실내 구조 복원
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model

Feb 24

ByYaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue

다중 시점 이미지에서의 실내 구조 추정은 다중 시점 기하학에서 발생하는 복잡성으로 인해 잘 연구되지 않았습니다. 이는 카메라 내부 및 외부 파라미터 추정, 이미지 매칭, 삼각측량과 같은 다단계 해결책을 필요로 합니다. 그러나 3D 재구성 분야에서는 DUSt3R과 같은 최근 3D 기반 모델의 발전으로 인해 전통적인 다단계 구조-움직임(SfM) 프로세스에서 종단 간 단일 단계 접근 방식으로 패러다임이 전환되었습니다. 이를 위해 우리는 3D 기반 모델 DUSt3R을 활용한 다중 시점 실내 구조 추정을 위한 새로운 방법인 Plane-DUSt3R을 소개합니다. Plane-DUSt3R은 DUSt3R 프레임워크를 통합하고 실내 구조 데이터셋(Structure3D)에서 미세 조정을 통해 구조적 평면을 추정하도록 목적 함수를 수정합니다. 균일하고 간결한 결과를 생성함으로써, Plane-DUSt3R은 단일 후처리 단계와 2D 검출 결과만으로 실내 구조 추정을 가능하게 합니다. 단일 시점 또는 파노라마 이미지에 의존하는 기존 방법과 달리, Plane-DUSt3R은 다중 시점 이미지를 처리할 수 있는 설정으로 확장되었습니다. 또한, 이 방법은 프로세스를 단순화하고 오류 누적을 줄이는 종단 간 해결책을 제공합니다. 실험 결과는 Plane-DUSt3R이 합성 데이터셋에서 최신 방법을 능가할 뿐만 아니라, 만화와 같은 다양한 이미지 스타일의 실제 데이터에서도 견고하고 효과적임을 보여줍니다. 우리의 코드는 https://github.com/justacar/Plane-DUSt3R에서 확인할 수 있습니다.

자기회귀적 멀티모달 기초 모델에 메트릭 거리 학습 적용하기
Teaching Metric Distance to Autoregressive Multimodal Foundational Models

Mar 4

ByJiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu

대규모 언어 모델이 자연어를 넘어 수학, 멀티모달 이해, 구현된 에이전트와 같은 영역으로 확장됨에 따라, 토큰은 순수한 언어적 의미보다는 점점 더 미터법적 관계를 반영하게 되었습니다. 우리는 사전 정의된 출력 토큰 간의 거리 관계를 활용하여 자기회귀적 이산 모델을 훈련하기 위해 설계된 거리 인식 프레임워크인 DIST2Loss를 소개합니다. DIST2Loss의 핵심은 고유한 거리 메트릭에서 도출된 연속 지수족 분포를 모델 아키텍처와 호환되는 이산적 범주형 최적화 대상으로 변환하는 것입니다. 이 접근법은 모델이 토큰 생성 과정에서 의미 있는 거리 관계를 학습하고 보존할 수 있게 하면서도 기존 아키텍처와의 호환성을 유지합니다. 실험적 평가는 시각적 접지, 로봇 조작, 생성적 보상 모델링, 벡터 양자화된 특징을 사용한 이미지 생성 등 다양한 멀티모달 응용 분야에서 일관된 성능 향상을 보여줍니다. 이러한 개선은 특히 훈련 데이터가 제한된 경우에 두드러지며, DIST2Loss가 자원이 제한된 환경에서도 효과적임을 강조합니다.

웹 AI 에이전트가 독립형 LLM보다 더 취약한 이유는 무엇인가? 보안 분석
Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis

Feb 27

ByJeffrey Yang Fan Chiang, Seungjae Lee, Jia-Bin Huang, Furong Huang, Yizheng Chen

최근 웹 AI 에이전트의 발전은 복잡한 웹 탐색 작업을 해결하는 데 있어 놀라운 능력을 보여주고 있습니다. 그러나 새로운 연구에 따르면, 이러한 에이전트들은 동일한 안전성 정렬 모델을 기반으로 구축되었음에도 불구하고 독립형 대형 언어 모델(LLM)에 비해 더 큰 취약성을 보이는 것으로 나타났습니다. 이러한 차이는 웹 AI 에이전트가 독립형 LLM에 비해 더 큰 유연성을 가지고 있어, 더 광범위한 적대적 사용자 입력에 노출될 가능성이 높다는 점에서 특히 우려스러운 문제입니다. 이러한 문제를 해결하기 위한 기반을 마련하기 위해, 본 연구는 웹 AI 에이전트의 취약성이 증가하는 근본적인 요인들을 조사합니다. 특히, 이러한 차이는 웹 AI 에이전트와 독립형 LLM 간의 다면적인 차이와, 단순한 평가 지표(예: 성공률)로는 포착하기 어려운 복잡한 신호들에서 비롯됩니다. 이러한 문제를 해결하기 위해, 우리는 구성 요소 수준의 분석과 더 세분화된 체계적인 평가 프레임워크를 제안합니다. 이러한 세밀한 조사를 통해, 우리는 웹 AI 에이전트의 취약성을 증폭시키는 세 가지 주요 요인을 식별했습니다: (1) 시스템 프롬프트에 사용자 목표를 내재화하는 것, (2) 다단계 행동 생성, 그리고 (3) 관찰 능력입니다. 우리의 연구 결과는 AI 에이전트 설계에서 보안과 견고성을 강화할 필요성과 함께, 표적 방어 전략을 위한 실행 가능한 통찰력을 제공합니다.

CLEA: 동적 환경에서의 작업 수행 향상을 위한 폐쇄 루프 구현 에이전트
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments

Mar 2

ByMingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren

대규모 언어 모델(LLMs)은 의미론적 추론을 통해 복잡한 작업의 계층적 분해에서 뛰어난 능력을 보여줍니다. 그러나 이러한 모델을 구체화된 시스템에 적용할 때는 하위 작업 시퀀스의 신뢰할 수 있는 실행과 장기 작업 완료에서의 원샷 성공을 보장하는 데 어려움이 있습니다. 이러한 동적 환경에서의 한계를 해결하기 위해, 우리는 폐루프 임베디드 에이전트(CLEA)를 제안합니다. CLEA는 기능적 분리를 통해 4개의 특화된 오픈소스 LLM을 통합한 새로운 아키텍처로, 폐루프 작업 관리를 가능하게 합니다. 이 프레임워크는 두 가지 핵심 혁신을 특징으로 합니다: (1) 환경 메모리를 기반으로 실행 가능한 하위 작업을 동적으로 생성하는 인터랙티브 작업 플래너, 그리고 (2) 행동 실행 가능성에 대한 확률적 평가를 수행하고 환경적 변화가 사전 설정된 임계값을 초과할 경우 계층적 재계획 메커니즘을 트리거하는 멀티모달 실행 비평가. CLEA의 효과를 검증하기 위해, 우리는 조작 가능한 물체가 있는 실제 환경에서 두 가지 이종 로봇을 사용하여 물체 탐색, 조작, 그리고 탐색-조작 통합 작업을 실험했습니다. 12개의 작업 시도에서 CLEA는 기준 모델을 능가하며, 성공률에서 67.3%의 향상과 작업 완료율에서 52.8%의 증가를 달성했습니다. 이러한 결과는 CLEA가 동적 환경에서 작업 계획과 실행의 견고성을 크게 향상시킨다는 것을 보여줍니다.

RSQ: 중요한 토큰에서 학습하는 것이 더 나은 양자화된 대형 언어 모델로 이어진다
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs

Mar 3

ByYi-Lin Sung, Prateek Yadav, Jialu Li, Jaehong Yoon, Mohit Bansal

레이어별 양자화(Layer-wise quantization)는 비용이 많이 드는 재학습 없이 대규모 모델을 효율적으로 압축하는 핵심 기술입니다. 기존 방법들은 일반적으로 각 레이어의 가중치를 모든 출력 토큰에 걸쳐 레이어 재구성 손실을 "균일하게" 최적화하여 양자화합니다. 그러나 본 논문에서는 중요한 토큰(예: 큰 어텐션 점수를 가진 토큰)으로부터의 학습을 우선시함으로써 더 나은 양자화 모델을 얻을 수 있음을 보여줍니다. 이러한 발견을 바탕으로, 우리는 RSQ(Rotate, Scale, then Quantize)를 제안합니다. RSQ는 (1) 이상치(예외적으로 큰 크기를 가진 값)를 완화하기 위해 모델에 회전(직교 변환)을 적용하고, (2) 토큰의 중요도에 기반하여 토큰 특성을 스케일링하며, (3) 스케일링된 토큰으로 계산된 2차 통계를 사용하여 GPTQ 프레임워크로 모델을 양자화합니다. 토큰 중요도를 계산하기 위해, 우리는 휴리스틱 및 동적 전략을 모두 탐구합니다. 모든 접근법을 철저히 분석한 결과, 각 토큰의 어텐션 점수를 중요도로 사용하는 어텐션 집중(attention concentration)을 최적의 접근법으로 채택했습니다. 우리는 RSQ가 LLaMA3, Mistral, Qwen2.5 등 세 가지 모델 패밀리와 다양한 다운스트림 작업에서 일관되게 베이스라인 방법을 능가함을 보여줍니다. 또한, RSQ로 양자화된 모델은 장문맥 작업에서도 우수한 성능을 달성하여 그 효과를 더욱 입증합니다. 마지막으로, RSQ는 다양한 설정(모델 크기, 캘리브레이션 데이터셋, 비트 정밀도, 양자화 방법 등)에서 일반화 가능성을 보여줍니다.