AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

VideoGrain: 다중 세분화 비디오 편집을 위한 시공간 주의력 조절
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24, 2025

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang

795

최근 확산 모델의 발전으로 비디오 생성 및 편집 기능이 크게 향상되었습니다. 그러나 클래스 수준, 인스턴스 수준, 부분 수준의 수정을 포함하는 다중 단위 비디오 편집은 여전히 큰 도전 과제로 남아 있습니다. 다중 단위 편집의 주요 어려움은 텍스트-영역 제어의 의미론적 불일치와 확산 모델 내의 특징 결합 문제입니다. 이러한 어려움을 해결하기 위해, 우리는 비디오 콘텐츠에 대한 세밀한 제어를 달성하기 위해 시공간(교차 및 자기) 주의 메커니즘을 조절하는 제로샷 접근 방식인 VideoGrain을 제안합니다. 우리는 교차 주의에서 각 지역 프롬프트의 주의를 해당 공간적으로 분리된 영역으로 증폭시키고 관련 없는 영역과의 상호작용을 최소화함으로써 텍스트-영역 제어를 강화합니다. 또한, 자기 주의에서 영역 내 인식을 증가시키고 영역 간 간섭을 줄여 특징 분리를 개선합니다. 광범위한 실험을 통해 우리의 방법이 실제 시나리오에서 최첨단 성능을 달성함을 입증했습니다. 우리의 코드, 데이터, 데모는 https://knightyxp.github.io/VideoGrain_project_page/에서 확인할 수 있습니다.

이렇게 말하노라, 장문맥 대형 언어 모델
Thus Spake Long-Context Large Language Model

Feb 24, 2025

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

736

긴 문맥(Long Context)은 자연어 처리(NLP) 분야에서 중요한 주제로, NLP 아키텍처의 발전 전반에 걸쳐 있으며, 대규모 언어 모델(LLMs)에게 인간과 유사한 평생 학습 능력을 제공할 수 있는 방대한 기회를 제공합니다. 그러나 긴 문맥을 추구하는 과정에는 수많은 장애물이 따릅니다. 그럼에도 불구하고, 긴 문맥은 LLMs의 핵심 경쟁력으로 남아 있습니다. 지난 2년 동안 LLMs의 문맥 길이는 수백만 토큰으로의 획기적인 확장을 이루었습니다. 더 나아가, 긴 문맥 LLMs에 대한 연구는 길이 외삽(Length Extrapolation)에서 벗어나 아키텍처, 인프라, 훈련 및 평가 기술 전반에 걸친 포괄적인 관심으로 확장되었습니다. 교향시 <차라투스트라는 이렇게 말했다>에서 영감을 받아, 우리는 LLM의 문맥 확장 여정과 인간이 자신의 유한성을 초월하려는 시도 사이에 유추를 그립니다. 이 설문조사에서 우리는 LLM이 더 긴 문맥에 대한 엄청난 필요와 궁극적으로 유한하다는 사실을 받아들여야 하는 동등한 필요 사이에서 어떻게 고군분투하는지를 설명할 것입니다. 이를 위해 우리는 아키텍처, 인프라, 훈련 및 평가라는 네 가지 관점에서 긴 문맥 LLMs의 생명주기를 전반적으로 조명하며, 긴 문맥 기술의 전체 스펙트럼을 보여줍니다. 이 설문조사의 마지막 부분에서는 현재 긴 문맥 LLMs가 직면한 10개의 미해결 질문을 제시할 것입니다. 우리는 이 설문조사가 긴 문맥 LLMs 연구에 대한 체계적인 소개가 되기를 바랍니다.

슬래밍: 단일 GPU에서 하루 만에 음성 언어 모델 학습하기
Slamming: Training a Speech Language Model on One GPU in a Day

Feb 19, 2025

Gallil Maimon, Avishai Elmakies, Yossi Adi

702

우리는 단일 학술용 GPU에서 24시간 만에 고품질 음성 언어 모델(Speech Language Models, SLMs)을 훈련시키는 방법론인 Slam을 소개한다. 이를 위해 모델 초기화와 아키텍처, 합성 훈련 데이터, 합성 데이터를 활용한 선호도 최적화, 그리고 기타 모든 구성 요소를 세밀히 조정하는 실증적 분석을 수행하였다. 우리는 이 훈련 방법론이 더 많은 컴퓨팅 자원과 함께 잘 확장되며, 선도적인 SLM들과 동등한 결과를 훨씬 적은 컴퓨팅 비용으로 달성할 수 있음을 실증적으로 입증하였다. 이러한 통찰이 SLM 훈련과 연구를 더욱 접근 가능하게 만들기를 기대한다. SLM 스케일링 법칙의 맥락에서, 우리의 결과는 예측된 컴퓨팅 최적 성능을 훨씬 뛰어넘어 SLM의 실현 가능성에 대해 낙관적인 전망을 제시한다. 코드, 데이터, 모델, 샘플은 https://pages.cs.huji.ac.il/adiyoss-lab/slamming에서 확인할 수 있다.

DICEPTION: 시각적 인지 작업을 위한 범용 확산 모델
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Feb 24, 2025

Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen

533

여기서 우리의 주요 목표는 계산 자원과 학습 데이터에 대한 제약 내에서 여러 작업을 처리할 수 있는 우수한 일반화 지각 모델을 만드는 것입니다. 이를 위해 우리는 수십억 장의 이미지로 사전 학습된 텍스트-이미지 확산 모델을 활용합니다. 우리의 포괄적인 평가 지표는 DICEPTION이 여러 지각 작업을 효과적으로 처리하며 최첨단 모델과 동등한 성능을 달성함을 보여줍니다. 우리는 SAM-vit-h와 동등한 결과를 달성하면서도 그들의 데이터 중 단 0.06%만 사용했습니다(예: 600K vs. 1B 픽셀 수준 주석 이미지). Wang 등의 연구에서 영감을 받아, DICEPTION은 다양한 지각 작업의 출력을 색상 인코딩을 사용하여 표현하며, 서로 다른 인스턴스에 무작위 색상을 할당하는 전략이 엔티티 분할과 의미론적 분할 모두에서 매우 효과적임을 보여줍니다. 다양한 지각 작업을 조건부 이미지 생성으로 통합함으로써, 우리는 사전 학습된 텍스트-이미지 모델을 완전히 활용할 수 있습니다. 따라서 DICEPTION은 처음부터 학습된 기존 모델에 비해 수십 배 낮은 비용으로 효율적으로 학습될 수 있습니다. 우리의 모델을 다른 작업에 적용할 때는 단 50장의 이미지와 파라미터의 1%만으로 미세 조정이 필요합니다. DICEPTION은 시각적 일반화 모델에 대한 귀중한 통찰력과 더 유망한 해결책을 제공합니다.

오디오-FLAN: 초기 릴리스
Audio-FLAN: A Preliminary Release

Feb 23, 2025

Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue

372

최근 오디오 토큰화 기술의 발전으로 대규모 언어 모델(LLM)에 오디오 기능을 통합하는 데 있어 상당한 진전이 이루어졌습니다. 그러나 오디오 이해와 생성은 종종 별개의 작업으로 취급되어, 진정한 통합형 오디오-언어 모델의 개발을 방해하고 있습니다. 인스트럭션 튜닝은 텍스트와 비전 분야에서 일반화 및 제로샷 학습을 개선하는 데 있어 놀라운 성공을 거두었지만, 오디오 분야에의 적용은 아직까지 크게 탐구되지 않았습니다. 주요 장애물은 오디오 이해와 생성을 통합하는 포괄적인 데이터셋의 부재입니다. 이를 해결하기 위해, 우리는 음성, 음악, 소리 도메인에 걸쳐 80가지 다양한 작업과 1억 개 이상의 인스턴스를 포함하는 대규모 인스트럭션 튜닝 데이터셋인 Audio-FLAN을 소개합니다. Audio-FLAN은 다양한 오디오 도메인에서 이해(예: 전사, 이해)와 생성(예: 음성, 음악, 소리) 작업을 제로샷 방식으로 원활하게 처리할 수 있는 통합형 오디오-언어 모델의 기반을 마련합니다. Audio-FLAN 데이터셋은 HuggingFace와 GitHub에서 이용 가능하며, 지속적으로 업데이트될 예정입니다.

LoRA의 위대함을 다시 찾아서: 적응형 특이값과 전문가 혼합 최적화 정렬을 통한 LoRA 성능 향상
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Feb 24, 2025

Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng

314

저순위 적응(LoRA)은 대규모 언어 모델(LLM)의 매개변수 효율적 미세 조정을 가능하게 하지만, 그 성능은 종종 완전 미세 조정(Full FT)에 미치지 못합니다. 현재의 방법들은 정적 특이값 분해(SVD) 부분집합으로 초기화하여 LoRA를 최적화하지만, 이는 사전 학습된 지식을 최적으로 활용하지 못하는 결과를 초래합니다. LoRA를 개선하는 또 다른 방법은 전문가 혼합(MoE) 아키텍처를 통합하는 것입니다. 그러나 가중치 불일치와 복잡한 기울기 역학으로 인해 LoRA MoE 아키텍처에 SVD를 적용하기가 어려운 실정입니다. 이러한 문제를 완화하기 위해, 우리는 GOAT(Great LoRA Mixture-of-Expert) 프레임워크를 제안합니다. GOAT는 (1) SVD 구조의 MoE를 사용하여 관련 사전 지식을 적응적으로 통합하고, (2) 이론적 스케일링 인자를 도출하여 완전 미세 조정된 MoE와 최적화를 맞춥니다. 우리는 아키텍처나 학습 알고리즘을 수정하지 않고도 적절한 스케일링이 LoRA MoE의 효율성과 성능을 향상시킨다는 것을 입증합니다. 자연어 이해, 상식 추론, 이미지 분류, 자연어 생성 등 25개 데이터셋에 대한 실험을 통해 GOAT가 최신 기술 수준의 성능을 보이며 Full FT와의 격차를 좁히는 것을 확인했습니다.

GCC: 컬러 체커 확산을 통한 생성적 색온도 보정
GCC: Generative Color Constancy via Diffusing a Color Checker

Feb 24, 2025

Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu

282

색상 항상성(color constancy) 방법들은 종종 서로 다른 카메라 센서 간의 스펙트럼 감도 차이로 인해 일반화에 어려움을 겪습니다. 우리는 GCC를 제안하며, 이는 확산 모델(diffusion model)을 활용하여 조명 추정을 위해 이미지에 컬러 체커를 인페인팅(inpainting)합니다. 우리의 주요 혁신은 다음과 같습니다: (1) 장면 조명을 반영하는 컬러 체커를 인페인팅하는 단일 단계 결정론적 추론 접근법, (2) 체커 구조를 보존하면서 조명에 의존적인 색상 적응을 가능하게 하는 라플라시안 분해(Laplacian decomposition) 기술, (3) 부정확한 컬러 체커 주석을 처리하기 위한 마스크 기반 데이터 증강 전략. GCC는 크로스 카메라 시나리오에서 뛰어난 강건성을 보여주며, 양방향 평가에서 최첨단 최악 25% 오차율인 5.15{\deg}와 4.32{\deg}를 달성했습니다. 이러한 결과는 센서별 훈련 없이도 다양한 카메라 특성에 걸쳐 우리 방법의 안정성과 일반화 능력을 입증하며, 실세계 애플리케이션을 위한 다목적 솔루션으로서의 가능성을 보여줍니다.

CodeCriticBench: 대규모 언어 모델을 위한 종합적인 코드 비평 벤치마크
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Feb 23, 2025

Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang

273

대규모 언어 모델(LLM)의 비평 능력은 추론 능력에 있어 필수적이며, 이는 필요한 제안(예: 상세한 분석과 건설적인 피드백)을 제공할 수 있습니다. 따라서 LLM의 비평 능력을 평가하는 방법은 큰 관심을 받아 왔으며, 여러 비평 벤치마크가 제안되었습니다. 그러나 기존의 비평 벤치마크는 일반적으로 다음과 같은 한계를 가지고 있습니다: (1) 일반 도메인의 다양한 추론 작업에 초점을 맞추고 코드 작업(예: 코드 생성 작업만 포함)에 대한 평가가 부족하며, 쿼리의 난이도가 상대적으로 쉬운 편입니다(예: CriticBench의 코드 쿼리는 Humaneval과 MBPP에서 가져옴). (2) 다양한 차원에서의 종합적인 평가가 부족합니다. 이러한 한계를 해결하기 위해, 우리는 CodeCriticBench라는 종합적인 코드 비평 벤치마크를 소개합니다. 구체적으로, CodeCriticBench는 서로 다른 난이도의 두 가지 주요 코드 작업(즉, 코드 생성과 코드 QA)을 포함합니다. 또한, 평가 프로토콜은 기본 비평 평가와 고급 비평 평가를 포함하며, 고급 설정을 위해 세분화된 평가 체크리스트가 잘 설계되어 있습니다. 마지막으로, 우리는 기존 LLM에 대한 광범위한 실험 결과를 수행하여 CodeCriticBench의 효과를 입증합니다.

수학적 추론에서 테스트 타임 스케일링의 언어적 일반화 가능성
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Feb 24, 2025

Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne

262

사전 학습 컴퓨팅 자원의 확장이 다국어 능력 달성에 효과적임은 입증되었지만, 테스트 시점 확장에도 동일한 효과가 적용될까요? 본 연구에서는 55개 언어로 구성된 경쟁 수준의 수학 문제를 포함한 다국어 수학 벤치마크 MCLM을 소개합니다. 우리는 Qwen2.5-1.5B Math와 확장 추론을 위해 학습한 다국어 LLM인 MR1-1.5B에 대해 세 가지 테스트 시점 확장 방법—결과 보상 모델링(ORM), 과정 보상 모델링(ORM), 예산 강제(BF)—를 테스트했습니다. 실험 결과, Qwen2.5-1.5B Math와 ORM을 사용했을 때 MCLM에서 35.8점을 달성한 반면, MR1-1.5B에 BF를 적용했을 때는 35.2점을 기록했습니다. 최근 "사고형 LLM"이 상당한 주목을 받고 있지만, 유사한 수준의 추론 FLOPs로 제한할 경우 전통적인 확장 방법인 best-of-N과 성능이 비슷한 것으로 나타났습니다. 또한, BF는 영어 AIME에서 20점의 향상을 보였지만, 다른 언어에서는 평균 1.94점의 향상만을 제공했는데, 이는 우리가 연구한 다른 테스트 시점 확장 방법에서도 일관되게 관찰된 패턴으로, 테스트 시점 확장이 다국어 작업에 그만큼 효과적으로 일반화되지 않을 수 있음을 시사합니다. 추가 연구를 촉진하기 위해 MCLM, MR1-1.5B 및 평가 결과를 공개합니다.

RIFLEx: 비디오 확산 트랜스포머에서 길이 외삽을 위한 무료 점심
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Feb 21, 2025

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu

203

최근 비디오 생성 분야의 발전으로 모델들이 고품질의 1분 길이 비디오를 합성할 수 있게 되었습니다. 그러나 더 긴 비디오를 시간적 일관성을 유지하며 생성하는 것은 여전히 주요 과제로 남아 있으며, 기존의 길이 외삽 방법들은 시간적 반복이나 모션 감속을 초래합니다. 본 연구에서는 위치 임베딩의 주파수 성분 역할을 체계적으로 분석하고, 외삽 동작을 주로 지배하는 고유 주파수를 식별했습니다. 이러한 통찰을 바탕으로, 우리는 RIFLEx를 제안합니다. 이는 반복을 억제하면서도 모션 일관성을 유지하기 위해 고유 주파수를 감소시키는 간단하면서도 효과적인 접근 방식으로, 추가적인 수정 없이도 적용 가능합니다. RIFLEx는 진정한 '공짜 점심'을 제공합니다. 즉, 최첨단 비디오 확산 트랜스포머에서 고품질의 2배 외삽을 완전히 학습 없이 달성합니다. 더 나아가, 최소한의 미세 조정만으로도 품질을 향상시키고 3배 외삽을 가능하게 합니다. 프로젝트 페이지와 코드는 https://riflex-video.github.io/에서 확인할 수 있습니다.

Stable-SPAM: 16비트 Adam보다 더 안정적으로 4비트에서 학습하는 방법
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Feb 24, 2025

Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu

182

본 논문은 4비트 학습을 위해 최근 제안된 여러 옵티마이저를 종합적으로 평가하며, 저비트 정밀도가 학습률에 대한 민감도를 증폭시키고 종종 불안정한 그래디언트 노름을 유발하여 높은 학습률에서 발산을 일으키는 것을 밝혀냈습니다. 이 중에서도 모멘텀 리셋과 스파이크 인식 그래디언트 클리핑을 특징으로 하는 최신 옵티마이저인 SPAM은 다양한 비트 수준에서 최고의 성능을 달성했지만, 그래디언트 노름을 안정화하는 데 어려움을 겪어 신중한 학습률 조정이 필요했습니다. 이러한 한계를 해결하기 위해, 우리는 향상된 그래디언트 정규화 및 클리핑 기술을 통합한 Stable-SPAM을 제안합니다. 특히, Stable-SPAM은 (1) 스파이크 그래디언트에 대한 클리핑 임계값을 과거 최대값을 추적하여 적응적으로 업데이트하고, (2) 전체 그래디언트 행렬을 과거 l_2-노름 통계를 기반으로 정규화하며, (3) SPAM의 모멘텀 리셋을 상속받아 Adam의 첫 번째와 두 번째 모멘트를 주기적으로 리셋함으로써 스파이크 그래디언트의 누적을 완화합니다. 광범위한 실험을 통해 Stable-SPAM이 4비트 LLM 학습에서 그래디언트 노름을 효과적으로 안정화시키며, Adam과 SPAM에 비해 우수한 성능을 제공하는 것을 확인했습니다. 특히, Stable-SPAM으로 학습된 4비트 LLaMA-1B 모델은 Adam으로 학습된 BF16 LLaMA-1B보다 최대 2의 perplexity 차이로 우수한 성능을 보였습니다. 또한, 두 모델 모두 4비트로 학습할 때 Stable-SPAM은 Adam과 동일한 손실을 달성하면서도 약 절반의 학습 단계만을 필요로 했습니다. 코드는 https://github.com/TianjinYellow/StableSPAM.git에서 확인할 수 있습니다.

멀티모달 불일치 추론(MMIR): 멀티모달 추론 모델을 위한 새로운 벤치마크
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Feb 22, 2025

Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang

182

기존의 멀티모달 대형 언어 모델(MLLM)은 주로 일관된 시각-텍스트 입력에 대해 학습 및 테스트되어 왔으며, 실제 세계의 레이아웃이 풍부한 콘텐츠에서 발생하는 불일치를 처리할 수 있는지에 대한 의문이 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 웹페이지, 프레젠테이션 슬라이드, 포스터 등의 아티팩트에서 의미론적 불일치를 탐지하고 추론하는 MLLM의 능력을 평가하기 위한 멀티모달 불일치 추론(MMIR) 벤치마크를 제안합니다. MMIR은 사실적 모순, 정체성 오인, 문맥적 불일치, 수치적 차이, 시간/공간적 비일관성 등 다섯 가지 추론이 중요한 범주에 걸쳐 합성적으로 주입된 오류를 포함한 534개의 도전적인 샘플로 구성됩니다. 우리는 여섯 가지 최신 MLLM을 평가하여, o1과 같이 전용 멀티모달 추론 기능을 갖춘 모델이 다른 모델들을 크게 능가하는 반면, 오픈소스 모델들은 특히 불일치 오류에 취약함을 보여줍니다. 상세한 오류 분석은 모델들이 단일 모달리티, 특히 텍스트 내에서의 불일치 탐지에는 뛰어나지만, 교차 모달리티 충돌과 복잡한 레이아웃에서는 어려움을 겪는 것을 추가로 보여줍니다. 탐색 실험은 사고의 연쇄(CoT) 및 표시의 집합(SoM) 방법을 포함한 단일 모달리티 프롬프팅이 미미한 개선만을 가져오며, 교차 모달리티 추론의 주요 병목 현상을 드러냅니다. 우리의 연구 결과는 고급 멀티모달 추론의 필요성을 강조하며, 멀티모달 불일치에 대한 미래 연구 방향을 제시합니다.

출시 이후: 생성형 AI 시스템을 위한 접근성 고려사항
Beyond Release: Access Considerations for Generative AI Systems

Feb 23, 2025

Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask

164

생성형 AI 출시 결정은 시스템 구성 요소를 공개할지 여부를 결정하지만, 출시만으로는 사용자와 이해관계자가 시스템과 상호작용하는 방식을 변화시키는 많은 다른 요소들을 다루지 못합니다. 출시를 넘어서, 시스템 구성 요소에 대한 접근은 잠재적인 위험과 이점을 알려줍니다. 접근이란, 사용 가능한 구성 요소를 어떤 방식으로든 활용하기 위해 실질적으로 필요한 자원, 기술적, 사회적 인프라를 의미합니다. 우리는 접근을 세 가지 축으로 분해합니다: 자원 조달, 기술적 사용성, 그리고 유용성. 각 범주 내에서, 시스템 구성 요소별로 일련의 변수들이 트레이드오프를 명확히 합니다. 예를 들어, 자원 조달은 모델 가중치를 제공하기 위한 컴퓨팅 인프라에 대한 접근을 필요로 합니다. 또한, 우리는 두 개의 오픈 가중치와 두 개의 클로즈드 가중치 고성능 언어 모델의 접근성을 비교하며, 접근 변수에 기반하여 모든 모델에 대해 유사한 고려 사항이 적용됨을 보여줍니다. 접근 변수는 사용자에게 접근을 확장하거나 증가시킬 수 있는 기반을 마련합니다; 우리는 접근의 규모와 그 규모가 위험을 관리하고 개입하는 능력에 미치는 영향을 검토합니다. 이 프레임워크는 시스템 출시의 전반적인 상황과 위험-이익 트레이드오프를 더 잘 포괄하여 시스템 출시 결정, 연구, 정책에 정보를 제공합니다.

Mobile-Agent-V: 비디오 기반 다중 에이전트 협업을 통한 모바일 디바이스 조작 학습
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Feb 24, 2025

Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang

132

모바일 기기 사용의 급격한 증가로 인해 원활한 작업 관리를 위한 개선된 자동화가 필요해졌습니다. 그러나 많은 AI 기반 프레임워크는 불충분한 운영 지식으로 인해 어려움을 겪고 있습니다. 수동으로 작성된 지식은 도움이 되지만 노동 집약적이고 비효율적입니다. 이러한 문제를 해결하기 위해, 우리는 비디오 가이던스를 활용하여 모바일 자동화를 위한 풍부하고 비용 효율적인 운영 지식을 제공하는 Mobile-Agent-V 프레임워크를 소개합니다. Mobile-Agent-V는 특수한 샘플링이나 전처리 없이 비디오 입력을 활용하여 작업 실행 능력을 향상시킵니다. Mobile-Agent-V는 슬라이딩 윈도우 전략을 통합하고 비디오 에이전트와 딥-리플렉션 에이전트를 포함시켜 사용자 지시에 맞는 작업을 보장합니다. 이 혁신적인 접근 방식을 통해 사용자는 가이던스와 함께 작업 과정을 기록할 수 있으며, 시스템은 이를 자율적으로 학습하고 효율적으로 작업을 실행할 수 있습니다. 실험 결과, Mobile-Agent-V는 기존 프레임워크 대비 30%의 성능 향상을 달성했습니다.

반사적 계획: 다단계 장기간 로봇 조작을 위한 비전-언어 모델
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Feb 23, 2025

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo

132

복잡한 장기적 로봇 조작 문제를 해결하기 위해서는 정교한 고수준 계획 능력, 물리적 세계에 대한 추론 능력, 그리고 적절한 모터 스킬을 반응적으로 선택할 수 있는 능력이 필요합니다. 인터넷 데이터로 사전 학습된 시각-언어 모델(VLMs)은 원칙적으로 이러한 문제를 해결하기 위한 프레임워크를 제공할 수 있습니다. 그러나 현재 형태의 VLMs은 로봇 조작에 필요한 복잡한 물리학에 대한 미묘한 이해와 오류 누적 문제를 해결하기 위한 장기적 추론 능력이 모두 부족합니다. 본 논문에서는 다단계 조작 작업을 위한 VLMs의 물리적 추론 능력을 향상시키는 새로운 테스트 시점 계산 프레임워크를 소개합니다. 우리의 접근 방식의 핵심은 "반성" 메커니즘을 통해 사전 학습된 VLM을 반복적으로 개선하는 것입니다. 이는 생성 모델을 사용하여 미래 세계 상태를 상상하고, 이러한 예측을 활용하여 행동 선택을 안내하며, 잠재적인 차선책에 대해 비판적으로 반성하여 추론을 개선합니다. 실험 결과는 우리의 방법이 여러 최신 상용 VLMs 및 몬테카를로 트리 탐색(MCTS)과 같은 다른 사후 학습 접근법을 크게 능가함을 보여줍니다. 비디오는 https://reflect-vlm.github.io에서 확인할 수 있습니다.

X-Dancer: 표현력 있는 음악에서 인간의 댄스 비디오 생성
X-Dancer: Expressive Music to Human Dance Video Generation

Feb 24, 2025

Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo

123

우리는 단일 정적 이미지로부터 다양하고 장기간의 생생한 인간 댄스 비디오를 생성하는 새로운 제로샷 음악 기반 이미지 애니메이션 파이프라인인 X-Dancer를 소개한다. X-Dancer의 핵심은 자동회귀 트랜스포머 모델을 특징으로 하는 통합 트랜스포머-디퓨전 프레임워크로, 이 모델은 2D 신체, 머리 및 손 동작을 위한 확장된 음악 동기화 토큰 시퀀스를 합성하며, 이는 디퓨전 모델이 일관되고 현실적인 댄스 비디오 프레임을 생성하도록 안내한다. 전통적인 방법들이 주로 3D 인간 동작을 생성하는 반면, X-Dancer는 데이터 제한을 해결하고 확장성을 향상시키기 위해 다양한 2D 댄스 동작을 모델링하고, 쉽게 구할 수 있는 단안 비디오를 통해 음악 비트와의 미묘한 정렬을 포착한다. 이를 위해, 우리는 먼저 키포인트 신뢰도와 연관된 2D 인간 포즈 레이블로부터 공간적으로 구성적인 토큰 표현을 구축하여, 큰 관절 신체 움직임(예: 상체 및 하체)과 세밀한 동작(예: 머리와 손)을 모두 인코딩한다. 그런 다음, 음악 스타일과 이전 동작 컨텍스트 모두에 대한 전역적 주의를 통합하여 음악과 동기화된 댄스 포즈 토큰 시퀀스를 자동회귀적으로 생성하는 음악-동작 트랜스포머 모델을 설계한다. 마지막으로, 우리는 디퓨전 백본을 활용하여 참조 이미지를 이러한 합성된 포즈 토큰을 통해 AdaIN으로 애니메이션화하며, 완전히 미분 가능한 엔드투엔드 프레임워크를 형성한다. 실험 결과는 X-Dancer가 다양하고 특징적인 댄스 비디오를 생성할 수 있으며, 다양성, 표현력 및 현실성 측면에서 최신 방법을 크게 능가함을 보여준다. 코드와 모델은 연구 목적으로 공개될 예정이다.

자동화 마케팅을 위한 근거 기반 설득적 언어 생성
Grounded Persuasive Language Generation for Automated Marketing

Feb 24, 2025

Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu

123

본 논문은 대규모 언어 모델(LLM)을 활용하여 설득력 있고 근거가 충실한 마케팅 콘텐츠 생성을 자동화하는 에이전트 기반 프레임워크를 개발하며, 부동산 매물 설명을 주요 응용 분야로 삼는다. 우리의 방법은 생성된 콘텐츠가 사용자 선호도와 일치하도록 설계되었으며, 동시에 유용한 사실적 속성을 강조한다. 이 에이전트는 세 가지 핵심 모듈로 구성된다: (1) 근거 모듈(Grounding Module)은 전문가의 행동을 모방하여 시장성이 높은 특징을 예측하고, (2) 개인화 모듈(Personalization Module)은 콘텐츠를 사용자 선호도에 맞춰 조정하며, (3) 마케팅 모듈(Marketing Module)은 사실적 정확성과 지역적 특징의 포함을 보장한다. 우리는 잠재적 주택 구매자를 대상으로 한 부동산 마케팅 분야에서 체계적인 인간 대상 실험을 수행했다. 실험 결과, 우리의 접근 방식으로 생성된 마케팅 설명이 인간 전문가가 작성한 설명보다 명확한 차이로 선호되는 것으로 나타났다. 이러한 결과는 사실만을 사용해 책임 있는 생성을 보장하면서 대규모 타겟 마케팅을 자동화할 수 있는 LLM 기반 에이전트 프레임워크의 유망한 가능성을 시사한다.

허깅 페이스에서 오픈 웨이트 AI 모델 성장 예측
Forecasting Open-Weight AI Model Growth on Hugging Face

Feb 21, 2025

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao

103

오픈 가중치 AI 생태계가 모델 개발, 상당한 투자, 그리고 사용자 관심과 함께 지속적으로 확장됨에 따라, 어떤 모델이 궁극적으로 혁신을 주도하고 AI 생태계를 형성할지 예측하는 것이 점점 더 중요해지고 있습니다. 과학 문헌의 인용 동역학과의 유사성을 바탕으로, 우리는 오픈 가중치 모델의 영향력이 어떻게 진화하는지를 정량화하는 프레임워크를 제안합니다. 구체적으로, 우리는 Wang 등이 과학적 인용을 위해 제안한 모델을 적용하여, 세 가지 주요 매개변수—즉각성, 지속성, 상대적 적합도—를 사용하여 오픈 가중치 모델의 미세 조정된 모델의 누적 수를 추적합니다. 우리의 연구 결과는 이 인용 스타일 접근법이 오픈 가중치 모델 채택의 다양한 궤적을 효과적으로 포착할 수 있음을 보여주며, 대부분의 모델이 잘 적합되고 특이점이 독특한 패턴이나 사용량의 급격한 증가를 나타냄을 보여줍니다.

TAG: 다중 에이전트 계층적 강화 학습을 위한 분산형 프레임워크
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Feb 21, 2025

Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl

계층적 조직은 생물학적 시스템과 인간 사회의 근간을 이루지만, 인공지능 시스템은 종종 단일 구조에 의존하여 적응성과 확장성을 제한합니다. 현재의 계층적 강화 학습(Hierarchical Reinforcement Learning, HRL) 접근법은 일반적으로 계층을 두 단계로 제한하거나 중앙 집중식 훈련을 요구함으로써 실용적 적용 가능성을 제한합니다. 우리는 완전히 분산된 계층적 다중 에이전트 시스템을 구축하기 위한 TAME 에이전트 프레임워크(TAG)를 소개합니다. TAG는 새로운 LevelEnv 개념을 통해 임의의 깊이를 가진 계층을 가능하게 하며, 이는 각 계층을 상위 에이전트의 환경으로 추상화합니다. 이 접근법은 계층 간 정보 흐름을 표준화하면서도 느슨한 결합을 유지하여 다양한 에이전트 유형의 원활한 통합을 가능하게 합니다. 우리는 TAG의 효과를 입증하기 위해 여러 계층에 걸쳐 다양한 강화 학습 에이전트를 결합한 계층적 아키텍처를 구현하고, 표준 벤치마크에서 기존의 다중 에이전트 강화 학습 기법을 능가하는 성능을 달성했습니다. 우리의 결과는 분산된 계층적 조직이 학습 속도와 최종 성능 모두를 향상시킴을 보여주며, TAG를 확장 가능한 다중 에이전트 시스템을 위한 유망한 방향으로 위치시킵니다.

중국 왕조 간 시간적 추론 및 정렬 성능 벤치마킹
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Feb 24, 2025

Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou

시간적 추론은 인간 인지의 기본 요소이며 다양한 실세계 응용에 있어 핵심적입니다. 대규모 언어 모델(LLM)의 최근 발전은 시간적 추론에서 유망한 능력을 보여주었지만, 기존 벤치마크는 주로 규칙 기반 구축에 의존하고, 문맥적 깊이가 부족하며, 제한된 범위의 시간적 개체만을 다룹니다. 이러한 한계를 해결하기 위해, 우리는 중국 왕조 연대기의 광범위한 범위 내에서 LLM의 시간적 추론 능력을 평가하기 위해 설계된 벤치마크인 중국 시간 추론(CTM)을 소개합니다. CTM은 교차 개체 관계, 쌍별 시간 정렬, 문맥화 및 문화적 기반 추론을 강조하며, 포괄적인 평가를 제공합니다. 광범위한 실험 결과는 CTM이 제기하는 도전 과제를 보여주고 개선 가능한 잠재적 방향을 강조합니다.

InductionBench: LLM들이 가장 단순한 복잡도 클래스에서 실패하다
InductionBench: LLMs Fail in the Simplest Complexity Class

Feb 20, 2025

Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang

대규모 언어 모델(LLMs)은 추론 능력에서 놀라운 발전을 보여왔으며, o1 및 o3와 같은 모델들이 기존 벤치마크의 상당 부분을 완전히 또는 부분적으로 해결해 왔습니다. 그러나 이러한 벤치마크의 대부분은 수학적 공리나 프로그래밍 구문과 같이 명확히 정의된 규칙을 바탕으로 모델이 계획을 세우고 이러한 규칙을 적용하여 해결책에 도달하는 연역적 추론, 특히 수학 및 코딩 과제에 중점을 두고 있습니다. 반면, 관찰된 데이터로부터 기본 규칙을 추론하는 귀납적 추론은 상대적으로 덜 탐구된 영역입니다. 이러한 귀납적 과정은 과학적 발견의 핵심에 위치하며, 연구자들이 경험적 관찰로부터 일반 원리를 추출할 수 있게 합니다. LLMs가 이러한 능력을 갖추고 있는지 평가하기 위해, 우리는 귀납적 추론 능력을 평가하기 위한 새로운 벤치마크인 InductionBench을 소개합니다. 우리의 실험 결과는 현재 가장 발전된 모델들조차도 하위규칙적 함수 계층 구조 내에서 가장 단순한 복잡도 클래스를 마스터하는 데 어려움을 겪는 것으로 나타나, 현재 LLMs의 귀납적 추론 능력에 있어 상당한 결함이 있음을 보여줍니다. 코드와 데이터는 https://github.com/Wenyueh/inductive_reasoning_benchmark에서 확인할 수 있습니다.

대규모 언어 모델의 안전성과 신뢰성에 미치는 양자화 방법의 영향 연구
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Feb 18, 2025

Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev

대형 언어 모델(LLMs)은 현대의 도전 과제를 해결하고 실용적인 애플리케이션을 가능하게 하는 강력한 도구로 부상했습니다. 그러나 이들의 계산 비용은 광범위한 채택을 가로막는 중요한 장벽으로 남아 있습니다. 양자화(Quantization)는 접근성을 민주화하고 저자원 장치 배포를 가능하게 하는 유망한 기술로 떠오르고 있습니다. 이러한 발전에도 불구하고, 양자화된 모델의 안전성과 신뢰성은 충분히 탐구되지 않은 상태로 남아 있으며, 기존 연구들은 종종 현대적 아키텍처를 간과하고 지나치게 단순화된 벤치마크와 평가에 의존합니다. 이러한 격차를 해결하기 위해, 우리는 모델 간 차이를 더 잘 구별할 수 있도록 설계된 새로운 개방형 안전성 데이터셋인 OpenSafetyMini를 소개합니다. 우리는 LLaMA와 Mistral 모델에 대해 4가지 최신 양자화 기술을 4개의 벤치마크(인간 평가 포함)를 사용하여 평가했습니다. 연구 결과에 따르면, 4비트 정밀도에서 최적의 양자화 방법은 다양하며, 벡터 양자화 기술은 2비트 정밀도에서 최고의 안전성과 신뢰성 성능을 제공하여 향후 연구를 위한 기반을 마련했습니다.

Pandora3D: 고품질 3D 형태 및 텍스처 생성을 위한 포괄적 프레임워크
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Feb 20, 2025

Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji

본 보고서는 단일 이미지, 다중 뷰 이미지, 텍스트 설명 등 다양한 입력 프롬프트로부터 고품질의 3D 모양과 텍스처를 생성하기 위한 포괄적인 프레임워크를 제시합니다. 이 프레임워크는 3D 모양 생성과 텍스처 생성으로 구성됩니다. (1) 3D 모양 생성 파이프라인은 Variational Autoencoder(VAE)를 사용하여 암묵적 3D 형상을 잠재 공간에 인코딩하고, 입력 프롬프트에 따라 잠재 변수를 생성하기 위해 확산 네트워크를 활용하며, 모델의 용량을 향상시키기 위한 수정이 적용되었습니다. 또한 더 단순한 형상에 대해 유망한 결과를 보이는 Artist-Created Mesh(AM) 생성 접근법도 탐구되었습니다. (2) 텍스처 생성은 정면 이미지 생성, 다중 뷰 이미지 생성, RGB-to-PBR 텍스처 변환, 고해상도 다중 뷰 텍스처 정제로 이어지는 다단계 프로세스를 포함합니다. 각 단계에는 일관성 스케줄러가 통합되어 추론 과정에서 다중 뷰 텍스처 간의 픽셀 단위 일관성을 강제함으로써 원활한 통합을 보장합니다. 이 파이프라인은 다양한 입력 형식을 효과적으로 처리하며, 고급 신경망 아키텍처와 새로운 방법론을 활용하여 고품질의 3D 콘텐츠를 생성합니다. 본 보고서는 시스템 아키텍처, 실험 결과, 그리고 프레임워크를 개선하고 확장하기 위한 잠재적인 미래 방향을 상세히 설명합니다. 소스 코드와 사전 학습된 가중치는 https://github.com/Tencent/Tencent-XR-3DGen에서 공개되었습니다.

커뮤니티 노트가 전문 팩트체커를 대체할 수 있을까?
Can Community Notes Replace Professional Fact-Checkers?

Feb 19, 2025

Nadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein

소셜 미디어에서 잘못된 정보의 확산을 막기 위해 일반적으로 사용되는 두 가지 전략은 (i) 전문 기관의 팩트 체크와 (ii) 플랫폼 사용자들의 커뮤니티 중재입니다. 트위터/X와 최근 메타의 정책 변화는 팩트 체크 기관과의 협력에서 벗어나 크라우드소싱된 커뮤니티 노트에 대한 의존도를 높이는 방향으로 전환되고 있음을 보여줍니다. 그러나 팩트 체크와 유용한 커뮤니티 노트 간의 의존 관계의 정도와 성격은 여전히 명확하지 않습니다. 이러한 질문을 해결하기 위해 우리는 언어 모델을 사용하여 트위터/X 커뮤니티 노트의 대규모 코퍼스를 주제, 인용된 출처, 그리고 더 넓은 잘못된 정보 서사와 연결된 주장을 반박하는지 여부와 같은 속성으로 주석 처리했습니다. 우리의 분석에 따르면, 커뮤니티 노트는 이전에 보고된 것보다 최대 다섯 배 더 많은 팩트 체크 출처를 인용합니다. 팩트 체크는 특히 더 넓은 서사와 연결된 게시물에 대한 노트에서 중요한데, 이러한 노트는 다른 출처에 비해 팩트 체크 출처를 참조할 가능성이 두 배 더 높습니다. 결론적으로, 우리의 결과는 성공적인 커뮤니티 중재가 전문적인 팩트 체크에 크게 의존하고 있음을 보여줍니다.

MutaGReP: 코드 사용을 위한 실행 없이 저장소 기반 계획 탐색
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use

Feb 21, 2025

Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta

사람이 대규모 코드 저장소의 기능을 사용하여 코딩 작업을 완료하도록 LLM(Large Language Model)에 요청할 때, 저장소의 컨텍스트를 LLM에 어떻게 제공할 수 있을까? 한 가지 접근 방식은 전체 저장소를 LLM의 컨텍스트 창에 추가하는 것이다. 그러나 대부분의 작업은 저장소의 일부 심볼만을 필요로 하며, 더 긴 컨텍스트는 LLM의 추론 능력을 저해하고, 컨텍스트 창은 무한하지 않다. 대안적으로, 우리는 인간이 대규모 저장소를 탐색하고 적절한 기능을 선택하여 작업을 해결할 계획을 세우는 능력을 모방할 수 있다. 우리는 MutaGReP(Mutation-guided Grounded Repository Plan Search)를 제안한다. 이는 사용자 요청을 코드베이스에 기반한 자연어 단계로 분해하는 계획을 탐색하는 접근 방식이다. MutaGReP는 계획 공간에서 신경망 트리 탐색을 수행하며, 계획을 변형하고 심볼 검색기를 사용하여 기반을 마련한다. 도전적인 LongCodeArena 벤치마크에서, 우리의 계획은 GPT-4o의 128K 컨텍스트 창의 5% 미만을 사용하지만, 저장소로 채워진 컨텍스트 창을 가진 GPT-4o의 코딩 성능과 맞먹는다. MutaGReP가 생성한 계획은 Qwen 2.5 Coder 32B와 72B가 전체 저장소 컨텍스트를 가진 GPT-4o의 성능과 동등하게 만들고, 가장 어려운 LongCodeArena 작업에서의 진전을 가능하게 한다. 프로젝트 페이지: zaidkhan.me/MutaGReP

간극에 주목하라! 대규모 오디오 모델의 정적 및 상호작용적 평가
Mind the Gap! Static and Interactive Evaluations of Large Audio Models

Feb 21, 2025

Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang

AI 챗봇이 보편화됨에 따라 음성 상호작용은 의미적, 사회적 신호 모두를 위한 빠르고 고대역폭의 커뮤니케이션을 가능하게 하는 매력적인 방식으로 부상하고 있습니다. 이는 음성 중심 경험을 구동하기 위한 대형 오디오 모델(Large Audio Models, LAMs) 연구를 촉진시켰습니다. 그러나 LAM 개발을 사용자 목표와 일치시키기 위해서는 신뢰할 수 있는 진척 지표를 수립하기 위해 사용자 요구와 선호도를 명확히 이해해야 합니다. 본 연구는 LAM을 평가하기 위한 상호작용적 접근 방식을 도입하고 484명의 참가자로부터 7,500건의 LAM 상호작용 데이터를 수집함으로써 이러한 과제를 해결합니다. 사용자 질의의 토픽 모델링을 통해 오디오 인터페이스의 주요 사용 사례를 식별합니다. 그런 다음 사용자 선호도 순위와 질적 피드백을 분석하여 사용자 요구와 가장 잘 부합하는 모델을 결정합니다. 마지막으로, 정적 벤치마크가 상호작용 성능을 얼마나 잘 예측하는지 평가합니다. 우리의 분석 결과, 어떤 개별 벤치마크도 상호작용 결과와 강한 상관관계를 보이지 않았습니다(모든 벤치마크에서 tau ≤ 0.33). 여러 개의 대략적인 특징을 결합하면 약간의 예측력을 얻을 수 있지만(R^2=0.30), 음성 질의 응답과 연령 예측에 관한 20개 데이터셋 중 단 두 개만이 유의미한 양의 상관관계를 보였습니다. 이는 사용자 선호도와 더 잘 부합하는 LAM 평가 방법의 개발이 필요함을 시사합니다.

조기 종료 및 즉각적 신뢰도 기반 번역 품질 추정
Early-Exit and Instant Confidence Translation Quality Estimation

Feb 20, 2025

Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues

품질 추정은 기계 번역에서 평가와 생성 모두에 걸쳐 어디에나 존재합니다. 그러나 불행히도 품질 추정 모델은 종종 불투명하고 계산 비용이 많이 들어 대규모 파이프라인의 일부로 사용하기에는 실용적이지 않습니다. 본 연구에서는 두 가지 연관된 문제를 해결합니다: (1) 대규모에서의 품질 추정 비용 절감, (2) 품질 추정을 위한 저비용 불확실성 추정 방법 개발. 후자를 해결하기 위해, 우리는 Instant Confidence COMET을 소개합니다. 이는 이전 접근법의 성능을 유지하면서 비용을 크게 절감한 불확실성 인식 품질 추정 모델입니다. 이를 Early-Exit COMET으로 확장하여, 초기 모델 레이어에서도 품질 점수와 관련 신뢰도를 계산할 수 있게 함으로써 계산을 조기에 종료하고 평가 비용을 줄입니다. 또한, 우리는 이 모델을 기계 번역 재순위화에 적용합니다. Early-Exit COMET을 상위 신뢰 구간 밴딧 알고리즘과 결합하여, 모든 후보에 대해 전체 평가 모델을 실행하지 않고도 대규모 후보 풀에서 최적의 후보를 찾습니다. 평가와 재순위화 모두에서 우리의 방법은 성능 저하를 거의 없이도 필요한 계산량을 50% 줄입니다.

MegaLoc: 모든 장소를 하나의 검색으로 찾아내다
MegaLoc: One Retrieval to Place Them All

Feb 24, 2025

Gabriele Berton, Carlo Masone

주어진 쿼리와 동일한 위치에서 이미지를 검색하는 것은 시각적 장소 인식(Visual Place Recognition), 랜드마크 검색(Landmark Retrieval), 시각적 위치 추정(Visual Localization), 3D 재구성, 그리고 SLAM과 같은 다양한 컴퓨터 비전 작업에서 중요한 요소입니다. 그러나 기존의 솔루션들은 이러한 작업 중 하나에 특화되어 설계되었으며, 요구사항이 약간 변경되거나 분포 외 데이터(out-of-distribution data)를 만났을 때 실패하는 것으로 알려져 있습니다. 본 논문에서는 다양한 기존 방법, 훈련 기법, 그리고 데이터셋을 결합하여 여러 작업에서 우수한 성능을 보이는 검색 모델인 MegaLoc을 훈련시켰습니다. 우리는 MegaLoc이 (1) 다수의 시각적 장소 인식 데이터셋에서 최첨단 성능을 달성하고, (2) 일반적인 랜드마크 검색 데이터셋에서 인상적인 결과를 보이며, (3) LaMAR 데이터셋에서 기존의 위치 추정 파이프라인의 검색 방법만 변경하여 시각적 위치 추정 분야에서 새로운 최첨단 성능을 설정한다는 것을 발견했습니다. MegaLoc의 코드는 https://github.com/gmberton/MegaLoc에서 확인할 수 있습니다.

자가 학습 기반 장기 문맥 이해
Self-Taught Agentic Long Context Understanding

Feb 21, 2025

Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum

복잡하고 장문의 문맥을 요구하는 질문에 답하는 것은 대규모 언어 모델(LLM)에게 여전히 주요 과제로 남아 있으며, 이는 효과적인 질문 명확화와 문맥 검색을 필요로 합니다. 우리는 이러한 쿼리에 대한 LLM의 이해를 향상시키기 위해 에이전트 기반 워크플로우 내에서 타겟팅된 자기 명확화와 문맥 기반을 통합한 Agentic Long-Context Understanding (AgenticLU) 프레임워크를 제안합니다. AgenticLU의 핵심은 Chain-of-Clarifications (CoC)로, 모델이 자체적으로 생성한 명확화 질문과 해당 문맥 기반을 통해 이해를 정제하는 과정입니다. 각 노드가 CoC 단계를 나타내는 트리 탐색으로 추론을 확장함으로써, 최대 3의 탐색 깊이와 8의 분기 계수를 사용하여 NarrativeQA에서 97.8%의 답변 재현율을 달성했습니다. 이 탐색 과정의 높은 비용을 훈련에 분산시키기 위해, 우리는 CoC 워크플로우를 통해 얻은 각 단계의 선호 쌍을 활용하고 두 단계의 모델 미세 조정을 수행합니다: (1) 효과적인 분해 전략을 학습하기 위한 지도 미세 조정, (2) 추론 품질을 향상시키기 위한 직접 선호 최적화. 이를 통해 AgenticLU 모델은 단일 추론 패스에서 명확화를 생성하고 관련 문맥을 효과적이고 효율적으로 검색할 수 있습니다. 7개의 장문 맥락 작업에 대한 광범위한 실험을 통해, AgenticLU가 최신 프롬프팅 방법과 특화된 장문 맥락 LLM을 크게 능가하며, 문맥 길이가 증가함에 따라 일관된 성능을 유지하면서도 강력한 다중 홉 추론을 달성함을 입증했습니다.

MONSTER: 모나쉬 확장 가능 시계열 평가 리포지토리
MONSTER: Monash Scalable Time Series Evaluation Repository

Feb 21, 2025

Angus Dempster, Navid Mohammadi Foumani, Chang Wei Tan, Lynn Miller, Amish Mishra, Mahsa Salehi, Charlotte Pelletier, Daniel F. Schmidt, Geoffrey I. Webb

우리는 MONSTER(MONash Scalable Time Series Evaluation Repository)를 소개합니다. 이는 시계열 분류를 위한 대규모 데이터셋 컬렉션입니다. 시계열 분류 분야는 UCR 및 UEA 시계열 분류 리포지토리에서 설정한 공통 벤치마크로부터 많은 혜택을 받아왔습니다. 그러나 이러한 벤치마크의 데이터셋은 크기가 작아, 각각 중간값이 217개와 255개의 예제로 구성되어 있습니다. 결과적으로 이들은 다양한 소규모 데이터셋에서 낮은 분류 오류를 달성하도록 최적화된 모델, 즉 분산을 최소화하고 확장성과 같은 계산적 문제를 거의 고려하지 않는 모델의 좁은 하위 공간을 선호합니다. 우리는 더 큰 데이터셋을 사용한 벤치마크를 도입함으로써 이 분야를 다양화하고자 합니다. 더 많은 양의 데이터로부터 효과적으로 학습하는 이론적, 실질적 도전 과제에 접근함으로써 이 분야에서 새로운 진전의 엄청난 잠재력이 있다고 믿습니다.

흉부 X-RAY 이미지를 활용한 COVID-19 중증도 진단: ViT와 CNN 아키텍처 기반
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures

Feb 23, 2025

Luis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield

COVID-19 팬데믹은 의료 자원에 부담을 주었으며, 머신러닝이 의사의 부담을 완화하고 진단에 기여할 수 있는 방법에 대한 논의를 촉발시켰다. 흉부 X선(CXR)은 COVID-19 진단에 사용되지만, CXR을 통해 환자 상태의 중증도를 예측한 연구는 거의 없다. 본 연구에서는 세 가지 출처를 병합하여 대규모 COVID 중증도 데이터셋을 구축하고, ImageNet 및 CXR 사전 학습 모델과 비전 트랜스포머(ViT)를 사용한 전이 학습의 효용성을 중증도 회귀 및 분류 작업에서 조사하였다. 사전 학습된 DenseNet161 모델이 세 가지 클래스 중증도 예측 문제에서 가장 우수한 성능을 보였으며, 전체 정확도는 80%, 경증, 중등도, 중증 사례에서 각각 77.3%, 83.9%, 70%의 정확도를 달성했다. ViT는 회귀 결과에서 가장 우수한 성능을 보였으며, 방사선 전문가가 예측한 중증도 점수와 비교하여 평균 절대 오차가 0.5676이었다. 본 프로젝트의 소스 코드는 공개되어 있다.

M3-AGIQA: 다중 모달, 다중 라운드, 다중 측면 AI 생성 이미지 품질 평가
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment

Feb 21, 2025

Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu

AI 생성 이미지(AGI) 모델의 급속한 발전은 지각적 품질, 프롬프트 일치도, 진정성과 같은 다차원적 요소를 고려해야 하는 품질 평가에 상당한 도전을 야기하고 있습니다. 이러한 도전을 해결하기 위해, 우리는 다중 모드(Multimodal), 다중 라운드(Multi-Round), 다중 측면(Multi-Aspect)을 고려한 AGI 품질 평가를 위한 포괄적인 프레임워크인 M3-AGIQA를 제안합니다. 우리의 접근 방식은 다중 모드 대형 언어 모델(MLLMs)을 텍스트와 이미지 공동 인코더로 활용하고, 온라인 MLLMs의 고급 캡셔닝 기능을 로우 랭크 적응(LoRA) 미세 조정을 통해 로컬 모델로 전이합니다. 이 프레임워크는 중간 이미지 설명을 생성하여 품질, 일치도, 진정성 측면에 대한 깊은 통찰을 제공하는 구조화된 다중 라운드 평가 메커니즘을 포함합니다. 예측을 인간의 지각적 판단과 일치시키기 위해, xLSTM과 회귀 헤드로 구성된 예측기가 순차적 로짓을 처리하고 평균 의견 점수(MOSs)를 예측합니다. 여러 벤치마크 데이터셋에서 수행된 광범위한 실험을 통해 M3-AGIQA가 AGI 품질의 미묘한 측면을 효과적으로 포착하며 최첨단 성능을 달성함을 입증했습니다. 또한, 교차 데이터셋 검증을 통해 강력한 일반화 능력을 확인했습니다. 코드는 https://github.com/strawhatboy/M3-AGIQA에서 확인할 수 있습니다.

브라운 구체 속의 뱀
The snake in the Brownian sphere

Feb 18, 2025

Omer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont

브라운 구(Brownian sphere)는 2차원 구와 위상동형인 임의의 거리 공간으로, 다양한 유형의 무작위 평면 지도(random planar maps)의 보편적 스케일링 극한으로 나타난다. 브라운 구의 직접적인 구성은 코리-보클랭-샤페(Cori-Vauquelin-Schaeffer, CVS) 대응의 연속적 유사체를 통해 이루어진다. CVS 대응은 레이블이 붙은 트리를 평면 지도로 매핑하며, 연속 버전은 브라운 레이블이 부여된 앨더스의 연속 무작위 트리(브라운 뱀, Brownian snake)를 브라운 구로 매핑한다. 본 연구에서는 브라운 구의 측정 가능한 함수로서 브라운 뱀을 구성함으로써 연속 CVS 대응의 역을 설명한다. 특히 브라운 구의 방향성을 다루기 위해 특별한 주의가 필요하다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

VideoGrain: 다중 세분화 비디오 편집을 위한 시공간 주의력 조절
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24, 2025

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang

795

이렇게 말하노라, 장문맥 대형 언어 모델
Thus Spake Long-Context Large Language Model

Feb 24, 2025

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

736

슬래밍: 단일 GPU에서 하루 만에 음성 언어 모델 학습하기
Slamming: Training a Speech Language Model on One GPU in a Day

Feb 19, 2025

Gallil Maimon, Avishai Elmakies, Yossi Adi

702

DICEPTION: 시각적 인지 작업을 위한 범용 확산 모델
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Feb 24, 2025

Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen

533

오디오-FLAN: 초기 릴리스
Audio-FLAN: A Preliminary Release

Feb 23, 2025

372

LoRA의 위대함을 다시 찾아서: 적응형 특이값과 전문가 혼합 최적화 정렬을 통한 LoRA 성능 향상
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Feb 24, 2025

Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng

314

GCC: 컬러 체커 확산을 통한 생성적 색온도 보정
GCC: Generative Color Constancy via Diffusing a Color Checker

Feb 24, 2025

Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu

282

CodeCriticBench: 대규모 언어 모델을 위한 종합적인 코드 비평 벤치마크
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Feb 23, 2025

273

수학적 추론에서 테스트 타임 스케일링의 언어적 일반화 가능성
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Feb 24, 2025

Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne

262

RIFLEx: 비디오 확산 트랜스포머에서 길이 외삽을 위한 무료 점심
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Feb 21, 2025

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu

203

Stable-SPAM: 16비트 Adam보다 더 안정적으로 4비트에서 학습하는 방법
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Feb 24, 2025

Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu

182

멀티모달 불일치 추론(MMIR): 멀티모달 추론 모델을 위한 새로운 벤치마크
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Feb 22, 2025

Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang

182

출시 이후: 생성형 AI 시스템을 위한 접근성 고려사항
Beyond Release: Access Considerations for Generative AI Systems

Feb 23, 2025

Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask

164

Mobile-Agent-V: 비디오 기반 다중 에이전트 협업을 통한 모바일 디바이스 조작 학습
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Feb 24, 2025

Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang

132

반사적 계획: 다단계 장기간 로봇 조작을 위한 비전-언어 모델
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Feb 23, 2025

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo

132

X-Dancer: 표현력 있는 음악에서 인간의 댄스 비디오 생성
X-Dancer: Expressive Music to Human Dance Video Generation

Feb 24, 2025

Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo

123

자동화 마케팅을 위한 근거 기반 설득적 언어 생성
Grounded Persuasive Language Generation for Automated Marketing

Feb 24, 2025

Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu

123

허깅 페이스에서 오픈 웨이트 AI 모델 성장 예측
Forecasting Open-Weight AI Model Growth on Hugging Face

Feb 21, 2025

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao

103

TAG: 다중 에이전트 계층적 강화 학습을 위한 분산형 프레임워크
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Feb 21, 2025

Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl

중국 왕조 간 시간적 추론 및 정렬 성능 벤치마킹
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Feb 24, 2025

Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou

InductionBench: LLM들이 가장 단순한 복잡도 클래스에서 실패하다
InductionBench: LLMs Fail in the Simplest Complexity Class

Feb 20, 2025

Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang

대규모 언어 모델의 안전성과 신뢰성에 미치는 양자화 방법의 영향 연구
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Feb 18, 2025

Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev

Pandora3D: 고품질 3D 형태 및 텍스처 생성을 위한 포괄적 프레임워크
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Feb 20, 2025

Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji

흉부 X-RAY 이미지를 활용한 COVID-19 중증도 진단: ViT와 CNN 아키텍처 기반
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures

Feb 23, 2025

Luis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield

M3-AGIQA: 다중 모달, 다중 라운드, 다중 측면 AI 생성 이미지 품질 평가
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment

Feb 21, 2025

Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu

브라운 구체 속의 뱀
The snake in the Brownian sphere

Feb 18, 2025

Omer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont