HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

14 papers found

Adam-mini: 더 적은 학습률로 더 많은 성과를 얻기
Adam-mini: Use Fewer Learning Rates To Gain More

Jun 24

ByYushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun

우리는 AdamW와 동등하거나 더 나은 성능을 달성하면서도 메모리 사용량을 45%에서 50%까지 줄인 최적화 도구인 Adam-mini를 제안합니다. Adam-mini는 Adam의 학습률 리소스(즉, 1/v)를 줄여 메모리를 절약합니다. 우리는 v에 있는 이러한 학습률 중 90% 이상이 무해하게 제거될 수 있음을 발견했는데, 이는 (1) 제안된 헤시안 구조 원칙에 따라 매개변수를 블록으로 신중하게 분할하고, (2) 각 매개변수 블록에 단일하지만 우수한 학습률을 할당하는 경우에 가능합니다. 또한, 이러한 각 매개변수 블록에 대해 Adam을 능가할 수 있는 단일 고품질 학습률이 존재하며, 이를 탐색하기에 충분한 리소스가 제공된다면 가능하다는 것을 발견했습니다. 그런 다음, 우리는 우수한 학습률을 찾는 비용 효율적인 방법을 제시하고 Adam-mini를 제안합니다. 실험적으로, Adam-mini가 125M에서 7B 크기의 다양한 언어 모델에서 사전 학습, 지도 미세 조정, RLHF에 대해 AdamW와 동등하거나 더 나은 성능을 보임을 검증했습니다. Adam-mini의 감소된 메모리 사용량은 GPU와 CPU 간의 통신 오버헤드를 완화하여 처리량을 증가시킵니다. 예를 들어, Adam-mini는 2개의 A800-80GB GPU에서 Llama2-7B를 사전 학습할 때 AdamW보다 49.6% 더 높은 처리량을 달성하며, 이는 사전 학습에 소요되는 벽시계 시간을 33% 절약합니다.

옥토 플래너: 플래너-액션 에이전트를 위한 온디바이스 언어 모델
Octo-planner: On-device Language Model for Planner-Action Agents

Jun 26

ByWei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen

AI 에이전트는 다양한 분야에서 점점 더 중요한 역할을 하며, 자율적인 의사결정과 문제 해결을 가능하게 합니다. 이러한 에이전트가 효과적으로 작동하기 위해서는 최적의 행동 과정을 결정하고 계획된 행동을 실행하는 계획 프로세스가 필요합니다. 본 논문에서는 계획과 행동 실행을 두 개의 독립적인 구성 요소로 분리한 효율적인 온디바이스 Planner-Action 프레임워크를 제안합니다. 이 프레임워크는 엣지 디바이스에 최적화된 38억 개의 파라미터를 가진 LLM인 Phi-3 Mini를 기반으로 한 플래너 에이전트와, 함수 실행을 위해 Octopus 모델을 사용하는 액션 에이전트로 구성됩니다. 플래너 에이전트는 먼저 사용자 쿼리에 응답하여 작업을 하위 단계로 분해하고, 이를 액션 에이전트가 실행합니다. 리소스가 제한된 디바이스에서 성능을 최적화하기 위해, 우리는 컨텍스트 내 학습 대신 모델 미세 조정을 사용하여 계산 비용과 에너지 소비를 줄이고 응답 시간을 개선했습니다. 우리의 접근 방식은 사용 가능한 함수를 기반으로 다양한 계획 쿼리와 응답을 생성하기 위해 GPT-4를 사용하고, 데이터 품질을 보장하기 위해 후속 검증을 수행하는 것을 포함합니다. 우리는 이렇게 정제된 데이터셋에 대해 Phi-3 Mini 모델을 미세 조정하여, 도메인 내 테스트 환경에서 97%의 성공률을 달성했습니다. 다중 도메인 계획 문제를 해결하기 위해, 우리는 별도의 함수 하위 집합에 대해 훈련된 LoRA의 가중치를 병합하는 다중 LoRA 훈련 방법을 개발했습니다. 이 접근 방식은 리소스가 제한된 디바이스에서도 복잡한 다중 도메인 쿼리를 유연하게 처리할 수 있도록 하면서 계산 효율성을 유지합니다. 추가 연구를 지원하기 위해, 우리는 모델 가중치를 https://huggingface.co/NexaAIDev/octopus-planning에서 오픈소스로 공개했습니다. 데모는 https://www.nexa4ai.com/octo-planner를 참조하십시오.

CharXiv: 다중모드 LLM에서 현실적인 차트 이해의 격차 분석
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

Jun 26

ByZirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen

차트 이해는 과학 논문이나 재무 보고서 분석과 같은 실제 작업에 멀티모달 대형 언어 모델(MLLM)을 적용할 때 핵심적인 역할을 합니다. 그러나 기존 데이터셋은 지나치게 단순화되고 동질적인 차트와 템플릿 기반 질문에 초점을 맞추는 경향이 있어, 진전을 과도하게 낙관적으로 측정하는 결과를 초래합니다. 우리는 오픈소스 모델이 이러한 벤치마크에서 강력한 사유 모델을 능가하는 것처럼 보일 수 있지만, 약간 다른 차트나 질문으로 간단한 스트레스 테스트를 수행하면 성능이 최대 34.5%까지 저하될 수 있음을 보여줍니다. 본 연구에서는 arXiv 논문에서 추출한 2,323개의 자연스럽고 도전적이며 다양한 차트를 포함한 포괄적인 평가 도구인 CharXiv를 제안합니다. CharXiv는 두 가지 유형의 질문을 포함합니다: 1) 기본 차트 요소를 검토하는 기술적 질문과 2) 복잡한 시각적 요소 간 정보를 종합해야 하는 추론적 질문입니다. 질문과 차트의 품질을 보장하기 위해 모든 자료는 인간 전문가가 직접 선별, 정리 및 검증했습니다. 우리의 결과는 가장 강력한 사유 모델(예: GPT-4o)의 47.1% 정확도와 가장 강력한 오픈소스 모델(예: InternVL Chat V1.5)의 29.2% 정확도 사이에 이전에 과소평가된 상당한 격차가 있음을 보여줍니다. 모든 모델은 인간의 80.5% 성능에 크게 뒤처져, 기존 MLLM의 차트 이해 능력의 약점을 강조합니다. 우리는 CharXiv가 더 현실적이고 신뢰할 수 있는 진전 측정을 제공함으로써 MLLM 차트 이해에 대한 미래 연구를 촉진하기를 바랍니다. 프로젝트 페이지 및 리더보드: https://charxiv.github.io/

ChronoMagic-Bench: 텍스트-타임랩스 비디오 생성의 변형적 평가를 위한 벤치마크
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

Jun 26

ByShenghai Yuan, Jinfa Huang, Yongqi Xu, Yaoyang Liu, Shaofeng Zhang, Yujun Shi, Ruijie Zhu, Xinhua Cheng, Jiebo Luo, Li Yuan

우리는 텍스트-투-비디오(T2V) 생성 모델(예: Sora 및 Lumiere)의 타임랩스 비디오 생성에서의 시간적 및 변형 능력을 평가하기 위해 새로운 벤치마크인 ChronoMagic-Bench를 제안합니다. 기존 벤치마크가 생성된 비디오의 시각적 품질과 텍스트 관련성에 초점을 맞추는 반면, ChronoMagic-Bench는 모델이 상당한 변형 폭과 시간적 일관성을 가진 타임랩스 비디오를 생성하는 능력에 중점을 둡니다. 이 벤치마크는 T2V 모델의 물리학, 생물학, 화학 능력을 자유 형식의 텍스트 쿼리로 탐구합니다. 이를 위해 ChronoMagic-Bench는 1,649개의 프롬프트와 실제 비디오를 참조 자료로 도입하며, 이를 생물학적, 인간 창작, 기상학적, 물리적 현상의 네 가지 주요 타임랩스 비디오 유형으로 분류하고, 이를 75개의 하위 범주로 세분화합니다. 이 분류는 모델이 다양한 복잡한 변환을 처리하는 능력을 포괄적으로 평가합니다. 인간의 선호도를 벤치마크와 정확하게 일치시키기 위해, 우리는 비디오의 변형 속성과 시간적 일관성을 평가하기 위해 두 가지 새로운 자동 메트릭인 MTScore와 CHScore를 도입합니다. MTScore는 시간에 따른 변화의 정도를 반영하는 변형 폭을 측정하고, CHScore는 생성된 비디오가 논리적 진행과 연속성을 유지하는지 평가합니다. ChronoMagic-Bench를 기반으로, 우리는 10개의 대표적인 T2V 모델에 대한 포괄적인 수동 평가를 수행하여, 다양한 프롬프트 범주에서의 강점과 약점을 밝히고, 비디오 생성 연구의 현재 격차를 해결하는 철저한 평가 프레임워크를 제공합니다. 또한, 우리는 460k개의 고품질 720p 타임랩스 비디오와 상세한 캡션 쌍을 포함한 대규모 ChronoMagic-Pro 데이터셋을 생성하여, 높은 물리적 관련성과 큰 변형 폭을 보장합니다.

대규모 언어 모델에서의 전문가 혼합(Mixture-of-Experts)에 대한 심층 분석
A Closer Look into Mixture-of-Experts in Large Language Models

Jun 26

ByKa Man Lo, Zeyu Huang, Zihan Qiu, Zili Wang, Jie Fu

전문가 혼합(Mixture-of-experts, MoE)은 특히 언어 작업에서 독특한 특성과 뛰어난 성능으로 인해 점점 더 많은 관심을 받고 있습니다. MoE 아키텍처는 각 토큰에 대해 매개변수의 일부만 희소하게 활성화함으로써, 계산 효율성을 희생하지 않으면서 모델 크기를 증가시킬 수 있으며, 성능과 훈련 비용 간의 더 나은 균형을 달성합니다. 그러나 MoE의 기본 메커니즘은 여전히 추가 탐구가 필요하며, 그 모듈화 정도는 의문시되고 있습니다. 본 논문에서는 MoE 기반 대규모 언어 모델의 내부 작동 방식을 이해하기 위한 초기 시도를 합니다. 구체적으로, 최근의 세 가지 MoE 기반 모델의 매개변수 및 행동 특성을 포괄적으로 연구하고, 다음과 같은 흥미로운 관찰 결과를 제시합니다: (1) 뉴런이 세분화된 전문가처럼 작동한다. (2) MoE의 라우터는 일반적으로 출력 노름이 더 큰 전문가를 선택한다. (3) 전문가 다양성은 층이 증가함에 따라 증가하지만, 마지막 층은 예외이다. 이러한 관찰 결과를 바탕으로, 라우터 설계 및 전문가 할당과 같은 다양한 MoE 실무자들을 위한 제안도 제공합니다. 이 연구가 MoE 프레임워크 및 기타 모듈식 아키텍처에 대한 향후 연구에 통찰을 제공할 수 있기를 바랍니다. 코드는 https://github.com/kamanphoebe/Look-into-MoEs에서 확인할 수 있습니다.

EHRCon: 전자의무기록에서 비정형 노트와 정형화된 테이블 간 일관성 검사를 위한 데이터셋
EHRCon: Dataset for Checking Consistency between Unstructured Notes and Structured Tables in Electronic Health Records

Jun 24

ByYeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi

전자의무기록(EHR)은 환자의 포괄적인 의료 기록을 저장하는 데 필수적이며, 구조화된 데이터(예: 약물 정보)와 상세한 임상 기록(예: 의사 소견)을 결합합니다. 이러한 요소들은 직관적인 데이터 검색을 가능하게 하고 환자 치료에 대한 깊은 맥락적 통찰력을 제공합니다. 그러나 직관적이지 않은 EHR 시스템 설계와 인간의 실수로 인해 종종 불일치가 발생하며, 이는 환자 안전에 심각한 위험을 초래합니다. 이를 해결하기 위해 우리는 EHR 내 구조화된 테이블과 비정형 기록 간의 데이터 일관성을 보장하기 위해 특별히 설계된 새로운 데이터셋 및 작업인 EHRCon을 개발했습니다. EHRCon은 MIMIC-III EHR 데이터셋을 기반으로 의료 전문가들과 협력하여 제작되었으며, 데이터베이스 항목과의 일관성을 검증한 105개의 임상 기록에 대한 3,943개의 엔티티의 수동 주석을 포함합니다. EHRCon은 적용성과 일반화를 높이기 위해 원본 MIMIC-III 스키마를 사용한 버전과 OMOP CDM 스키마를 사용한 버전 두 가지로 제공됩니다. 또한, 대규모 언어 모델의 능력을 활용하여 임상 기록과 데이터베이스 테이블 간의 일관성을 검증하는 새로운 프레임워크인 CheckEHR을 소개합니다. CheckEHR은 8단계 프로세스를 사용하며, 퓨샷(few-shot) 및 제로샷(zero-shot) 설정에서 유망한 결과를 보여줍니다. 코드는 https://github.com/dustn1259/EHRCon에서 확인할 수 있습니다.

WildGuard: 대형 언어 모델의 안전 위험, 탈옥 시도 및 거부 행위를 위한 오픈 원스톱 조정 도구
WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs

Jun 26

BySeungju Han, Kavel Rao, Allyson Ettinger, Liwei Jiang, Bill Yuchen Lin, Nathan Lambert, Yejin Choi, Nouha Dziri

우리는 WildGuard를 소개합니다. 이는 LLM 안전을 위한 개방형 경량 조정 도구로, 세 가지 목표를 달성합니다: (1) 사용자 프롬프트에서 악의적 의도를 식별, (2) 모델 응답의 안전 위험 감지, (3) 모델 거부율 결정. WildGuard는 LLM 상호작용에 대한 자동 안전 조정 및 평가의 증가하는 요구를 충족시키며, 13개 위험 범주에 걸쳐 향상된 정확성과 광범위한 커버리지를 제공하는 원스톱 도구입니다. Llama-Guard2와 같은 기존 개방형 조정 도구들은 직관적인 모델 상호작용 분류에서 꽤 잘 수행되지만, 특히 적대적 jailbreak 식별과 모델 응답의 안전 행동 평가를 위한 핵심 지표인 모델 거부 평가에서 프롬프트된 GPT-4에 비해 크게 뒤떨어집니다. 이러한 문제를 해결하기 위해, 우리는 92K개의 라벨링된 예시로 구성된 대규모의 신중하게 균형 잡힌 다중 작업 안전 조정 데이터셋인 WildGuardMix를 구축했습니다. 이 데이터셋은 일반(직접) 프롬프트와 적대적 jailbreak를 포함하며, 다양한 거부 및 준수 응답과 짝을 이룹니다. WildGuardMix는 WildGuard의 학습 데이터인 WildGuardTrain과 5K개의 라벨링된 항목으로 구성된 고품질 인간 주석 조정 테스트 세트인 WildGuardTest의 조합입니다. WildGuardTest와 기존 10개 공개 벤치마크에 대한 광범위한 평가를 통해, WildGuard는 10개의 강력한 기존 오픈소스 조정 모델과 비교하여 세 가지 작업 모두에서 최첨단 성능을 달성함을 보여줍니다(예: 거부 감지에서 최대 26.4% 향상). 특히, WildGuard는 GPT-4 성능과 일치하거나 때로는 이를 초과합니다(예: 프롬프트 유해성 식별에서 최대 3.9% 향상). WildGuard는 LLM 인터페이스에서 매우 효과적인 안전 조정자 역할을 하며, jailbreak 공격의 성공률을 79.8%에서 2.4%로 줄입니다.

MatchTime: 자동 축구 경기 해설 생성 기술
MatchTime: Towards Automatic Soccer Game Commentary Generation

Jun 26

ByJiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie

축구는 전 세계적으로 인기 있는 스포츠로, 방대한 관중을 보유하고 있습니다. 본 논문에서는 관중들의 시청 경험을 향상시키기 위해 자동 축구 경기 해설 모델을 구축하는 것을 고려합니다. 일반적으로 다음과 같은 기여를 합니다: 첫째, 기존 데이터셋에서 흔히 발견되는 비디오-텍스트 불일치 문제를 관찰하고, 49개 경기에 대해 수동으로 타임스탬프를 주석 처리하여 더 견고한 축구 경기 해설 생성 벤치마크를 구축했습니다. 이를 SN-Caption-test-align이라고 명명합니다. 둘째, 기존 데이터셋을 대규모로 자동으로 수정하고 필터링하기 위한 다중 모달 시간 정렬 파이프라인을 제안하여, 더 높은 품질의 축구 경기 해설 데이터셋인 MatchTime을 생성했습니다. 셋째, 우리가 정제한 데이터셋을 기반으로 MatchVoice라는 자동 해설 생성 모델을 학습시켰습니다. 광범위한 실험과 절제 연구를 통해 우리의 정렬 파이프라인의 효과를 입증했으며, 정제된 데이터셋에서 학습한 모델이 해설 생성에서 최첨단 성능을 달성함으로써, 더 나은 정렬이 다운스트림 작업에서 상당한 성능 향상을 이끌어낼 수 있음을 보여주었습니다.

심볼릭 학습은 자기 진화 에이전트를 가능하게 한다
Symbolic Learning Enables Self-Evolving Agents

Jun 26

ByWangchunshu Zhou, Yixin Ou, Shengwei Ding, Long Li, Jialong Wu, Tiannan Wang, Jiamin Chen, Shuai Wang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang

AI 커뮤니티는 프롬프팅 기법과 도구 사용 방법을 포함하는 복잡한 대규모 언어 모델(LLM) 파이프라인인 "언어 에이전트"를 개발함으로써 인공 일반 지능(AGI)으로 가는 길을 탐구해 왔습니다. 언어 에이전트는 많은 실제 작업에서 인상적인 능력을 보여주었지만, 현재의 언어 에이전트 연구의 근본적인 한계는 모델 중심적이거나 엔지니어링 중심적이라는 점입니다. 즉, 언어 에이전트의 프롬프트, 도구, 파이프라인에 대한 진전은 데이터로부터 자동으로 학습하는 것이 아니라 인간 전문가의 상당한 수동 엔지니어링 노력을 필요로 합니다. 우리는 모델 중심적이거나 엔지니어링 중심적인 접근에서 데이터 중심적인 접근, 즉 언어 에이전트가 환경에서 자율적으로 학습하고 진화할 수 있는 능력으로의 전환이 AGI를 달성하는 데 있어 핵심이라고 믿습니다. 이 연구에서 우리는 언어 에이전트가 데이터 중심적인 방식으로 스스로 최적화할 수 있도록 하는 체계적인 프레임워크인 에이전트 심볼릭 학습을 소개합니다. 구체적으로, 우리는 에이전트를 프롬프트, 도구, 그리고 이들이 함께 쌓이는 방식에 의해 정의되는 학습 가능한 가중치를 가진 심볼릭 네트워크로 간주합니다. 에이전트 심볼릭 학습은 연결주의 학습의 두 가지 기본 알고리즘인 역전파와 경사 하강법을 모방하여 언어 에이전트 내의 심볼릭 네트워크를 최적화하도록 설계되었습니다. 숫자 가중치를 다루는 대신, 에이전트 심볼릭 학습은 자연어로 표현된 가중치, 손실, 그리고 그래디언트의 시뮬라크럼을 사용합니다. 우리는 표준 벤치마크와 복잡한 실제 작업에 대한 개념 증명 실험을 수행하고, 에이전트 심볼릭 학습이 언어 에이전트가 생성 및 배포된 후에도 스스로 업데이트할 수 있게 하여 "자기 진화 에이전트"를 만들어냄을 보여줍니다.

Math-LLaVA: 멀티모달 대규모 언어 모델을 위한 수학적 추론 부트스트래핑
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

Jun 25

ByWenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee

대형 언어 모델(LLM)은 특히 텍스트 기반 수학 문제 해결에서 인상적인 추론 능력을 보여주고 있습니다. 그러나 기존의 오픈소스 이미지 지시 미세 조정 데이터셋은 이미지당 제한된 질문-답변 쌍만을 포함하고 있어, 다중모달 LLM(MLLM)의 수학적 추론 능력을 향상시키기 위한 시각 정보를 충분히 활용하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 24개의 기존 데이터셋에서 40K개의 고품질 이미지와 질문-답변 쌍을 수집하고 320K개의 새로운 쌍을 합성하여 MathV360K 데이터셋을 생성함으로써 다중모달 수학 문제의 폭과 깊이를 모두 강화했습니다. 우리는 MathV360K로 미세 조정된 LLaVA-1.5 기반 모델인 Math-LLaVA를 소개합니다. 이 새로운 접근 방식은 LLaVA-1.5의 다중모달 수학적 추론 능력을 크게 향상시켜, MathVista의 미니테스트 분할에서 19점의 증가를 달성하고 GPT-4V와 비슷한 성능을 보여줍니다. 또한, Math-LLaVA는 MMMU 벤치마크에서도 향상된 일반화 능력을 입증하며 상당한 개선을 보여줍니다. 우리의 연구는 MLLM의 수학적 추론 능력을 발전시키기 위해 데이터셋 다양성과 합성의 중요성을 강조합니다. 코드와 데이터는 https://github.com/HZQ950419/Math-LLaVA에서 확인할 수 있습니다.

심층 강화 학습의 이해와 진단
Understanding and Diagnosing Deep Reinforcement Learning

Jun 23

ByEzgi Korkmaz

딥 뉴럴 정책은 최근 생명공학부터 자동화된 금융 시스템에 이르기까지 다양한 분야에 적용되고 있다. 그러나 가치 함수를 근사하기 위해 딥 뉴럴 네트워크를 활용함에 따라, 특히 고도로 비볼록하고 복잡한 딥 뉴럴 매니폴드로 인해 미세하고 비견고한 특징들에 대한 정책 결정의 민감성과 관련하여 결정 경계의 안정성에 대한 우려가 제기되고 있다. 이러한 우려는 딥 뉴럴 정책이 내리는 결정의 논리와 그 근본적인 한계를 이해하는 데 방해가 된다. 따라서, 신경망 정책이 학습한 표현의 민감성을 이해하기 위한 기법을 개발하는 것이 중요하다. 이를 위해 우리는 시간과 공간에 걸쳐 딥 뉴럴 정책의 결정 경계에서 불안정한 방향을 체계적으로 분석할 수 있는 이론적으로 근거된 방법을 소개한다. 아케이드 학습 환경(ALE)에서의 실험을 통해, 우리는 상관관계가 있는 불안정 방향을 식별하고, 샘플 변화가 신경망 정책의 민감한 방향 집합을 어떻게 재구성하는지 측정하는 데 있어 우리 기법의 효과성을 입증한다. 무엇보다도, 우리는 최첨단 견고한 학습 기법이 표준 학습에 비해 시간에 따라 훨씬 더 큰 진폭을 가진 분리된 불안정 방향을 학습한다는 것을 보여준다. 우리는 이러한 결과가 강화 학습 정책의 결정 과정의 근본적인 특성을 드러내며, 신뢰할 수 있고 견고한 딥 뉴럴 정책을 구축하는 데 도움이 될 것이라고 믿는다.

대규모 WildTeaming: 실제 환경의 Jailbreak에서 (적대적으로) 더 안전한 언어 모델로
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Jun 26

ByLiwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri

우리는 WildTeaming을 소개합니다. 이는 실제 사용자와 챗봇 간의 상호작용을 분석하여 5,700개의 독창적인 jailbreak 전술 클러스터를 발견하고, 이러한 전술들을 조합하여 새로운 jailbreak를 체계적으로 탐색하는 자동화된 LLM 안전성 레드팀 프레임워크입니다. 기존 연구들이 모집된 인간 작업자, 그래디언트 기반 최적화, 또는 LLM을 통한 반복적 수정을 통해 레드팀을 수행한 것과 달리, 본 연구는 시스템을 의도적으로 파괴하도록 지시받지 않은 챗봇 사용자들의 jailbreak 사례를 조사합니다. WildTeaming은 최신 LLM의 이전에 알려지지 않은 취약점을 밝혀내며, 최첨단 jailbreak 방법 대비 최대 4.6배 더 다양하고 성공적인 적대적 공격을 가능하게 합니다. jailbreak 평가를 위한 많은 데이터셋이 존재하지만, jailbreak 훈련을 위한 오픈소스 데이터셋은 매우 드뭅니다. 특히 모델 가중치가 공개된 경우에도 안전성 훈련 데이터는 폐쇄적으로 유지되어 왔습니다. WildTeaming을 통해 우리는 262,000개의 일반(직접 요청) 및 적대적(복잡한 jailbreak) 프롬프트-응답 쌍으로 구성된 대규모 오픈소스 합성 안전성 데이터셋인 WildJailbreak를 생성했습니다. 과도한 안전성 행동을 완화하기 위해 WildJailbreak는 두 가지 대조적인 유형의 쿼리를 제공합니다: 1) 유해한 쿼리(일반 및 적대적)와 2) 형태상 유해한 쿼리와 유사하지만 실제로는 해가 없는 무해한 쿼리입니다. WildJailbreak는 기존 안전성 리소스의 품질과 규모를 크게 업그레이드함으로써, 데이터의 스케일링 효과와 안전성 훈련 중 데이터 속성과 모델 능력 간의 상호작용을 검토할 수 있는 독보적인 기회를 제공합니다. 광범위한 실험을 통해 우리는 이상적인 안전성 행동의 균형을 가능하게 하는 훈련 속성을 확인했습니다: 과도한 거부 없이 적절한 보호, 일반 및 적대적 쿼리의 효과적 처리, 그리고 일반 능력의 최소한의 감소(있는 경우). WildJailbreak의 모든 구성 요소는 모델의 균형 잡힌 안전성 행동 달성에 기여합니다.

멀티모달 작업 벡터를 통한 다중 샷 멀티모달 인-컨텍스트 학습 가능
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

Jun 21

ByBrandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig

최근 인터리브드 대형 멀티모달 모델(Large Multimodal Models, LMMs)의 퓨샷 학습(few-shot learning)에서의 성공은 많은 예시를 활용한 컨텍스트 내 학습(in-context learning, ICL)이 새로운 작업을 학습하는 데 유망할 수 있음을 시사합니다. 그러나 이러한 다수샷 멀티모달 ICL 설정에는 한 가지 중요한 문제가 있습니다: 이는 사전 학습 시 설정된 모델의 컨텍스트 길이에 의해 근본적으로 제한된다는 점입니다. 이 문제는 텍스트와 이미지를 모두 처리하는 멀티모달 도메인에서 특히 두드러지는데, 이는 추가 토큰을 필요로 하기 때문입니다. 이는 파인튜닝 없이도 다수샷을 더 적은 토큰으로 압축할 수 있는 멀티모달 방법의 필요성을 부각시킵니다. 본 연구에서는 멀티모달 태스크 벡터(Multimodal Task Vectors, MTV)—모델의 어텐션 헤드에서 압축된 컨텍스트 내 예시의 간결한 암묵적 표현—를 활용하여 LMMs가 멀티모달 다수샷 컨텍스트 내 학습을 수행할 수 있도록 합니다. 구체적으로, 우리는 먼저 LMMs 내에서 이러한 MTV의 존재를 입증한 다음, 추출된 MTV를 활용하여 다양한 시각-언어 작업에 대한 다수샷 컨텍스트 내 학습을 가능하게 합니다. 우리의 실험 결과는 MTV가 압축된 샷의 수에 따라 성능이 확장될 수 있으며, 추가 컨텍스트 길이 없이도 유사한 도메인 외 작업으로 일반화될 수 있음을 시사합니다.

MemServe: 탄력적 메모리 풀을 활용한 분산형 LLM 서빙을 위한 컨텍스트 캐싱
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

Jun 25

ByCunchen Hu, Heyang Huang, Junhao Hu, Jiang Xu, Xusheng Chen, Tao Xie, Chenxi Wang, Sa Wang, Yungang Bao, Ninghui Sun, Yizhou Shan

대형 언어 모델(LLM) 서빙은 상태 비저장(stateless) 시스템에서 상태 저장(stateful) 시스템으로 진화하며, 컨텍스트 캐싱(context caching)과 분산 추론(disaggregated inference)과 같은 기술을 활용하고 있습니다. 이러한 최적화는 KV 캐시의 수명과 적용 범위를 확장시키며, 새로운 아키텍처 접근 방식을 필요로 합니다. 우리는 MemServe를 제안합니다. MemServe는 요청 간(inter-request) 및 요청 내(intra-request) 최적화를 통합한 통합 시스템입니다. MemServe는 MemPool을 도입하는데, MemPool은 서빙 인스턴스 간에 분산된 메모리와 KV 캐시를 관리하는 탄력적 메모리 풀입니다. MemPool API를 사용하여 MemServe는 컨텍스트 캐싱과 분산 추론을 최초로 결합하며, 전역 스케줄러(global scheduler)가 전역 프롬프트 트리 기반의 지역성 인지 정책(locality-aware policy)을 통해 캐시 재사용을 향상시킵니다. 테스트 결과, MemServe는 작업 완료 시간과 첫 응답 시간(time-to-first-time)을 크게 개선하는 것으로 나타났습니다.

대규모 WildTeaming: 실제 환경의 Jailbreak에서 (적대적으로) 더 안전한 언어 모델로
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Jun 26

ByLiwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri