번역이 포함된 일일 선별된 AI 연구 논문
파라미터 효율적 미세 조정(PEFT) 방법은 적은 수의 가중치 업데이트를 통해 대규모 모델을 적응시키려고 합니다. 그러나 많은 선행 해석 가능성 연구에서 표현(representations)이 풍부한 의미 정보를 인코딩한다는 것을 보여주었으며, 이는 표현을 편집하는 것이 더 강력한 대안일 수 있음을 시사합니다. 여기서 우리는 이 가설을 추구하기 위해 표현 미세 조정(Representation Finetuning, ReFT) 방법군을 개발합니다. ReFT 방법은 고정된 기본 모델에서 작동하며 숨겨진 표현에 대한 작업별 개입을 학습합니다. 우리는 ReFT 방법군의 강력한 인스턴스인 저차원 선형 부분공간 ReFT(Low-rank Linear Subspace ReFT, LoReFT)를 정의합니다. LoReFT는 기존 PEFT를 대체할 수 있는 드롭인(drop-in) 방식이며, 최신 PEFT보다 10배에서 50배 더 파라미터 효율적인 개입을 학습합니다. 우리는 LoReFT를 8개의 상식 추론 작업, 4개의 산술 추론 작업, Alpaca-Eval v1.0, 그리고 GLUE에서 시연합니다. 이 모든 평가에서 LoReFT는 효율성과 성능의 최적 균형을 제공하며, 거의 항상 최신 PEFT를 능가합니다. 우리는 일반적인 ReFT 학습 라이브러리를 https://github.com/stanfordnlp/pyreft에서 공개적으로 제공합니다.
디퓨전 모델은 텍스트-이미지 생성 분야에서 큰 성공을 거두었습니다. 그러나 텍스트 프롬프트와 이미지 간의 불일치를 완화하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 불일치의 근본적인 원인은 아직 충분히 연구되지 않았습니다. 우리는 이 불일치가 토큰 주의 활성화의 부적절함에서 비롯된다는 것을 관찰했습니다. 더 나아가, 이러한 현상은 디퓨전 모델의 훈련 패러다임으로 인한 조건 활용의 불충분함에 기인한다고 분석했습니다. 이 문제를 해결하기 위해, 우리는 이미지-텍스트 개념 매칭 메커니즘을 갖춘 종단 간(end-to-end) 디퓨전 모델 미세 조정 전략인 CoMat를 제안합니다. 우리는 이미지 캡셔닝 모델을 활용하여 이미지-텍스트 정렬을 측정하고, 디퓨전 모델이 무시된 토큰을 재검토하도록 유도합니다. 또한, 속성 바인딩 문제를 해결하기 위해 새로운 속성 집중 모듈을 제안합니다. 이미지나 인간 선호 데이터 없이, 단 20,000개의 텍스트 프롬프트만을 사용하여 SDXL을 미세 조정하여 CoMat-SDXL을 얻었습니다. 광범위한 실험을 통해 CoMat-SDXL이 두 가지 텍스트-이미지 정렬 벤치마크에서 기준 모델인 SDXL을 크게 능가하며 최첨단 성능을 달성함을 보여줍니다.
본 논문은 비디오 이해를 위해 특별히 설계된 다중 모달 대형 언어 모델(LLM)인 MiniGPT4-Video를 소개합니다. 이 모델은 시간적 시각 데이터와 텍스트 데이터를 모두 처리할 수 있어 비디오의 복잡성을 이해하는 데 탁월합니다. 단일 이미지에 대한 시각적 특징을 LLM 공간으로 변환하는 데 뛰어난 성과를 거두며 다양한 이미지-텍스트 벤치마크에서 인상적인 결과를 보였던 MiniGPT-v2의 성공을 기반으로, 이 논문은 모델의 기능을 프레임 시퀀스 처리로 확장하여 비디오를 이해할 수 있도록 합니다. MiniGPT4-Video는 시각적 콘텐츠뿐만 아니라 텍스트 대화도 통합하여 시각 및 텍스트 요소를 모두 포함한 질문에 효과적으로 답변할 수 있습니다. 제안된 모델은 기존의 최첨단 방법들을 능가하며, MSVD, MSRVTT, TGIF, TVQA 벤치마크에서 각각 4.22%, 1.13%, 20.82%, 13.1%의 성능 향상을 기록했습니다. 우리의 모델과 코드는 https://vision-cair.github.io/MiniGPT4-video/에서 공개되었습니다.
급변하는 인공지능 분야에서, 다중 모달 대형 언어 모델은 중요한 관심 영역으로 부상하고 있습니다. 다양한 형태의 데이터 입력을 결합하는 이러한 모델은 점점 더 인기를 얻고 있지만, 그 내부 메커니즘을 이해하는 것은 여전히 복잡한 과제로 남아 있습니다. 설명 가능성 도구 및 메커니즘 분야에서는 많은 발전이 있었지만, 여전히 탐구할 부분이 많습니다. 본 연구에서는 대형 시각-언어 모델의 내부 메커니즘을 이해하기 위한 새로운 인터랙티브 애플리케이션을 소개합니다. 우리의 인터페이스는 답변 생성에 중요한 역할을 하는 이미지 패치의 해석 가능성을 높이고, 언어 모델이 출력을 이미지에 기반하게 하는 효율성을 평가하도록 설계되었습니다. 이 애플리케이션을 통해 사용자는 모델을 체계적으로 조사하고 시스템의 한계를 발견함으로써 시스템 능력 향상의 길을 열 수 있습니다. 마지막으로, 우리는 인기 있는 대형 다중 모달 모델인 LLaVA의 실패 메커니즘을 이해하는 데 이 애플리케이션이 어떻게 도움을 줄 수 있는지에 대한 사례 연구를 제시합니다.
본 논문에서는 고도로 압축된 텍스트를 기반으로 대규모 언어 모델(LLM)을 훈련시키는 아이디어를 탐구합니다. 표준 서브워드 토크나이저는 텍스트를 작은 비율로 압축하지만, 신경망 기반 텍스트 압축기는 훨씬 더 높은 압축률을 달성할 수 있습니다. 신경망으로 압축된 텍스트를 직접 LLM 훈련에 사용할 수 있다면, 훈련 및 서빙 효율성이 향상되고 긴 텍스트 범위를 더 쉽게 처리할 수 있는 장점이 있습니다. 그러나 이러한 목표를 달성하는 주요 장애물은 강력한 압축이 학습에 적합하지 않은 불투명한 출력을 생성하는 경향이 있다는 점입니다. 특히, 우리는 Arithmetic Coding을 통해 단순히 압축된 텍스트가 LLM에 의해 쉽게 학습되지 않음을 발견했습니다. 이를 극복하기 위해, 우리는 Equal-Info Windows라는 새로운 압축 기법을 제안합니다. 이 기법은 텍스트를 각각 동일한 비트 길이로 압축되는 블록으로 분할합니다. 이 방법을 사용하여, 우리는 신경망으로 압축된 텍스트에 대한 효과적인 학습을 입증했으며, 이는 규모가 커질수록 개선되고, perplexity 및 추론 속도 벤치마크에서 바이트 수준의 기준선을 크게 능가합니다. 우리의 방법은 동일한 매개변수 수로 훈련된 모델에 대해 서브워드 토크나이저보다 더 나쁜 perplexity를 보이지만, 더 짧은 시퀀스 길이라는 이점이 있습니다. 더 짧은 시퀀스 길이는 더 적은 자동회귀 생성 단계를 필요로 하며, 지연 시간을 줄입니다. 마지막으로, 우리는 학습 가능성에 기여하는 속성에 대한 광범위한 분석을 제공하고, 고압축 토크나이저의 성능을 더욱 개선하기 위한 구체적인 제안을 제시합니다.
코드를 위한 대형 언어 모델(LLMs)은 빠르게 진화하고 있으며, 코드 편집은 중요한 역량으로 부상하고 있습니다. 우리는 코드 편집 작업(디버깅, 번역, 다듬기, 요구사항 변경 등)에서 LLMs의 성능을 엄격하게 평가하기 위해 설계된 평가 프레임워크인 CodeEditorBench를 소개합니다. 기존의 코드 생성에만 초점을 맞춘 벤치마크와 달리, CodeEditorBench는 소프트웨어 개발의 실제 시나리오와 실용적인 측면을 강조합니다. 우리는 다양한 프로그래밍 언어, 복잡성 수준, 편집 작업을 포함하는 다섯 가지 소스에서 다양한 코딩 문제와 시나리오를 선별했습니다. 19개의 LLMs에 대한 평가 결과, 특히 Gemini-Ultra와 GPT-4와 같은 폐쇄형 모델이 CodeEditorBench에서 오픈소스 모델을 능가하며, 문제 유형과 프롬프트 민감도에 따른 모델 성능 차이를 보여주었습니다. CodeEditorBench는 코드 편집 능력을 평가하기 위한 견고한 플랫폼을 제공함으로써 LLMs의 발전을 촉진하고자 합니다. 우리는 커뮤니티가 데이터셋을 확장하고 새로운 LLMs를 벤치마크할 수 있도록 모든 프롬프트와 데이터셋을 공개할 예정입니다. CodeEditorBench를 도입함으로써, 우리는 코드 편집에서의 LLMs 발전에 기여하고 연구자와 실무자에게 유용한 자원을 제공합니다.
우리는 효율적인 포인트 클라우드 확산 모델 패밀리인 PointInfinity를 소개합니다. 우리의 핵심 아이디어는 고정 크기의 해상도 불변 잠재 표현을 사용하는 트랜스포머 기반 아키텍처를 활용하는 것입니다. 이를 통해 저해상도 포인트 클라우드로 효율적인 학습이 가능하면서도, 추론 시에는 고해상도 포인트 클라우드를 생성할 수 있습니다. 더 중요한 것은, 학습 시 사용한 해상도를 넘어서는 테스트 시간 해상도 스케일링이 생성된 포인트 클라우드와 표면의 충실도를 향상시킨다는 점을 보여준다는 것입니다. 우리는 이 현상을 분석하고, 확산 모델에서 일반적으로 사용되는 분류자 없는 가이던스와의 연관성을 도출하여, 둘 다 추론 시 충실도와 다양성 간의 트레이드오프를 가능하게 한다는 것을 입증합니다. CO3D에 대한 실험 결과, PointInfinity는 최신 기술 수준의 품질로 고해상도 포인트 클라우드(최대 131k 포인트, Point-E 대비 31배)를 효율적으로 생성할 수 있음을 보여줍니다.
다양한 탈옥(jailbreak) 공격이 대형 언어 모델(LLM)의 레드 팀 테스트를 위해 제안되었으며, 이를 통해 LLM의 취약한 안전장치가 드러났습니다. 또한, 일부 방법은 텍스트 모달리티에 국한되지 않고 시각적 입력을 교란하여 다중모달 대형 언어 모델(MLLM)로 탈옥 공격을 확장합니다. 그러나 보편적인 평가 벤치마크의 부재로 인해 성능 재현과 공정한 비교가 복잡해졌습니다. 더욱이, 특히 GPT-4V와 같은 최첨단(SOTA) 폐쇄형 모델에 대한 포괄적인 평가가 부족합니다. 이러한 문제를 해결하기 위해, 본 연구는 먼저 11가지 다른 안전 정책을 포함한 1445개의 유해 질문으로 구성된 포괄적인 탈옥 평가 데이터셋을 구축했습니다. 이 데이터셋을 기반으로, SOTA 독점 모델과 오픈소스 모델을 포함한 11개의 서로 다른 LLM과 MLLM에 대해 광범위한 레드 팀 테스트 실험을 수행했습니다. 그런 다음 평가 결과에 대한 심층 분석을 수행하여 다음과 같은 사실을 발견했습니다: (1) GPT-4와 GPT-4V는 오픈소스 LLM 및 MLLM에 비해 탈옥 공격에 대해 더 나은 견고성을 보였습니다. (2) Llama2와 Qwen-VL-Chat은 다른 오픈소스 모델에 비해 더 견고했습니다. (3) 시각적 탈옥 방법의 전이성은 텍스트 기반 탈옥 방법에 비해 상대적으로 제한적이었습니다. 데이터셋과 코드는 다음 링크에서 확인할 수 있습니다: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
우리는 텍스트-음성 변환(TTS) 합성을 위한 강건한 언어 모델링 방법인 RALL-E를 소개한다. 대규모 언어 모델(LLM)에 기반한 기존 연구들은 제로샷 TTS에서 인상적인 성능을 보여주지만, 이러한 방법들은 언어 모델의 자기회귀적 예측 방식으로 인해 불안정한 운율(이상한 피치와 리듬/지속 시간)과 높은 단어 오류율(WER)과 같은 낮은 강건성을 보이는 경우가 많다. RALL-E의 핵심 아이디어는 사고의 연쇄(CoT) 프롬프팅으로, 이를 통해 작업을 더 간단한 단계로 분해하여 LLM 기반 TTS의 강건성을 향상시킨다. 이를 실현하기 위해 RALL-E는 먼저 입력 텍스트의 운율 특성(피치와 지속 시간)을 예측하고 이를 중간 조건으로 사용하여 CoT 스타일로 음성 토큰을 예측한다. 두 번째로, RALL-E는 예측된 지속 시간 프롬프트를 활용하여 Transformer의 자기 주의 가중치 계산을 안내함으로써 모델이 음성 토큰을 예측할 때 해당 음소와 운율 특성에 집중하도록 강제한다. 포괄적인 객관적 및 주관적 평가 결과에 따르면, 강력한 베이스라인 방법인 VALL-E와 비교하여 RALL-E는 제로샷 TTS의 WER을 각각 6.3%(재순위 없음)와 2.1%(재순위 있음)에서 2.8%와 1.0%로 크게 개선했다. 또한, RALL-E는 VALL-E가 처리하기 어려운 문장을 정확하게 합성하며 오류율을 68%에서 4%로 감소시킨다는 것을 입증했다.