번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델은 텍스트 입력을 처리하기 위해 트랜스포머 기반 아키텍처 위에 구축됩니다. 예를 들어, LLaMA는 많은 오픈소스 구현체 중에서도 두드러지는 성능을 보입니다. 동일한 트랜스포머를 2D 이미지 처리에 사용할 수 있을까요? 본 논문에서는 이러한 질문에 답하기 위해 LLaMA와 유사한 비전 트랜스포머를 일반형과 피라미드형으로 공개하며, 이를 VisionLLaMA라고 명명합니다. VisionLLaMA는 대부분의 비전 작업을 해결하기 위한 통합적이고 일반적인 모델링 프레임워크입니다. 우리는 이미지 인식, 특히 이미지 생성과 같은 다양한 하위 작업에서 전형적인 사전 학습 패러다임을 사용하여 그 효과를 광범위하게 평가했습니다. 많은 경우에서 VisionLLaMA는 이전의 최첨단 비전 트랜스포머 대비 상당한 성능 향상을 보여주었습니다. 우리는 VisionLLaMA가 비전 생성 및 이해를 위한 강력한 새로운 베이스라인 모델로 자리 잡을 수 있을 것이라 믿습니다. 우리의 코드는 https://github.com/Meituan-AutoML/VisionLLaMA에서 공개될 예정입니다.
공동 임베딩 예측 아키텍처(Joint-Embedding Predictive Architecture, JEPA)는 세계 모델을 활용하여 학습하는 유망한 자기 지도 학습 접근법으로 부상하고 있다. 기존에는 입력의 누락된 부분을 예측하는 데 제한되었으나, 본 연구에서는 JEPA 예측 과제를 더 광범위한 변형에 일반화하는 방법을 탐구한다. 우리는 마스킹된 이미지 모델링을 넘어서는 접근법인 이미지 세계 모델(Image World Models, IWM)을 소개하며, 이는 잠재 공간에서 전역 광도 변환의 효과를 예측하는 방법을 학습한다. 우리는 성능이 우수한 IWM을 학습하기 위한 레시피를 연구하고, 이가 세 가지 핵심 요소인 조건화, 예측 난이도, 그리고 용량에 의존함을 보인다. 또한, IWM에 의해 학습된 예측 세계 모델은 미세 조정을 통해 다양한 과제를 해결하도록 적응될 수 있음을 보이며, 미세 조정된 IWM 세계 모델은 기존의 자기 지도 학습 방법들의 성능을 능가하거나 동등한 수준을 달성함을 입증한다. 마지막으로, IWM을 통한 학습은 학습된 표현의 추상화 수준을 제어할 수 있게 하여, 대조적 방법과 같은 불변 표현 또는 마스킹된 이미지 모델링과 같은 등변 표현을 학습할 수 있음을 보인다.
본 논문은 Rotary Position Embedding(RoPE)을 장착한 대규모 언어 모델(LLM)에서의 짧은 학습-긴 테스트(TSTL) 시나리오의 문제를 다룹니다. 이 시나리오에서는 짧은 시퀀스로 사전 학습된 모델이 긴 시퀀스에서의 분포 외(OOD) 토큰 위치를 처리하는 데 어려움을 겪습니다. 우리는 Resonance RoPE라는 새로운 접근 방식을 소개하며, 이는 OOD 위치에 대한 RoPE 특징의 보간을 개선하여 TSTL 시나리오에서의 일반화 격차를 줄이고, 추가적인 온라인 계산 비용 없이 모델 성능을 크게 향상시킵니다. 또한, PosGen이라는 새로운 합성 벤치마크를 제시하여, TSTL 시나리오에서의 세밀한 행동 분석을 위해 설계되었으며, 긴 문맥에서의 토큰 생성의 지속적으로 증가하는 어려움을 새로운 토큰 위치 인식의 문제와 분리하는 것을 목표로 합니다. 합성 작업에 대한 실험 결과, Resonance RoPE를 적용한 후 트랜스포머가 OOD 위치를 더 잘 그리고 더 강인하게 인식하는 것을 보여줍니다. 또한, 다양한 LLM 실험에서도 Resonance RoPE를 최신 RoPE 스케일링 방법인 YaRN에 적용한 후 상류 언어 모델링 작업과 다양한 하류 장문 응용 프로그램에서 우수한 성능을 보여줍니다.
텍스트-이미지 맞춤화는 주어진 주제에 대해 텍스트 기반 이미지를 합성하는 것을 목표로 하며, 최근 콘텐츠 제작 분야에 혁신을 가져왔다. 기존 연구들은 주어진 주제를 가상 단어로 표현한 후 이를 주어진 텍스트와 조합하는 가상 단어 패러다임을 따르고 있다. 그러나 가상 단어와 주어진 텍스트 간의 본질적으로 얽힌 영향 범위는 이중 최적의 역설을 초래한다. 즉, 주어진 주제의 유사성과 주어진 텍스트의 제어 가능성이 동시에 최적화될 수 없다는 문제가 발생한다. 본 연구에서는 RealCustom을 제안하여, 주제의 영향을 관련 부분에만 정확히 제한함으로써 유사성과 제어 가능성을 처음으로 분리한다. 이는 일반적인 의미에서 특정 주제로 점차 좁혀가는 실제 텍스트 단어를 사용하고, 그 교차 주의력을 통해 관련성을 구분함으로써 달성된다. 구체적으로, RealCustom은 새로운 "훈련-추론" 분리 프레임워크를 도입한다: (1) 훈련 단계에서, RealCustom은 새로운 적응형 점수 모듈을 통해 시각적 조건과 원본 텍스트 조건 간의 일반적인 정렬을 학습하여 영향량을 적응적으로 조절한다; (2) 추론 단계에서, 새로운 적응형 마스크 지도 전략을 제안하여 주어진 주제의 영향 범위와 영향량을 반복적으로 업데이트하며, 실제 텍스트 단어의 생성을 점차 좁혀나간다. 포괄적인 실험을 통해 RealCustom이 개방 도메인에서 전례 없는 실시간 맞춤화 능력을 보여주며, 주어진 주제의 유사성과 주어진 텍스트의 제어 가능성을 동시에 달성함을 입증한다. 프로젝트 페이지는 https://corleone-huang.github.io/realcustom/에서 확인할 수 있다.
활성화 패칭(Activation Patching)은 모델 구성 요소에 대한 행동의 인과적 기여도를 직접 계산하는 방법이다. 그러나 이를 철저히 적용하려면 모델 구성 요소의 수에 비례하여 선형적으로 증가하는 비용이 발생하며, 이는 최신 대규모 언어 모델(LLMs)에서는 감당하기 어려울 정도로 비용이 많이 들 수 있다. 본 연구에서는 활성화 패칭의 빠른 경사 기반 근사법인 속성 패칭(Attribution Patching, AtP)을 조사하고, AtP의 두 가지 주요 실패 모드를 발견하였다. 이러한 실패 모드로 인해 상당한 수의 거짓 음성(false negatives)이 발생함을 확인하였다. 이에 AtP의 변형인 AtP*를 제안하며, 두 가지 변경 사항을 통해 이러한 실패 모드를 해결하면서도 확장성을 유지하였다. 본 연구는 AtP 및 더 빠른 활성화 패칭을 위한 대체 방법들에 대한 첫 번째 체계적인 연구를 제시하며, AtP가 조사된 다른 모든 방법들을 크게 능가함을 보여준다. 또한 AtP*는 추가적으로 상당한 개선을 제공한다. 마지막으로, AtP* 추정치에서 남아 있을 수 있는 거짓 음성의 확률을 제한하는 방법을 제시한다.