번역이 포함된 일일 선별된 AI 연구 논문
Transformer 기반 언어 모델은 입력 시퀀스 전체에 걸쳐 FLOPs를 균일하게 분배합니다. 본 연구에서는 Transformer가 대신 시퀀스 내 특정 위치에 FLOPs(또는 계산 자원)를 동적으로 할당하도록 학습할 수 있음을 보여줍니다. 이를 통해 모델 깊이에 걸쳐 서로 다른 레이어에서 시퀀스에 따른 자원 할당을 최적화할 수 있습니다. 우리의 방법은 주어진 레이어에서 self-attention 및 MLP 계산에 참여할 수 있는 토큰 수(k)를 제한함으로써 총 계산 예산을 강제합니다. 처리될 토큰은 네트워크가 top-k 라우팅 메커니즘을 사용하여 결정합니다. k가 사전에 정의되기 때문에, 이 간단한 절차는 다른 조건부 계산 기법과 달리 알려진 텐서 크기를 가진 정적 계산 그래프를 사용합니다. 그러나 k개의 토큰의 정체성이 유동적이기 때문에, 이 방법은 시간 및 모델 깊이 차원에 걸쳐 FLOPs를 비균일하게 소비할 수 있습니다. 따라서 계산 소비는 총합적으로는 완전히 예측 가능하지만, 토큰 수준에서는 동적이고 문맥에 민감합니다. 이러한 방식으로 학습된 모델은 계산 자원을 동적으로 할당하는 방법을 효율적으로 학습할 뿐만 아니라, 동등한 FLOPs 및 학습 시간 대비 기준 성능을 달성합니다. 또한 순방향 패스당 필요한 FLOPs는 일부에 불과하며, 학습 후 샘플링 단계에서 최대 50% 이상 빠를 수 있습니다.
우리는 Visual AutoRegressive modeling(VAR)을 소개합니다. 이는 이미지에 대한 자기회귀 학습을 표준적인 래스터 스캔 방식의 "다음 토큰 예측"에서 벗어나, "다음 스케일 예측" 또는 "다음 해상도 예측"이라는 거친 단계에서 세밀한 단계로의 접근으로 재정의한 새로운 세대의 패러다임입니다. 이 간단하고 직관적인 방법론은 자기회귀(AR) 트랜스포머가 시각적 분포를 빠르게 학습하고 잘 일반화할 수 있게 합니다: VAR은 처음으로 AR 모델이 이미지 생성에서 확산 트랜스포머(Diffusion Transformer)를 능가하게 합니다. ImageNet 256x256 벤치마크에서 VAR은 AR 기준선을 크게 개선하여 Frechet inception distance(FID)를 18.65에서 1.80으로, inception score(IS)를 80.4에서 356.4로 향상시켰으며, 추론 속도는 약 20배 빨라졌습니다. 또한 VAR이 이미지 품질, 추론 속도, 데이터 효율성, 확장성 등 여러 차원에서 Diffusion Transformer(DiT)를 능가한다는 것이 실증적으로 검증되었습니다. VAR 모델을 확장하면 LLM에서 관찰된 것과 유사한 명확한 파워 법칙 스케일링 법칙이 나타나며, 선형 상관 계수가 -0.998에 가까운 것이 확실한 증거입니다. VAR은 이미지 인페인팅, 아웃페인팅, 편집 등 다운스트림 작업에서 제로샷 일반화 능력을 추가로 보여줍니다. 이러한 결과는 VAR이 LLM의 두 가지 중요한 특성인 스케일링 법칙과 제로샷 작업 일반화를 초기에 모방했음을 시사합니다. 우리는 시각적 생성과 통합 학습을 위한 AR/VAR 모델의 탐구를 촉진하기 위해 모든 모델과 코드를 공개했습니다.
알고리즘적 추론은 문제 뒤에 숨은 복잡한 패턴을 이해하고 이를 해결을 위한 일련의 추론 단계로 분해하는 능력을 의미합니다. 이러한 알고리즘적 추론의 특성은 대규모 언어 모델(LLM)에게는 도전적인 과제로 남아 있습니다. 비록 LLM이 다른 추론 과제에서 유망한 성능을 보여주었지만 말입니다. 이러한 맥락에서, 최근 일부 연구에서는 프로그래밍 언어(예: Python)를 사용하여 주어진 문제/질문을 해결하기 위한 필요한 논리를 표현하는 방법(예: Program-of-Thought)을 시도하고 있습니다. 이는 프로그래밍 언어의 엄격하고 정확한 문법에서 영감을 받은 것입니다. 그러나 단일 추론 호출 내에서 즉석에서 올바른 논리를 표현하는 실행 가능한 코드를 작성하는 것은 간단한 일이 아닙니다. 또한, 특정 문제를 위해 생성된 코드는 동일한 작업에서 나온 다른 문제에 재사용할 수 없으며, 동일한 논리가 필요할지라도 마찬가지입니다. 본 논문은 언어 모델의 추론 과정을 두 단계로 분해하는 새로운 프레임워크인 Think-and-Execute를 제안합니다. (1) Think 단계에서는 주어진 작업을 해결하기 위해 모든 문제에서 공유되는 작업 수준의 논리를 발견하고, 이를 의사코드로 표현합니다. (2) Execute 단계에서는 생성된 의사코드를 각 문제에 맞게 추가로 조정하고 코드의 실행을 시뮬레이션합니다. 7가지 알고리즘적 추론 과제에 대한 광범위한 실험을 통해 Think-and-Execute의 효과를 입증했습니다. 우리의 접근 방식은 문제별 추론을 수행하는 여러 강력한 베이스라인(예: CoT 및 PoT)과 비교하여 언어 모델의 추론을 더욱 개선하며, 작업 수준의 논리를 발견하는 것이 도움이 됨을 시사합니다. 또한, 자연어와 비교했을 때 의사코드가 언어 모델의 추론을 더 잘 안내할 수 있음을 보여줍니다. 비록 언어 모델이 자연어 지시를 따르도록 훈련되었음에도 불구하고 말입니다.
대규모 언어 모델(LLM)은 인간 언어를 탁월하게 습득했지만, 수학적 문제 해결이 필요한 실제 응용 분야에서는 여전히 어려움을 겪고 있습니다. LLM의 수학 능력을 향상시키기 위한 다양한 전략과 데이터셋이 개발되었지만, 배포된 LLM 시스템에서 언어 능력과 수학 능력을 동시에 유지하고 개선하는 것은 여전히 과제로 남아 있습니다. 본 연구에서는 LLM 정렬 과정의 피드백 학습 단계에서 이러한 과제를 해결하기 위해 Self-Critique 파이프라인을 맞춤화했습니다. 먼저, LLM 자체에서 일반적인 Math-Critique 모델을 학습시켜 피드백 신호를 제공합니다. 그런 다음, LLM의 자체 생성물에 대해 거부적 미세 조정(rejective fine-tuning)과 직접 선호 최적화(direct preference optimization)를 순차적으로 적용하여 데이터를 수집합니다. ChatGLM3-32B를 기반으로 학술 데이터셋과 새롭게 생성한 도전적인 데이터셋인 MathUserEval에서 일련의 실험을 수행했습니다. 결과는 우리의 파이프라인이 LLM의 수학적 문제 해결 능력을 크게 향상시키면서도 언어 능력을 개선하며, 크기가 두 배나 큰 LLM을 능가함을 보여줍니다. 관련 기술은 온라인 서비스 LLM인 ChatGLM\url{https://chatglm.cn}에 배포되었습니다. 관련 평가 데이터셋과 스크립트는 https://github.com/THUDM/ChatGLM-Math에서 공개되었습니다.
조정이 필요 없는 확산 기반 모델들은 이미지 개인화 및 맞춤화 분야에서 상당한 잠재력을 보여주고 있습니다. 그러나 이러한 주목할 만한 진전에도 불구하고, 현재의 모델들은 스타일 일관성을 갖춘 이미지 생성에 있어 여러 복잡한 문제들을 여전히 해결해야 하는 상황입니다. 첫째, 스타일이라는 개념은 본질적으로 불완전하게 정의되어 있으며, 색상, 재질, 분위기, 디자인, 구조 등 다양한 요소를 포함합니다. 둘째, 역변환 기반 방법들은 스타일 저하에 취약하여 미세한 디테일의 손실을 초래하는 경우가 많습니다. 마지막으로, 어댑터 기반 접근법들은 스타일 강도와 텍스트 제어 가능성 사이의 균형을 맞추기 위해 각 참조 이미지에 대해 세심한 가중치 조정을 요구하는 경우가 많습니다. 본 논문에서는 먼저 주목할 만하지만 자주 간과되는 몇 가지 관찰 사항들을 검토합니다. 그런 다음 이러한 문제들을 해결하기 위해 두 가지 주요 전략을 구현한 InstantStyle 프레임워크를 소개합니다: 1) 동일한 공간 내의 특징들이 서로 더하거나 뺄 수 있다는 가정 하에, 참조 이미지에서 스타일과 콘텐츠를 특징 공간에서 분리하는 간단한 메커니즘. 2) 참조 이미지의 특징들을 스타일 특화 블록에만 주입함으로써 스타일 누출을 방지하고, 더 많은 매개변수를 사용하는 설계에서 흔히 나타나는 번거로운 가중치 조정을 피하는 방식. 우리의 작업은 스타일 강도와 텍스트 요소의 제어 가능성 사이의 최적의 균형을 이루며 우수한 시각적 스타일화 결과를 보여줍니다. 우리의 코드는 https://github.com/InstantStyle/InstantStyle에서 확인할 수 있습니다.
모델과 데이터 크기를 확장하는 것은 대형 언어 모델(LLM)의 진화에 있어 상당히 성공적이었습니다. 그러나 확산 기반 텍스트-이미지(T2I) 모델의 스케일링 법칙은 아직 충분히 탐구되지 않았습니다. 또한, 비용을 줄이면서 성능을 개선하기 위해 모델을 효율적으로 확장하는 방법도 명확하지 않습니다. 서로 다른 학습 설정과 높은 학습 비용으로 인해 공정한 모델 비교가 매우 어렵습니다. 본 연구에서는 확산 기반 T2I 모델의 스케일링 특성을 실증적으로 연구하기 위해, 노이즈 제거 백본과 학습 데이터셋의 확장에 대해 광범위하고 엄격한 실험을 수행했습니다. 여기에는 0.4B에서 4B 파라미터 범위의 스케일링된 UNet 및 Transformer 변형을 최대 600M 이미지 데이터셋에서 학습하는 것이 포함됩니다. 모델 스케일링 측면에서, 크로스 어텐션의 위치와 양이 기존 UNet 설계의 성능을 구분짓는 요소임을 발견했습니다. 또한, 채널 수를 늘리는 것보다 트랜스포머 블록을 늘리는 것이 텍스트-이미지 정렬 성능을 개선하는 데 더 파라미터 효율적임을 확인했습니다. 이를 통해 SDXL의 UNet보다 45% 더 작고 28% 더 빠른 효율적인 UNet 변형을 식별했습니다. 데이터 스케일링 측면에서는, 단순히 데이터셋 크기보다 학습 데이터셋의 품질과 다양성이 더 중요함을 보여주었습니다. 캡션 밀도와 다양성을 높이는 것이 텍스트-이미지 정렬 성능과 학습 효율성을 개선합니다. 마지막으로, 모델 크기, 컴퓨팅 자원, 데이터셋 크기의 스케일을 함수로 하여 텍스트-이미지 정렬 성능을 예측할 수 있는 스케일링 함수를 제공합니다.
본 연구는 텍스트 조건부 확산 모델에서 추론 과정 중 교차 주의(cross-attention)의 역할을 탐구합니다. 우리는 교차 주의 출력이 몇 번의 추론 단계 후에 고정점으로 수렴한다는 것을 발견했습니다. 이에 따라, 수렴 시점은 전체 추론 과정을 자연스럽게 두 단계로 나눕니다: 첫 번째는 초기 의미 계획 단계로, 모델이 교차 주의를 활용하여 텍스트 지향적인 시각적 의미를 계획하고, 두 번째는 충실도 향상 단계로, 모델이 이전에 계획된 의미로부터 이미지를 생성하려고 시도합니다. 흥미롭게도, 충실도 향상 단계에서 텍스트 조건을 무시하는 것은 계산 복잡성을 줄일 뿐만 아니라 모델 성능도 유지합니다. 이는 TGATE라는 간단하고 학습이 필요 없는 효율적 생성 방법을 제안하며, 이 방법은 교차 주의 출력이 수렴하면 이를 캐시하고 나머지 추론 단계 동안 고정된 상태로 유지합니다. MS-COCO 검증 세트에 대한 실험 연구는 이 방법의 효과를 확인합니다. TGATE의 소스 코드는 https://github.com/HaozheLiu-ST/T-GATE에서 확인할 수 있습니다.
본 논문은 주파수 분해를 통해 고품질의 전이 가능한 NeRF 편집을 가능하게 합니다. 최근의 NeRF 편색 파이프라인은 2D 스타일화 결과를 3D 장면으로 전환하지만, 흐릿한 결과를 초래하며 2D 편집 간의 불일치로 인해 세부 구조를 제대로 포착하지 못하는 문제가 있습니다. 우리의 핵심 통찰은 편집 후 이미지의 저주파수 성분이 고주파수 부분에 비해 다중 뷰 일관성이 더 높다는 점입니다. 또한, 외관 스타일은 주로 저주파수 성분에 나타나며, 콘텐츠의 세부 사항은 특히 고주파수 부분에 존재합니다. 이는 저주파수 성분에 편집을 수행하여 고품질의 편집된 장면을 얻는 동기를 제공합니다. 또한, 편집은 저주파수 특징 공간에서 수행되어 안정적인 강도 제어와 새로운 장면 전이가 가능합니다. 사실적인 데이터셋에서 수행된 포괄적인 실험은 고품질 및 전이 가능한 NeRF 편색의 우수한 성능을 입증합니다. 프로젝트 페이지는 https://aigc3d.github.io/freditor에서 확인할 수 있습니다.