번역이 포함된 일일 선별된 AI 연구 논문
텍스트-이미지 생성 모델의 최근 발전은 시각적 창의성에 대한 광범위한 가능성을 열어주었습니다. 그러나 이러한 모델들은 스토리 시각화, 게임 개발 자산 디자인, 광고 등 다양한 실제 응용 분야에서 중요한 요소인 일관된 캐릭터 생성에 어려움을 겪고 있습니다. 현재의 방법들은 일반적으로 대상 캐릭터의 여러 사전 존재 이미지에 의존하거나, 수작업이 많이 필요한 과정을 포함합니다. 본 연구에서는 텍스트 프롬프트만을 입력으로 사용하여 일관된 캐릭터 생성을 위한 완전 자동화된 솔루션을 제안합니다. 우리는 각 단계에서 유사한 정체성을 공유하는 일관된 이미지 집합을 식별하고, 이 집합에서 더 일관된 정체성을 추출하는 반복적 절차를 소개합니다. 정량적 분석 결과, 우리의 방법은 기준 방법들에 비해 프롬프트 정렬과 정체성 일관성 사이에서 더 나은 균형을 이루는 것으로 나타났으며, 이러한 결과는 사용자 연구를 통해 더욱 강화되었습니다. 결론적으로, 우리는 이 접근법의 여러 실용적인 응용 사례를 보여줍니다. 프로젝트 페이지는 https://omriavrahami.com/the-chosen-one에서 확인할 수 있습니다.
텍스트-이미지 확산 모델은 텍스트 프롬프트를 일관된 이미지로 변환하는 데 있어 뛰어난 능력을 보여주었지만, 그 추론 과정의 계산 비용은 여전히 지속적인 과제로 남아 있습니다. 이 문제를 해결하기 위해, 우리는 초고속의 단일 단계 텍스트-이미지 합성을 위해 설계된 새로운 생성 모델인 UFOGen을 제안합니다. 기존의 확산 모델을 개선하기 위해 샘플러를 개선하거나 증류 기법을 사용하는 전통적인 접근 방식과 달리, UFOGen은 확산 모델과 GAN 목적 함수를 통합한 하이브리드 방법론을 채택합니다. 새롭게 도입된 확산-GAN 목적 함수와 사전 훈련된 확산 모델로의 초기화를 활용함으로써, UFOGen은 단일 단계에서 텍스트 설명에 기반한 고품질 이미지를 효율적으로 생성하는 데 탁월한 성능을 보입니다. 전통적인 텍스트-이미지 생성 외에도, UFOGen은 다양한 응용 분야에서의 유연성을 보여줍니다. 특히, UFOGen은 단일 단계 텍스트-이미지 생성과 다양한 다운스트림 작업을 가능하게 하는 선구적인 모델 중 하나로, 효율적인 생성 모델의 지형에서 중요한 진전을 이루어냈습니다. \blfootnote{*구글의 학생 연구원으로 수행한 작업이며, 단검 표시는 동등한 기여를 나타냅니다.}
사고의 연쇄(chain of thought)가 언어 모델의 추론 능력을 향상시키는 데 성공적이었음에도 불구하고, 그 근본적인 과정은 여전히 잘 이해되지 않고 있습니다. 논리적으로 타당한 추론이 사고의 연쇄에 본질적으로 중요해 보이지만, 놀랍게도 이전 연구들은 유효하지 않은 데모를 사용했을 때 미미한 영향만을 보여주었습니다. 더욱이, 기존의 사고의 연쇄는 언어 모델에게 어떤 실수를 피해야 하는지 알려주지 않아, 오히려 더 많은 오류를 초래할 가능성이 있습니다. 따라서 인간이 긍정적 및 부정적 예시로부터 학습할 수 있는 방식에서 영감을 받아, 우리는 언어 모델의 추론 능력을 강화하기 위해 대조적 사고의 연쇄(contrastive chain of thought)를 제안합니다. 기존의 사고의 연쇄와 비교하여, 우리의 접근 방식은 유효한 추론과 유효하지 않은 추론의 데모를 모두 제공하여 모델이 단계별로 추론하면서 추론 오류를 줄이도록 안내합니다. 일반화 능력을 향상시키기 위해, 우리는 대조적 데모를 자동으로 구성하는 방법을 도입했습니다. 추론 벤치마크에서의 실험 결과, 대조적 사고의 연쇄가 사고의 연쇄 프롬프팅의 일반적인 개선으로 기능할 수 있음을 보여줍니다.
신경 광도 필드(Neural Radiance Fields)는 새로운 시점 합성에서 전례 없는 품질을 달성하지만, 그 체적적 표현 방식은 여전히 비용이 많이 들어 고해상도 이미지를 렌더링하기 위해 엄청난 수의 샘플이 필요합니다. 체적 인코딩은 잎사귀나 머리카락과 같은 흐릿한 기하학적 구조를 표현하는 데 필수적이며, 확률적 최적화에 잘 적합합니다. 그러나 많은 장면은 결국 대부분 단단한 표면으로 구성되어 있으며, 이는 픽셀당 단일 샘플로도 정확하게 렌더링될 수 있습니다. 이러한 통찰을 바탕으로, 우리는 체적 기반 렌더링과 표면 기반 렌더링 사이를 부드럽게 전환하는 신경 광도 표현 방식을 제안하여 렌더링 속도를 크게 가속화하고 시각적 충실도까지 향상시킵니다. 우리의 방법은 신경 체적 표현을 공간적으로 경계짓는 명시적 메쉬 봉투를 구성합니다. 단단한 영역에서는 이 봉투가 거의 표면으로 수렴하며, 종종 단일 샘플로 렌더링될 수 있습니다. 이를 위해, 우리는 밀도의 확산을 인코딩하는 학습된 공간적으로 변화하는 커널 크기로 NeuS 표현을 일반화하여, 체적과 같은 영역에는 넓은 커널을, 표면과 같은 영역에는 좁은 커널을 적합시킵니다. 그런 다음, 커널 크기에 의해 결정된 표면 주변의 좁은 밴드 내에서 명시적 메쉬를 추출하고, 이 밴드 내에서 광도 필드를 미세 조정합니다. 추론 시에는 메쉬에 대해 광선을 투사하고, 포함된 영역 내에서만 광도 필드를 평가하여 필요한 샘플 수를 크게 줄입니다. 실험 결과, 우리의 접근 방식은 매우 높은 충실도로 효율적인 렌더링을 가능하게 합니다. 또한, 추출된 봉투가 애니메이션 및 시뮬레이션과 같은 하위 작업을 가능하게 한다는 것을 보여줍니다.
본 논문에서는 Low-rank adaptation(LoRA) 방법의 파라미터 효율성을 더욱 향상시키기 위해 가중치 공유(weight tying)와 선택적 학습(selective training)을 활용한 간단한 패러다임인 Tied-LoRA를 제안한다. 우리는 성능과 학습 가능한 파라미터 수 사이의 최적의 균형을 찾기 위해 가중치 공유와 결합된 모든 가능한 파라미터 학습/고정 조합을 조사하였다. 다양한 작업과 두 가지 기본 언어 모델을 포함한 실험을 통해, 우리는 효율성과 성능 간의 상충 관계를 분석하였다. 실험 결과, 표준 LoRA 방법이 사용하는 파라미터의 약 13%만을 사용하면서도 여러 작업에서 비슷한 성능을 보이는 특정 Tied-LoRA 구성이 두드러지게 나타났다.
대규모 언어 모델(LLM)은 코드 생성 벤치마크에서 유망한 성능을 보여주고 있습니다. 그러나 이러한 벤치마크 성과와 실제 적용 가능성 사이에는 상당한 격차가 존재하며, 이는 주로 현실 세계의 프로그래밍이 기존 라이브러리에 의존하기 때문입니다. 이 연구는 LLM이 처음부터 코드를 작성하는 능력을 평가하는 대신, 오픈소스 라이브러리를 활용하여 머신러닝 작업을 완료하는 새로운 평가 설정을 제안하는 것을 목표로 합니다. 이를 위해 우리는 ML-Bench라는 포괄적인 벤치마크를 제안합니다. 이 벤치마크는 오픈소스 라이브러리의 기존 함수를 활용하는 LLM의 효과를 평가하기 위해 개발되었으며, 14개의 주목할 만한 머신러닝 GitHub 저장소에 걸쳐 130개의 작업과 10044개의 샘플로 구성되어 있습니다. 이 설정에서는 특정 머신러닝 작업 지시사항과 코드베이스의 README 파일이 주어졌을 때, LLM이 해당 작업을 완료하기 위한 코드를 생성해야 합니다. 이는 길고 언어와 코드가 혼합된 문서를 이해하고, 복잡한 교차 파일 코드 구조를 이해하는 것을 필요로 하며, 새로운 도전 과제를 제시합니다. 특히 GPT-4는 다른 LLM에 비해 뛰어난 개선을 보이지만, 여전히 작업의 39.73%만 완료할 수 있어 개선의 여지가 큽니다. 우리는 이러한 도전 과제를 해결하기 위해 ML-Agent를 제안합니다. ML-Agent는 코드베이스를 효과적으로 탐색하고, 문서를 찾고, 코드를 검색하며, 실행 가능한 코드를 생성하도록 설계되었습니다. 실험 결과는 GPT-4를 기반으로 구축된 ML-Agent가 추가적인 개선을 가져온다는 것을 보여줍니다. 코드, 데이터 및 모델은 https://ml-bench.github.io/에서 확인할 수 있습니다.
벤치마크는 머신러닝 알고리즘 개발에 중요한 역할을 합니다. 예를 들어, 강화학습(RL) 연구는 사용 가능한 환경과 벤치마크에 크게 영향을 받아 왔습니다. 그러나 전통적으로 RL 환경은 CPU에서 실행되어 일반적인 학계의 컴퓨팅 자원으로는 확장성이 제한적이었습니다. 최근 JAX의 발전으로 이러한 계산적 한계를 극복하기 위한 하드웨어 가속의 활용이 확대되면서, 대규모 병렬 RL 훈련 파이프라인과 환경이 가능해졌습니다. 이는 특히 다중 에이전트 강화학습(MARL) 연구에 유용합니다. 첫째, 각 환경 단계에서 여러 에이전트를 고려해야 하므로 계산 부담이 증가하며, 둘째, 비정상성, 분산된 부분 관측 가능성 또는 기타 MARL 과제로 인해 샘플 복잡성이 증가합니다. 본 논문에서는 사용 편의성과 GPU 기반 효율성을 결합하고, 다양한 일반적인 MARL 환경과 인기 있는 베이스라인 알고리즘을 지원하는 첫 번째 오픈소스 코드베이스인 JaxMARL을 소개합니다. 실제 실행 시간을 고려할 때, 우리의 실험은 JAX 기반 훈련 파이프라인이 기존 접근 방식보다 최대 12500배 빠르다는 것을 보여줍니다. 이는 효율적이고 철저한 평가를 가능하게 하여, 해당 분야의 평가 위기를 완화할 잠재력을 가지고 있습니다. 또한, 우리는 인기 있는 StarCraft 다중 에이전트 도전 과제의 벡터화된 간소화 버전인 SMAX를 소개하고 벤치마크를 제공합니다. 이는 StarCraft II 게임 엔진을 실행할 필요를 없애 GPU 가속을 가능하게 할 뿐만 아니라, 더 유연한 MARL 환경을 제공하여 자기 대결, 메타러닝 및 기타 미래의 MARL 응용 프로그램의 잠재력을 열어줍니다. 코드는 https://github.com/flairox/jaxmarl에서 제공됩니다.
최근 주요 AI 연구소들이 모델을 오픈소스화하거나 접근을 제한하는 결정을 내리면서, 점점 더 강력해지는 AI 모델을 어떻게 공유해야 하는지에 대한 논쟁이 촉발되었습니다. AI에서의 오픈소스화는 일반적으로 모델 아키텍처와 가중치를 누구나 수정, 연구, 구축 및 사용할 수 있도록 자유롭게 공개하는 것을 의미합니다. 이는 외부 감독을 가능하게 하고, 진전을 가속화하며, AI 개발과 사용에 대한 통제를 분산시키는 등의 장점을 제공합니다. 그러나 동시에 오용과 의도하지 않은 결과를 초래할 가능성도 점점 커지고 있습니다. 본 논문은 매우 강력한 기초 모델(foundation model)을 오픈소스화할 때의 위험과 이점을 검토합니다. 오픈소스화가 역사적으로 대부분의 소프트웨어 및 AI 개발 과정에서 상당한 순이익을 제공해 왔지만, 가까운 미래에 개발될 가능성이 있는 일부 매우 강력한 기초 모델의 경우, 오픈소스화가 이점을 상쇄할 만큼 극단적인 위험을 초래할 수 있다고 주장합니다. 이러한 경우, 매우 강력한 기초 모델은 적어도 초기에는 오픈소스화되어서는 안 됩니다. 대안 전략으로, 비오픈소스 모델 공유 옵션 등이 탐구됩니다. 논문은 개발자, 표준 설정 기관, 정부가 안전하고 책임 있는 모델 공유 관행을 수립하고, 안전한 경우 오픈소스의 이점을 보존하기 위한 권장 사항으로 마무리됩니다.