번역이 포함된 일일 선별된 AI 연구 논문
텍스트-이미지 모델 개인화는 사용자가 제공한 개념을 모델에 도입하여 다양한 맥락에서 이를 합성할 수 있도록 하는 것을 목표로 합니다. 그러나 현재의 방법들은 주로 배경과 자세가 다양한 여러 이미지에서 단일 개념을 학습하는 경우에 초점을 맞추고 있으며, 다른 시나리오에 적용할 때 어려움을 겪습니다. 본 연구에서는 텍스트 기반 장면 분해 작업을 소개합니다: 여러 개념을 포함할 수 있는 단일 장면 이미지가 주어졌을 때, 각 개념에 대해 별도의 텍스트 토큰을 추출하여 생성된 장면에 대한 세밀한 제어를 가능하게 하는 것입니다. 이를 위해, 우리는 대상 개념의 존재를 나타내는 마스크를 입력 이미지에 추가하는 방법을 제안합니다. 이러한 마스크는 사용자가 제공하거나 사전 훈련된 세그멘테이션 모델에 의해 자동으로 생성될 수 있습니다. 그런 다음, 전용 텍스트 임베딩(핸들)과 모델 가중치를 최적화하는 새로운 두 단계의 맞춤화 과정을 제시하여 개념을 정확하게 포착하면서도 과적합을 방지하는 미묘한 균형을 유지합니다. 마스크된 확산 손실을 사용하여 핸들이 할당된 개념을 생성할 수 있도록 하고, 새로운 교차 주의 맵 손실을 추가하여 개념 간의 얽힘을 방지합니다. 또한, 생성된 이미지에서 여러 개념을 결합하는 능력을 향상시키기 위한 훈련 전략인 유니온 샘플링을 도입합니다. 우리는 여러 자동화된 지표를 사용하여 제안 방법을 여러 기준선과 정량적으로 비교하고, 사용자 연구를 통해 결과를 추가로 확인합니다. 마지막으로, 우리는 이 방법의 여러 응용 사례를 보여줍니다. 프로젝트 페이지는 https://omriavrahami.com/break-a-scene/에서 확인할 수 있습니다.
Transformer 아키텍처는 여러 연구 분야에서 인상적인 성능을 보여주며 많은 신경망 모델의 핵심이 되었습니다. 그러나 그 작동 방식에 대한 이해는 여전히 제한적입니다. 특히, 단순한 예측 손실 함수를 사용할 때, 그레이디언트 훈련 역학을 통해 어떻게 표현이 형성되는지는 여전히 미스터리로 남아 있습니다. 본 논문에서는 하나의 self-attention 층과 하나의 디코더 층으로 구성된 1층 Transformer를 대상으로, 다음 토큰 예측 작업에 대한 SGD 훈련 역학을 수학적으로 엄밀하게 분석합니다. 우리는 self-attention 층이 입력 토큰을 결합하는 동적 과정의 블랙박스를 열고, 내재된 귀납적 편향의 본질을 밝힙니다. 더 구체적으로, (a) 위치 인코딩이 없고, (b) 입력 시퀀스가 길며, (c) 디코더 층이 self-attention 층보다 빠르게 학습한다는 가정 하에, self-attention이 차별적 스캐닝 알고리즘으로 작동함을 증명합니다: 균일한 주의에서 시작하여, 특정 다음 토큰을 예측하기 위해 점차적으로 구별되는 키 토큰에 더 주의를 기울이고, 다양한 다음 토큰에서 공통적으로 나타나는 키 토큰에는 덜 주의를 기울입니다. 구별되는 토큰들 중에서는, 키와 쿼리 토큰 간의 훈련 데이터셋에서의 공현 빈도가 낮은 순서부터 높은 순서로 점진적으로 주의 가중치를 감소시킵니다. 흥미롭게도, 이 과정은 승자독식으로 이어지지 않고, 두 층의 학습률에 의해 제어 가능한 위상 전환으로 인해 감속되며, (거의) 고정된 토큰 조합을 남깁니다. 우리는 이러한 \emph{스캔 및 스냅} 역학을 합성 데이터와 실제 데이터(WikiText)에서 검증합니다.
최근 연구는 외부 도구의 활용을 통해 대형 언어 모델(LLM)의 문제 해결 능력을 향상시킬 가능성을 보여주고 있다. 그러나 이와 관련된 기존 연구는 기존 도구의 가용성에 의존해 왔다. 본 연구에서는 이러한 의존성을 제거하기 위한 초기 단계로, LLM이 문제 해결을 위해 재사용 가능한 도구를 생성하는 폐쇄형 프레임워크인 LLMs As Tool Makers(LATM)를 제안한다. 우리의 접근 방식은 두 가지 주요 단계로 구성된다: 1) 도구 제작: LLM이 주어진 작업을 위해 도구를 제작하는 도구 제작자 역할을 하며, 이때 도구는 Python 유틸리티 함수로 구현된다. 2) 도구 사용: LLM이 도구 사용자 역할을 하며, 도구 제작자가 구축한 도구를 문제 해결에 적용한다. 도구 사용자는 도구 제작자와 동일한 LLM일 수도 있고 다른 LLM일 수도 있다. 도구 제작은 LLM이 다양한 요청에 적용할 수 있는 도구를 지속적으로 생성할 수 있게 하여, 향후 요청이 작업 해결에 유리할 때 해당 API를 호출할 수 있도록 한다. 또한, 도구 제작과 도구 사용 단계에서 LLM 간의 분업은 생성된 도구와 문제 해결의 품질을 저하시키지 않으면서 비용 효율성을 달성할 수 있는 기회를 제공한다. 예를 들어, 도구 제작이 도구 사용보다 더 정교한 능력을 요구한다는 점을 인식하여, 강력하지만 자원 집약적인 모델을 도구 제작자로, 가볍고 비용 효율적인 모델을 도구 사용자로 적용할 수 있다. 우리는 Big-Bench 작업을 포함한 다양한 복잡한 추론 작업에서 우리의 접근 방식의 효과를 검증한다. GPT-4를 도구 제작자로, GPT-3.5를 도구 사용자로 사용할 때, LATM은 도구 제작과 도구 사용 모두에 GPT-4를 사용하는 것과 동등한 성능을 달성할 수 있으며, 추론 비용은 크게 감소한다.
본 논문에서는 텍스트 기반 비디오 편집을 위한 새로운 방법론인 ControlVideo를 소개한다. ControlVideo는 텍스트-이미지 확산 모델과 ControlNet의 기능을 활용하여, 주어진 텍스트와 일치하는 비디오의 충실도와 시간적 일관성을 향상시키면서 원본 비디오의 구조를 보존하는 것을 목표로 한다. 이를 위해 에지 맵과 같은 추가 조건을 통합하고, 원본 비디오-텍스트 쌍에 대해 키 프레임 및 시간적 주의 메커니즘을 세심하게 설계된 전략으로 미세 조정한다. ControlVideo의 설계에 대한 심층적인 탐구를 통해 원샷 튜닝 비디오 확산 모델에 대한 향후 연구에 기여한다. 정량적으로, ControlVideo는 충실도와 일관성 측면에서 다양한 경쟁 기법들을 능가하면서도 텍스트 프롬프트와의 일치성을 유지한다. 또한, 원본 콘텐츠에 대한 높은 시각적 현실감과 충실도를 제공하며, 다양한 수준의 원본 비디오 정보를 포함하는 컨트롤 활용의 유연성과 다중 컨트롤 조합의 잠재력을 입증한다. 프로젝트 페이지는 https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}에서 확인할 수 있다.
민스키의 "마음의 사회"와 슈미드후버의 "생각하는 법 배우기"는 다양한 대규모 다중모드 신경망(NN) 사회를 고무시켰으며, 이러한 신경망들은 "마인드스톰" 속에서 서로 인터뷰하며 문제를 해결합니다. 최근 구현된 NN 기반 마음의 사회는 대형 언어 모델(LLM)과 다른 NN 기반 전문가들이 자연어 인터페이스를 통해 소통하는 형태로 구성됩니다. 이를 통해 단일 LLM의 한계를 극복하고, 다중모드 제로샷 추론을 개선합니다. 이러한 자연어 기반 마음의 사회(NLSOM)에서는 새로운 에이전트들이 동일한 보편적 상징 언어를 통해 소통하며 모듈 방식으로 쉽게 추가될 수 있습니다. NLSOM의 힘을 입증하기 위해, 우리는 최대 129명의 멤버로 구성된 여러 NLSOM을 조립하고 실험하며, 마인드스톰을 활용하여 시각적 질문 응답, 이미지 캡션 생성, 텍스트-이미지 합성, 3D 생성, 자기 중심적 검색, 구체화된 AI, 그리고 일반 언어 기반 작업 해결과 같은 실용적인 AI 작업을 해결합니다. 우리는 이를 수십억 개의 에이전트(일부는 인간일 수도 있음)로 구성된 훨씬 더 큰 NLSOM으로 나아가는 출발점으로 봅니다. 그리고 이러한 이질적인 마음들로 구성된 거대한 사회의 출현과 함께, 인공지능의 미래에 있어 많은 새로운 연구 질문들이 갑자기 중요해졌습니다. NLSOM의 사회 구조는 어떻게 되어야 할까요? 민주적 구조보다 군주적 구조를 갖는 것이 (불)리한 점은 무엇일까요? 강화 학습 NLSOM의 총 보상을 극대화하기 위해 NN 경제학의 원칙을 어떻게 활용할 수 있을까요? 이 연구에서 우리는 이러한 질문들을 식별하고 논의하며, 일부에 대한 답을 시도합니다.
AI 시스템의 사회적 정렬(social alignment)은 이러한 모델이 확립된 사회적 가치에 따라 행동하도록 보장하는 것을 목표로 합니다. 그러나 사회적 상호작용을 통해 가치 판단에 대한 합의를 도출하는 인간과 달리, 현재의 언어 모델(LMs)은 고립된 상태에서 훈련 코퍼스를 경직적으로 복제하도록 학습되어, 익숙하지 않은 시나리오에서의 일반화 능력이 떨어지고 적대적 공격에 취약합니다. 본 연구는 언어 모델이 시뮬레이션된 사회적 상호작용으로부터 학습할 수 있는 새로운 훈련 패러다임을 제시합니다. 기존 방법론과 비교하여, 우리의 접근 방식은 훨씬 더 확장 가능하고 효율적이며, 정렬 벤치마크와 인간 평가에서 우수한 성능을 보여줍니다. 언어 모델 훈련의 이러한 패러다임 전환은 사회적 규범과 가치를 견고하고 정확하게 반영할 수 있는 AI 시스템 개발에 한 걸음 더 가까이 다가가는 계기가 될 것입니다.
인간 피드백을 통해 학습하는 것이 텍스트-이미지 모델을 개선하는 데 효과적임이 입증되었다. 이러한 기술은 먼저 인간이 해당 작업에서 중요하게 여기는 요소를 포착하는 보상 함수를 학습한 다음, 학습된 보상 함수를 기반으로 모델을 개선한다. 비교적 단순한 접근법(예: 보상 점수 기반의 거절 샘플링)이 연구되었음에도 불구하고, 보상 함수를 사용하여 텍스트-이미지 모델을 미세 조정하는 것은 여전히 어려운 과제로 남아 있다. 본 연구에서는 온라인 강화 학습(RL)을 활용하여 텍스트-이미지 모델을 미세 조정하는 방법을 제안한다. 우리는 확산 모델에 초점을 맞추어 미세 조정 작업을 RL 문제로 정의하고, 사전 학습된 텍스트-이미지 확산 모델을 피드백으로 학습된 보상을 최대화하기 위해 정책 경사법을 사용하여 업데이트한다. 우리의 접근법인 DPOK는 정책 최적화와 KL 정규화를 통합한다. 우리는 RL 미세 조정과 지도 미세 조정 모두에 대해 KL 정규화를 분석한다. 실험 결과, DPOK는 이미지-텍스트 정렬 및 이미지 품질 측면에서 지도 미세 조정보다 일반적으로 우수함을 보여준다.
대화 에이전트의 성능이 점점 더 인간처럼 변해감에 따라, 우리는 인간 중심적 사고의 함정에 빠지지 않으면서도 그들의 행동을 높은 수준의 용어로 효과적으로 설명할 방법을 개발해야 합니다. 본 논문에서는 역할극(role-play) 개념을 전면에 내세웁니다. 대화 에이전트의 행동을 역할극의 관점에서 바라보면, 언어 모델이 실제로는 갖고 있지 않은 인간적 특성을 부여하지 않으면서도 친숙한 민속심리학적 용어를 사용할 수 있습니다. 이러한 접근법을 통해 대화 에이전트 행동의 두 가지 중요한 사례, 즉 (겉보기에) 속이는 행동과 (겉보기에) 자기인식을 다룹니다.
우리는 대형 언어 모델에 시각 및 청각 명령 수행 능력을 부여하는 PandaGPT 접근법을 소개합니다. 파일럿 실험 결과, PandaGPT는 상세한 이미지 설명 생성, 영상에서 영감을 받은 이야기 작성, 오디오에 대한 질문 답변 등 복잡한 작업을 수행할 수 있음을 보여줍니다. 더 흥미로운 점은 PandaGPT가 다중 모달 입력을 동시에 받아들이고 그 의미를 자연스럽게 조합할 수 있다는 것입니다. 예를 들어, PandaGPT는 이미지/영상에서 객체가 어떻게 보이는지와 오디오에서 어떻게 들리는지를 연결할 수 있습니다. 이를 위해 PandaGPT는 ImageBind의 다중 모달 인코더와 Vicuna의 대형 언어 모델을 결합합니다. 특히, PandaGPT의 학습에는 정렬된 이미지-텍스트 쌍만 필요합니다. ImageBind가 다양한 모달리티의 데이터를 동일한 공간에 임베딩하는 강력한 능력 덕분에, PandaGPT는 이미지와 텍스트 외의 데이터(예: 비디오, 오디오, 깊이, 열화상, IMU)에 대해 제로샷 교차 모달 행동을 보여줍니다. 우리는 PandaGPT가 인간처럼 다양한 모달리티의 입력을 전체적으로 인지하고 이해할 수 있는 AGI를 구축하기 위한 초기 단계로 역할하기를 바랍니다. 프로젝트 페이지는 https://panda-gpt.github.io/에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 기반 의사결정 에이전트는 여러 작업에 걸쳐 일반화할 수 있는 능력을 보여주고 있습니다. 그러나 그들의 성능은 방대한 데이터와 컴퓨팅 자원에 의존합니다. 우리는 이러한 비효율성이 모델이 훈련 과정에서 매개변수에 자신의 행동을 암기하는 망각 현상에서 비롯된다고 주장합니다. 결과적으로 새로운 작업에 대한 훈련은 이전 작업에서의 모델 성능을 저하시킬 수 있습니다. LLM의 암묵적 메모리 메커니즘과 대조적으로, 인간의 뇌는 분산된 메모리 저장 방식을 활용하여 여러 기술을 효율적으로 관리하고 조직화함으로써 망각 현상을 완화합니다. 이러한 영감을 받아, 우리는 다양한 하위 작업을 위해 정보를 저장, 혼합 및 검색할 수 있는 내부 작업 메모리 모듈을 제안합니다. 평가 결과, 제안된 방법은 Atari 게임과 메타-월드 객체 조작 작업 모두에서 훈련 효율성과 일반화 능력을 향상시키는 것으로 나타났습니다. 또한, 메모리 미세 조정이 제안된 아키텍처의 적응성을 더욱 향상시킨다는 것을 입증합니다.
우리는 사전 학습된 이미지 분류기를 통합하여 시각-언어 모델의 대조 학습(contrastive learning)을 개선할 수 있는 유연한 방법인 Three Towers(3T)를 소개한다. 대조 모델은 일반적으로 처음부터 학습되지만, LiT(Zhai et al., 2022)는 최근 사전 학습된 분류기 임베딩을 사용하여 성능 향상을 보여주었다. 그러나 LiT는 이미지 타워를 고정된 임베딩으로 직접 대체함으로써 이미지 타워의 대조 학습으로부터 얻을 수 있는 잠재적 이점을 배제한다. 3T에서는 이미지 타워가 사전 학습된 임베딩과 대조 학습 모두로부터 이점을 얻을 수 있도록 더 유연한 전략을 제안한다. 이를 위해, 고정된 사전 학습 임베딩을 포함하는 세 번째 타워를 도입하고, 이 세 번째 타워와 주요 이미지-텍스트 타워 간의 정렬을 촉진한다. 실험적으로, 3T는 검색 작업에서 LiT와 CLIP 스타일의 처음부터 학습된 베이스라인을 지속적으로 개선한다. 분류 작업에서는 3T가 처음부터 학습된 베이스라인보다 안정적으로 성능을 향상시키며, JFT 사전 학습 모델에서는 LiT에 비해 성능이 낮지만, ImageNet-21k와 Places365 사전 학습에서는 LiT를 능가한다.
자기회귀 언어 모델은 데이터 분포 P에 대한 모델 분포 Q의 교차 엔트로피를 최소화함으로써 학습됩니다. 즉, 순방향 교차 엔트로피를 최소화하는 것으로, 이는 최대 가능도 추정(MLE)과 동일합니다. 우리는 이러한 방식으로 학습된 모델이 "과도하게 일반화"되어 비인간적인 텍스트를 생성할 수 있다는 것을 관찰했습니다. 더욱이, 우리는 역방향 교차 엔트로피, 즉 Q에 대한 P의 교차 엔트로피가 인간이 모델이 생성한 텍스트를 평가하는 방식에 더 잘 부합한다고 믿습니다. 따라서 우리는 순방향과 역방향 교차 엔트로피를 혼합한 목적 함수인 MixCE를 사용한 학습을 제안합니다. 우리는 이 목적 함수로 학습된 모델을 합성 데이터 설정(P가 알려진 경우)과 실제 데이터에서 평가하고, 복잡한 디코딩 전략 없이도 더 나은 텍스트를 생성하는 모델을 보여줍니다. 우리의 코드와 모델은 https://github.com/bloomberg/mixce-acl2023에서 공개되어 있습니다.
대형 언어 모델(LLMs)은 사회를 변화시키고 다양한 응용 분야로 확산되고 있다. 결과적으로, LLMs는 우리와 다른 에이전트들과 빈번하게 상호작용할 것이다. 따라서, LLMs가 상호작용적인 사회적 환경에서 어떻게 행동하는지 이해하는 것은 큰 사회적 가치를 지닌다. 본 연구에서는 행동 게임 이론을 사용하여 LLMs의 협력 및 조정 행동을 연구하고자 한다. 이를 위해, 서로 다른 LLMs(GPT-3, GPT-3.5, GPT-4)가 서로 그리고 인간과 유사한 전략과 유한 반복 게임을 하도록 했다. 연구 결과, LLMs는 일반적으로 이러한 과제에서 잘 수행하며, 지속적인 행동 특성을 보여준다. 두 명의 플레이어와 두 가지 전략으로 구성된 다양한 게임에서, LLMs는 자신의 이익을 중시하는 게임, 예를 들어 반복 죄수의 딜레마 계열에서 특히 뛰어난 성과를 보였다. 그러나 조정이 필요한 게임에서는 최적의 행동을 보이지 못했다. 따라서, 우리는 이러한 서로 다른 계열의 게임 중 두 가지에 초점을 맞추었다. 전형적인 반복 죄수의 딜레마에서, GPT-4는 특히 용서하지 않는 행동을 보였으며, 다른 에이전트가 단 한 번만 배신하더라도 항상 배신했다. 성의 전투 게임에서는, GPT-4가 옵션 간에 번갈아 선택하는 단순한 관례를 따르지 못했다. 이러한 행동 특성은 견고성 검사를 통해 안정적임을 확인했다. 마지막으로, GPT-4의 행동을 수정할 수 있는 방법을 보여주었다. 다른 플레이어에 대한 추가 정보를 제공하거나, 선택하기 전에 다른 플레이어의 행동을 예측하도록 요청함으로써 행동을 변경할 수 있었다. 이러한 결과는 LLMs의 사회적 행동에 대한 이해를 풍부하게 하고, 기계를 위한 행동 게임 이론의 길을 열어준다.
고정된 컨텍스트 길이를 가진 작업에서 트랜스포머는 인상적인 일반화 능력을 보여줍니다. 그러나 임의 길이의 시퀀스로 일반화하는 데는 실패하며, 이는 문자열 복사와 같이 겉보기에 단순한 작업에서도 마찬가지입니다. 더욱이, 긴 시퀀스에 대해 단순히 학습하는 것은 전역 어텐션 메커니즘의 이차 계산 복잡성으로 인해 비효율적입니다. 본 연구에서는 이러한 실패 모드가 더 긴 시퀀스에 대해 위치 인코딩이 분포를 벗어나는 것(심지어 상대적 인코딩에서도)과 관련이 있음을 보여주고, 이 문제를 해결할 수 있는 새로운 위치 인코딩 패밀리를 소개합니다. 구체적으로, 우리의 무작위 위치 인코딩 기법은 더 긴 시퀀스의 위치를 시뮬레이션하고 순서가 있는 부분 집합을 무작위로 선택하여 시퀀스의 길이에 맞춥니다. 15가지 알고리즘 추론 작업에 걸쳐 6000개의 모델을 대상으로 한 대규모 실험 평가 결과, 우리의 방법이 트랜스포머가 보지 못한 길이의 시퀀스로 일반화할 수 있도록 해주며(평균 테스트 정확도가 12.0% 증가함) 이를 입증했습니다.
토큰 임베딩은 이산적인 어휘 기호를 연속적인 벡터로 매핑하는 것으로, 모든 언어 모델(LM)의 핵심을 이루고 있다. 그러나 어휘 기호의 의미는 긴 문맥에서의 구조적 역할에 의해 결정되거나 심지어 재정의될 수도 있다. 본 논문에서는 고정된 토큰 임베딩 없이도 언어 모델이 성능을 발휘할 수 있는지에 대해 질문한다. 이러한 언어 모델은 토큰의 사전적 정체성보다는 문맥 내 토큰의 동시 발생과 반복에 전적으로 의존해야 한다. 이를 답하기 위해, 어휘 기호에 불변하며 따라서 실제로 고정된 토큰 임베딩이 필요 없는 어휘 불변 언어 모델(lexinvariant language model)을 연구한다. 첫째, 문맥 길이에 대해 다항식적이고 어휘 크기에 대해 준선형인 상수 계수를 가지며, 균일한 속도로 진정한 언어 모델에 수렴하는 어휘 불변 언어 모델을 구성할 수 있음을 증명한다. 둘째, 어휘 불변 언어 모델을 구축하기 위해, 각 토큰을 무작위 가우시안 벡터로 인코딩하여 각 시퀀스 내에서는 동일한 표현을 가지지만 시퀀스 간에는 다른 표현을 가지도록 한다. 실험적으로, 충분히 긴 문맥이 주어졌을 때 표준 언어 모델과 비슷한 복잡도를 달성할 수 있음을 보인다. 또한, 어휘 불변 언어 모델의 두 가지 특성을 추가로 탐구한다: 첫째, 영어의 치환 암호로 생성된 텍스트가 주어졌을 때, 베이지안 문맥 내 해독을 암묵적으로 구현하고 기본 실제 토큰으로의 매핑을 높은 정확도로 추론한다. 둘째, 합성 문맥 추론 작업에서 평균 4배 더 나은 정확도를 보인다. 마지막으로, 표준 언어 모델을 어휘 불변성으로 정규화하는 것과 잠재적인 실제 응용에 대해 논의한다.
GPT-3와 같은 대형 언어 모델(LLMs)은 다양한 자연어 생성 또는 이해 작업을 처리할 수 있는 범용 언어 모델로 부상했습니다. 기계 번역(MT) 작업에 대해, 여러 연구에서는 LLMs로부터 더 나은 번역을 이끌어내기 위한 소수 샷 프롬프팅 메커니즘을 탐구해 왔습니다. 그러나 이러한 번역이 표준 신경망 기계 번역(NMT) 모델에서 생성된 번역과 질적으로 어떻게 다른지에 대한 연구는 상대적으로 적었습니다. 본 연구에서는 두 시스템이 생성한 번역의 직역적 특성 측면에서 이러한 차이를 조사합니다. 단어 정렬 및 단조성과 관련된 직역성 측정을 사용하여, GPT 모델의 영어에서 다른 언어로의 번역(E-X)이 덜 직역적인 경향이 있으면서도 MT 품질 지표에서는 유사하거나 더 나은 점수를 보인다는 것을 발견했습니다. 이러한 결과가 인간 평가에서도 확인된다는 것을 보여줍니다. 또한, 관용 표현이 포함된 문장을 번역할 때 이러한 차이가 특히 두드러진다는 것을 보여줍니다.
우리는 강력한 모델링 성능과 해석 가능성 및 제어를 위한 인터페이스를 결합한 새로운 신경망 아키텍처인 Backpacks를 소개한다. Backpacks는 어휘 사전 내 각 단어에 대해 여러 개의 비문맥적 의미 벡터를 학습하며, 시퀀스 내 단어를 해당 시퀀스의 의미 벡터들의 문맥 의존적이고 비음수인 선형 결합으로 표현한다. 학습 후, 의미 벡터들은 각각 단어의 다른 측면을 인코딩하도록 특화된다. 우리는 의미 벡터를 출력 공간에 대한 (비문맥적, 선형) 투영을 검토함으로써 해석할 수 있으며, 이러한 해석 가능한 후크에 개입하여 모델의 행동을 예측 가능한 방식으로 변경할 수 있다. 우리는 OpenWebText 데이터셋에서 1억 7천만 개의 파라미터를 가진 Backpack 언어 모델을 학습시켜, GPT-2 small(1억 2천4백만 파라미터) Transformer의 손실과 동등한 성능을 달성했다. 어휘 유사성 평가에서 Backpack 의미 벡터는 60억 파라미터 Transformer 언어 모델의 단어 임베딩보다도 우수한 성능을 보였다. 마지막으로, 의미 벡터에 개입하여 제어 가능한 텍스트 생성과 편향 제거를 수행하는 간단한 알고리즘을 제시한다. 예를 들어, 특정 주제로 더욱 기울어지도록 의미 사전을 편집하거나, 성별 편향의 원인을 특정 의미 벡터로 국한시켜 해당 의미를 전역적으로 억제할 수 있다.
컨텍스트 내 학습(in-context learning)은 모델이 가중치 업데이트 없이도 입력 예제를 즉석에서 학습할 수 있게 하는 능력으로, 대규모 언어 모델의 정의적 특성 중 하나이다. 본 연구에서는 (Garg et al., 2022)에서 제안된 설정을 따라 선형 회귀라는 단순하지만 근본적인 작업의 관점에서 컨텍스트 내 학습의 일반성과 한계를 더 깊이 이해하고자 한다. 우리가 다루고자 하는 핵심 질문은 다음과 같다: 다양한 분포 변화 하에서 트랜스포머가 자연스럽고 단순한 아키텍처보다 컨텍스트 내 학습을 더 잘 수행하는가? 이를 비교하기 위해, 우리는 집합 기반 다층 퍼셉트론(Multi-Layer Perceptrons, MLPs)을 기반으로 한 단순한 아키텍처를 제안한다. 연구 결과, 트랜스포머와 집합 기반 MLP 모두 분포 내 평가에서 컨텍스트 내 학습을 보여주었으나, 트랜스포머가 일반 최소 제곱법(ordinary least squares, OLS)의 성능을 더 가깝게 모방했다. 또한 트랜스포머는 약한 분포 변화에서 더 나은 회복력을 보였으며, 집합 기반 MLP는 이에 취약했다. 그러나 심각한 분포 변화에서는 두 모델의 컨텍스트 내 학습 능력 모두 감소했다.
일반적으로 가장 강력한 언어 모델(LM)은 대규모 스케일, 명령 데이터, 그리고 인간의 피드백을 결합하여 특수 작업(예: 요약 및 패러프레이징)을 감독 없이 수행하는 것으로 알려져 있습니다. 본 논문에서는 이러한 세 가지 요소 없이도 언어 모델이 문장을 요약하고 패러프레이징하는 방법을 학습할 수 있음을 제안합니다. 우리는 "불가능한 증류(Impossible Distillation)"라는 프레임워크를 제시하며, 이는 기성 언어 모델에서 직접 작업별 데이터셋을 증류하는 방법입니다. 이는 언어 모델 자체가 해당 작업을 안정적으로 해결할 수 없는 경우에도 가능합니다. 생성된 데이터셋을 통해 학생 모델을 훈련하고 자기 증류를 통해 그 능력을 증폭함으로써, 우리의 방법은 스케일이나 감독 없이도 저품질의 교사 모델로부터 고품질의 모델과 데이터셋을 얻을 수 있습니다. 불가능한 증류를 사용하여, 우리는 770M 파라미터만을 가진 모델을 증류할 수 있었으며, 이 모델은 자동 및 인간 평가를 통해 175B 파라미터의 GPT-3를 품질과 제어 가능성 모두에서 능가하는 것으로 확인되었습니다. 또한, 우리의 접근 방식의 유용한 부산물로, 3.4M 개의 문장 요약과 패러프레이즈로 구성된 고품질 데이터셋인 DIMSUM+를 얻었습니다. 우리의 분석에 따르면, 이 데이터셋은 순수하게 언어 모델에 의해 생성된 코퍼스로서, 4M 샘플을 포함한 Gigaword를 포함한 모든 인간이 작성한 데이터셋보다 더 다양하고 보이지 않는 도메인에 대한 일반화에 더 효과적입니다.
최근 텍스트-이미지 생성 기술의 발전으로 제로샷 3D 형태 생성에서 상당한 진전이 이루어졌다. 이는 사전 훈련된 텍스트-이미지 확산 모델을 사용하여 3D 신경 표현(예: Neural Radiance Field, NeRF)의 매개변수를 최적화하는 점수 증류 방법론을 통해 달성된다. 유망한 결과를 보여주고 있지만, 기존 방법들은 종종 인간 신체와 같은 복잡한 형태의 기하학적 구조를 보존하지 못하는 경우가 많다. 이러한 문제를 해결하기 위해, 본 연구에서는 최적화 과정에 명시적인 3D 인간 신체 사전 정보를 도입하는 ZeroAvatar 방법을 제안한다. 구체적으로, 단일 이미지에서 파라미터화된 인간 신체의 매개변수를 추정하고 정제한 후, 최적화 과정에서 포즈된 파라미터화된 신체를 추가적인 기하학적 제약 조건으로 사용하여 확산 모델과 기본 밀도 필드를 정규화한다. 마지막으로, UV 가이드 텍스처 정규화 항을 제안하여 보이지 않는 신체 부위의 텍스처 완성을 추가적으로 안내한다. ZeroAvatar는 최적화 기반 이미지-3D 아바타 생성의 견고성과 3D 일관성을 크게 향상시키며, 기존의 제로샷 이미지-3D 방법들을 능가하는 성능을 보여준다.
현재 대부분의 연구에서, 대규모 언어 모델(LLM)은 특정 프롬프트의 지도를 통해 사고의 연쇄를 생성함으로써 추론 작업을 수행할 수 있습니다. 그러나 복잡한 추론 문제를 해결하는 데 있어 그들의 능력과 인간의 능력 사이에는 여전히 상당한 차이가 존재합니다. 현재 대부분의 접근 방식은 사고의 연쇄(COT)와 도구 사용에 초점을 맞추고 있으며, 인간의 인지 프레임워크의 채택과 적용은 고려하지 않고 있습니다. 복잡한 추론 과제에 직면할 때, 인간은 일반적으로 다양한 인지 능력을 활용하며, 복잡한 작업을 완수하기 위해 도구, 지식, 외부 환경 정보 등 모든 측면과의 상호작용이 필요하다는 것은 잘 알려져 있습니다. 본 논문은 OlaGPT라고 명명된 새로운 지능형 프레임워크를 소개합니다. OlaGPT는 인지 아키텍처 프레임워크를 면밀히 연구하고, 인간 인지의 특정 측면을 시뮬레이션하는 것을 제안합니다. 이 프레임워크는 주의, 기억, 추론, 학습 및 이에 상응하는 스케줄링과 의사결정 메커니즘을 포함한 다양한 인지 모듈을 근사화하는 것을 포함합니다. 인간의 능동적 학습 메커니즘에서 영감을 받아, 이전의 실수와 전문가의 의견을 기록하고 이를 동적으로 참조하여 유사한 문제를 해결하는 능력을 강화하기 위한 학습 단위를 제안합니다. 또한, 본 논문은 인간의 문제 해결을 위한 일반적인 효과적인 추론 프레임워크를 개괄하고, 이에 따라 사고의 연쇄(COT) 템플릿을 설계합니다. 모델의 정확도를 극대화하기 위한 포괄적인 의사결정 메커니즘도 제안됩니다. OlaGPT의 효능은 여러 추론 데이터셋에서 엄격하게 평가되었으며, 실험 결과는 OlaGPT가 최첨단 벤치마크를 능가하는 우수한 성능을 보여줍니다. OlaGPT의 구현은 GitHub에서 확인할 수 있습니다: https://github.com/oladata-team/OlaGPT.