번역이 포함된 일일 선별된 AI 연구 논문
텍스트-음악 생성 모델은 이제 다양한 스타일의 고품질 음악 오디오를 생성할 수 있습니다. 그러나 텍스트 제어는 주로 장르, 분위기, 템포와 같은 전반적인 음악 속성을 조작하는 데 적합하며, 시간에 따라 변하는 속성(예: 비트의 시간적 위치나 음악의 변화하는 다이내믹스)에 대한 정밀한 제어에는 덜 적합합니다. 우리는 Music ControlNet을 제안합니다. 이는 확산 기반 음악 생성 모델로, 생성된 오디오에 대해 여러 가지 정밀하고 시간에 따라 변하는 제어를 제공합니다. 텍스트-음악 모델에 시간에 따라 변하는 제어를 부여하기 위해, 우리는 이미지 도메인의 ControlNet 방법의 픽셀 단위 제어와 유사한 접근 방식을 제안합니다. 구체적으로, 우리는 훈련 오디오에서 제어 신호를 추출하여 짝지어진 데이터를 얻고, 멜로디, 다이내믹스, 리듬 제어가 주어진 오디오 스펙트로그램에 대해 확산 기반 조건부 생성 모델을 미세 조정합니다. 이미지 도메인의 Uni-ControlNet 방법은 이미 어떤 제어 신호의 부분 집합으로도 생성이 가능하지만, 우리는 창작자가 시간적으로 부분적으로만 지정된 제어 신호를 입력할 수 있도록 하는 새로운 전략을 고안했습니다. 우리는 오디오에서 추출한 제어 신호와 창작자가 제공할 것으로 예상되는 제어 신호 모두에 대해 평가를 수행하여, 두 설정 모두에서 제어 입력에 대응하는 현실적인 음악을 생성할 수 있음을 입증합니다. 비교 가능한 음악 생성 모델이 거의 없지만, 우리는 텍스트와 멜로디 입력을 받는 최신 모델인 MusicGen과 벤치마크를 수행했으며, 우리 모델이 입력 멜로디에 대해 49% 더 충실한 음악을 생성함을 보여줍니다. 이는 파라미터 수가 35배 적고, 훈련 데이터가 11배 적으며, 두 가지 추가적인 시간에 따라 변하는 제어를 가능하게 하는 조건에서 이루어졌습니다. 음악 예제는 https://MusicControlNet.github.io/web/에서 확인할 수 있습니다.
본 기술 보고서에서는 텍스트 설명만을 사용하여 온라인 방식으로 LLM 기반 캐릭터를 위한 의인화된 페르소나(시각적 외모, 성격, 어조 포함)를 생성하는 것을 목표로 합니다. 이를 위해 먼저 LLM의 컨텍스트 내 학습 능력을 활용하여 시스템 프롬프트 세트를 신중하게 설계함으로써 성격 생성을 수행합니다. 그런 다음 다양한 음성과 외모 생성을 위해 두 가지 새로운 개념인 '음성의 혼합(MoV)'과 '디퓨저의 혼합(MoD)'을 제안합니다. MoV의 경우, 텍스트-음성 변환(TTS) 알고리즘을 다양한 미리 정의된 어조와 함께 사용하고, 사용자가 제공한 텍스트 설명에 가장 잘 맞는 어조를 자동으로 선택합니다. MoD의 경우, 최근 인기 있는 텍스트-이미지 생성 기술과 토킹 헤드 알고리즘을 결합하여 말하는 객체 생성 프로세스를 간소화합니다. 우리는 이 전체 프레임워크를 'ChatAnything'이라고 명명했습니다. 이를 통해 사용자는 단 몇 가지 텍스트 입력만으로도 의인화된 페르소나를 가진 어떤 것이든 애니메이션화할 수 있습니다. 그러나 현재 생성 모델이 만든 의인화된 객체는 사전 훈련된 얼굴 랜드마크 검출기로 감지되지 않는 경우가 많아, 이러한 얼굴이 인간과 유사한 외모를 가지고 있더라도 얼굴 움직임 생성이 실패하는 문제가 발생합니다. 이는 해당 이미지가 훈련 중 거의 보지 못한 데이터(예: OOD 샘플)이기 때문입니다. 이 문제를 해결하기 위해 이미지 생성 단계에서 픽셀 수준의 지도를 통합하여 인간 얼굴 랜드마크를 주입합니다. 이러한 지표를 벤치마킹하기 위해 평가 데이터셋을 구축했습니다. 이를 기반으로 얼굴 랜드마크의 검출률이 57.0%에서 92.5%로 크게 증가하여 생성된 음성 내용을 기반으로 한 자동 얼굴 애니메이션이 가능함을 확인했습니다. 코드와 추가 결과는 https://chatanything.github.io/에서 확인할 수 있습니다.
스토리에서 자연스러운 인간 동작을 생성하는 것은 애니메이션, 게임, 영화 산업의 지형을 바꿀 잠재력을 가지고 있습니다. 새로운 도전 과제인 '스토리-투-모션(Story-to-Motion)'은 캐릭터들이 긴 텍스트 설명에 따라 다양한 위치로 이동하고 특정 동작을 수행해야 할 때 발생합니다. 이 작업은 저수준 제어(궤적)와 고수준 제어(동작 의미론)의 융합을 요구합니다. 캐릭터 제어 및 텍스트-투-모션 분야의 기존 연구들은 관련된 측면들을 다루었지만, 포괄적인 해결책은 여전히 미흡합니다: 캐릭터 제어 방법은 텍스트 설명을 처리하지 못하며, 텍스트-투-모션 방법은 위치 제약이 없고 종종 불안정한 동작을 생성합니다. 이러한 한계를 고려하여, 우리는 입력 텍스트와 일치하는 제어 가능하고 무한히 긴 동작과 궤적을 생성하는 새로운 시스템을 제안합니다. (1) 우리는 최신 대형 언어 모델을 활용하여 텍스트 기반 동작 스케줄러로 작동하도록 하여 긴 텍스트에서 일련의 (텍스트, 위치, 지속 시간) 쌍을 추출합니다. (2) 우리는 동작 의미론과 궤적 제약을 포함한 텍스트 기반 동작 검색 방식을 개발합니다. (3) 우리는 전이 동작에서 흔히 발생하는 부자연스러운 자세와 발 미끄러짐과 같은 아티팩트를 해결하는 점진적 마스크 트랜스포머를 설계합니다. 스토리-투-모션을 위한 첫 번째 포괄적인 해결책으로서의 선구적인 역할을 넘어, 우리의 시스템은 궤적 추적, 시간적 액션 구성, 동작 혼합이라는 세 가지 별개의 하위 작업에서 평가를 거치며, 모든 면에서 기존의 최첨단 동작 합성 방법들을 능가합니다. 홈페이지: https://story2motion.github.io/.
GPT-4V로 대표되는 멀티모달리티 파운데이션 모델은 저수준 시각 인식 및 이해 작업에 새로운 패러다임을 가져왔으며, 다양한 자연어 지시에 응답할 수 있는 모델을 가능하게 했습니다. 기존 파운데이션 모델들이 저수준 시각 작업에서 흥미로운 잠재력을 보여주었음에도 불구하고, 관련 능력들은 여전히 초기 단계에 머물러 있으며 개선이 필요합니다. 이러한 모델들을 향상시키기 위해, 우리는 대규모 주관적 실험을 통해 저수준 시각에 대한 방대한 양의 실제 인간 피드백을 수집했습니다. 각 피드백은 이미지의 선명도, 색상, 밝기와 같은 저수준 시각적 외관에 대한 상세한 설명으로 시작하여 전체적인 결론으로 끝나는 경로를 따르며, 평균 45단어의 길이를 가집니다. 구축된 **Q-Pathway** 데이터셋은 다양한 저수준 외관을 가진 18,973장의 이미지에 대한 58,000개의 상세한 인간 피드백을 포함합니다. 더 나아가, 파운데이션 모델이 다양한 유형의 질문에 견고하게 응답할 수 있도록, 우리는 GPT가 참여한 변환 과정을 설계하여 이러한 피드백을 200,000개의 다양한 형식의 지시-응답 쌍으로 처리했습니다. 실험 결과는 **Q-Instruct**가 여러 파운데이션 모델에서 저수준 인식 및 이해 능력을 지속적으로 향상시킨다는 것을 보여줍니다. 우리는 이 데이터셋이 미래에 일반 지능이 인간처럼 저수준 시각적 외관을 인식하고 이해하며 시각적 품질을 평가할 수 있는 길을 열어줄 것으로 기대합니다. 우리의 데이터셋, 모델 저장소, 데모는 https://q-future.github.io/Q-Instruct에서 공개되었습니다.
기존의 시각적 명령어 튜닝 방법들은 일반적으로 대형 언어 모델에 텍스트 설명을 제공하여 명령어 수행 데이터를 생성합니다. 이러한 방법들은 유망한 성능을 달성했지만, 이러한 설명들은 이미지 주석에서 파생된 경우가 많아 종종 거칠게 분류됩니다. 더욱이, 전체 시각적 맥락을 관찰하지 않고 생성된 명령어는 시각적 내용과 모순될 수도 있습니다. 이러한 문제를 해결하기 위해, 우리는 LVIS의 이미지를 활용하여 강력한 GPT-4V를 프롬프트하여 생성된 220K개의 시각적으로 정렬되고 맥락을 인지한 명령어를 포함한 세분화된 시각적 명령어 데이터셋인 LVIS-Instruct4V를 소개합니다. 실험적 검증과 사례 연구를 통해, 우리는 고품질의 시각적 명령어 데이터가 최첨단 대형 멀티모달 모델인 LLaVA-1.5의 성능을 다양한 벤치마크에서 명확한 차이로 개선할 수 있음을 입증했습니다. 특히, LLaVA-Instruct를 우리의 LVIS-Instruct4V로 단순히 교체함으로써, 가장 도전적인 LMM 벤치마크에서 LLaVA보다 더 나은 결과를 달성했습니다(예: LLaVA^w (76.7 vs. 70.7) 및 MM-Vet (40.2 vs. 35.4)). 우리는 데이터와 모델을 https://github.com/X2FD/LVIS-INSTRUCT4V에서 공개합니다.
가정 및 창고와 같은 배포 시나리오에서 모바일 로봇은 인간 운영자가 직관적으로 이해할 수 있는 용어로 표현된 작업을 원활하게 수행하며 장시간 동안 자율적으로 탐색할 것으로 기대됩니다. 우리는 이러한 요구 사항을 해결할 수 있는 세 가지 주요 기능을 갖춘 범용 탐색 시스템인 GO To Any Thing(GOAT)을 제시합니다: a) 멀티모달: 카테고리 레이블, 대상 이미지 및 언어 설명을 통해 지정된 목표를 처리할 수 있음, b) 평생 학습: 동일한 환경에서의 과거 경험을 활용함, c) 플랫폼 독립적: 다양한 형태의 로봇에 빠르게 배포할 수 있음. GOAT은 모듈식 시스템 설계와 카테고리 수준의 의미론뿐만 아니라 다양한 시점에서의 객체 외관을 추적하는 지속적으로 확장되는 인스턴스 인식 시맨틱 메모리를 통해 가능해졌습니다. 이를 통해 GOAT은 동일한 카테고리의 다른 인스턴스를 구별하여 이미지 및 언어 설명으로 지정된 목표로의 탐색을 가능하게 합니다. 200개 이상의 서로 다른 객체 인스턴스에서 선택된 675개의 목표로 구성된 9개의 다른 가정에서 90시간 이상의 실험적 비교에서 GOAT은 83%의 전체 성공률을 달성하여 이전 방법 및 절제 방법보다 32%(절대적 개선) 앞섰습니다. GOAT은 환경에서의 경험에 따라 개선되어 첫 번째 목표에서 60%의 성공률에서 탐색 후 90%의 성공률로 향상되었습니다. 또한, GOAT이 픽 앤 플레이스 및 사회적 탐색과 같은 하위 작업에 쉽게 적용될 수 있음을 보여줍니다.
우리는 모델 가중치, 튜닝 작업, 시각적 임베딩을 결합한 다목적 멀티모달 대형 언어 모델(MLLM)인 SPHINX를 소개합니다. 먼저, 더 강력한 시각-언어 정렬을 위해 사전 학습 중 대형 언어 모델(LLM)의 가중치를 고정 해제하고, 실제 데이터와 합성 데이터로 학습된 LLM 간의 가중치 혼합 전략을 도입합니다. 두 도메인의 가중치를 직접 통합함으로써, 혼합된 LLM은 다양한 의미를 효율적으로 통합하고 우수한 견고성을 갖출 수 있습니다. 다음으로, 다목적 기능을 가능하게 하기 위해 다양한 작업을 결합한 시각적 명령 튜닝을 수행하고, 작업 간 충돌을 방지하기 위해 작업별 명령어를 설계합니다. 기본적인 시각적 질의응답 외에도, 영역 수준 이해, 캡션 그라운딩, 문서 레이아웃 감지, 인간 포즈 추정과 같은 더 도전적인 작업을 포함하여 다양한 시나리오에서 상호 강화를 이끌어냅니다. 또한, 다양한 네트워크 아키텍처, 사전 학습 패러다임, 정보 세분화로부터 포괄적인 시각적 임베딩을 추출하는 방법을 제안하여, 언어 모델에 더 견고한 이미지 표현을 제공합니다. 우리가 제안한 결합 혼합 방식을 기반으로, SPHINX는 다양한 애플리케이션에서 우수한 멀티모달 이해 능력을 보여줍니다. 이를 바탕으로, 고해상도 이미지의 세밀한 외관을 더 잘 포착하기 위한 효율적인 전략을 추가로 제안합니다. 다양한 스케일과 고해상도 하위 이미지를 혼합함으로써, SPHINX는 기존 평가 벤치마크에서 탁월한 시각적 파싱 및 추론 성능을 달성합니다. 우리의 작업이 향후 MLLM 연구에서 결합 혼합 탐구에 대한 통찰을 제공하기를 바랍니다. 코드는 https://github.com/Alpha-VLLM/LLaMA2-Accessory에서 공개되었습니다.
스마트폰 그래픽 사용자 인터페이스(GUI) 탐색 작업을 위한 GPT-4V 기반 에이전트인 MM-Navigator를 소개한다. MM-Navigator는 인간 사용자와 마찬가지로 스마트폰 화면과 상호작용하며, 주어진 지시를 수행하기 위한 후속 동작을 결정할 수 있다. 우리의 연구 결과는 대규모 다중모달 모델(LMM), 특히 GPT-4V가 고급 화면 해석, 동작 추론 및 정확한 동작 위치 지정 능력을 통해 제로샷 GUI 탐색에서 탁월한 성능을 보인다는 것을 입증한다. 먼저, MM-Navigator를 수집한 iOS 화면 데이터셋에서 벤치마킹하였다. 인간 평가에 따르면, 시스템은 iOS에서 단일 단계 지시에 대해 합리적인 동작 설명을 생성하는 데 91%의 정확도를 보였으며, 올바른 동작을 실행하는 데 75%의 정확도를 보였다. 또한, Android 화면 탐색 데이터셋의 하위 집합에서 모델을 평가하였으며, 모델은 제로샷 방식으로 이전 GUI 탐색기를 능가하는 성능을 보였다. 우리의 벤치마크와 상세한 분석은 GUI 탐색 작업에 대한 미래 연구를 위한 견고한 기반을 마련하는 것을 목표로 한다. 프로젝트 페이지는 https://github.com/zzxslp/MM-Navigator에서 확인할 수 있다.
최근 대규모 언어 모델(Large Language Models, LLMs) 연구가 급속도로 발전하면서 여러 자연어 처리(Natural Language Processing, NLP) 과제에서 상당한 진전이 이루어졌습니다. 이에 따라 LLM의 능력과 한계를 이해하기 위한 평가 연구도 급증하고 있습니다. 그러나 이러한 연구의 상당 부분이 영어에 국한되어 있어, 비영어권 언어에 대한 LLM 구축 및 평가는 상대적으로 덜 탐구된 상태입니다. 여러 새로운 LLM이 등장하면서 이들을 비영어권 언어에 대해 평가할 필요성이 대두되었습니다. 본 연구는 MEGA 벤치마킹 제품군을 확장하여 6개의 새로운 데이터셋을 포함한 MEGAVERSE 벤치마크를 구성하는 것을 목표로 합니다. 이 벤치마크는 저자원 아프리카 언어를 포함한 81개 언어를 아우르는 22개의 데이터셋으로 구성됩니다. 우리는 GPT-3.5-Turbo, GPT4, PaLM2, Llama2와 같은 최첨단 LLM을 MEGAVERSE 데이터셋에 대해 평가합니다. 또한, 벤치마크에 두 개의 멀티모달 데이터셋을 포함시키고 LLaVa-v1.5 모델의 성능을 평가합니다. 실험 결과, GPT4와 PaLM2가 다양한 과제, 특히 저자원 언어에서 Llama 모델들을 능가하는 것으로 나타났으며, GPT4가 PaLM2보다 더 많은 데이터셋에서 우수한 성능을 보였습니다. 그러나 비영어권 언어에 대한 LLM 성능을 정확히 평가하기 위해서는 데이터 오염과 같은 문제를 해결해야 합니다.
최근 몇 년간 자연어 처리 분야에서 획기적인 발전이 이루어져 강력한 대규모 언어 모델(LLMs)이 등장했으며, 이 모델들은 자연어 이해, 생성, 번역은 물론 언어 처리 영역을 넘어선 다양한 작업에서도 놀라운 역량을 보여주고 있습니다. 본 보고서에서는 최첨단 언어 모델인 GPT-4를 중심으로 과학적 발견의 맥락에서 LLMs의 성능을 심층적으로 분석합니다. 우리의 연구는 신약 개발, 생물학, 계산 화학(밀도 범함수 이론(DFT) 및 분자 동역학(MD)), 소재 설계, 편미분 방정식(PDE) 등 다양한 과학 분야를 아우릅니다. GPT-4를 과학적 작업에 평가하는 것은 다양한 연구 분야에서의 잠재력을 발견하고, 도메인 특화 전문성을 검증하며, 과학적 진전을 가속화하고, 자원 할당을 최적화하며, 미래 모델 개발을 안내하고, 학제간 연구를 촉진하는 데 중요합니다. 우리의 탐구 방법론은 주로 전문가 주도의 사례 평가로 구성되며, 이는 모델이 복잡한 과학적 개념과 관계를 이해하는 데 대한 질적 통찰을 제공합니다. 또한 때때로 벤치마크 테스트를 통해 모델이 잘 정의된 도메인 특화 문제를 해결하는 능력을 정량적으로 평가합니다. 우리의 예비 탐구 결과, GPT-4는 복잡한 문제 해결 및 지식 통합 작업을 다루는 데 있어 유망한 잠재력을 보여주며 다양한 과학적 응용 분야에서의 가능성을 입증했습니다. 전반적으로 우리는 GPT-4의 지식 기반, 과학적 이해, 과학적 수치 계산 능력, 그리고 다양한 과학적 예측 능력을 평가합니다.
대규모 언어 모델(LLMs)은 다양한 신뢰도의 출처에서 나온 상반된 사실 정보를 필연적으로 포함하는 웹 규모의 코퍼스로 학습됩니다. 본 논문에서는 신뢰할 수 있는 출처 정렬(Trusted Source Alignment, TSA)이라는 LLM 속성을 측정하는 방법을 제안합니다. 이는 불확실성이나 논란이 있을 때 신뢰할 수 있는 출처에서 생산된 콘텐츠와 일치하는 모델의 성향을 의미합니다. 우리는 팩트 체크 기사 코퍼스를 기반으로 한 TSA 평가 데이터셋인 FactCheckQA를 소개합니다. 또한 TSA 평가를 위한 간단한 프로토콜을 설명하고, 응답 추출, 주장의 맥락화, 프롬프트 구성의 편향 등 설계 고려 사항에 대한 상세한 분석을 제공합니다. 이 프로토콜을 PaLM-2에 적용한 결과, 모델 크기를 키울수록 FactCheckQA에서의 성능이 무작위 수준에서 최대 80%의 균형 정확도로 향상되며, 신뢰할 수 있는 출처와의 정렬이 개선되는 것을 확인했습니다.
사용자 제약 조건을 고품질 레이아웃으로 자동 매핑하는 조건부 그래픽 레이아웃 생성은 오늘날 폭넓은 관심을 받고 있습니다. 최근 연구들은 유망한 성능을 달성했지만, 다용성과 데이터 효율성의 부족으로 인해 실제 적용에 어려움을 겪고 있습니다. 본 연구에서는 대규모 언어 모델(LLM)을 활용하여 인컨텍스트 학습을 통해 이러한 문제를 해결하는 LayoutPrompter를 제안합니다. LayoutPrompter는 입력-출력 직렬화, 동적 예제 선택, 레이아웃 순위 지정이라는 세 가지 핵심 구성 요소로 이루어져 있습니다. 구체적으로, 입력-출력 직렬화 구성 요소는 각 레이아웃 생성 작업을 위해 입력 및 출력 형식을 세심하게 설계합니다. 동적 예제 선택은 주어진 입력에 대해 가장 유용한 프롬프팅 예제를 선택하는 역할을 하며, 레이아웃 순위 지정기는 LLM의 다중 출력 중에서 가장 높은 품질의 레이아웃을 선택하는 데 사용됩니다. 우리는 네 가지 공개 데이터셋을 사용하여 기존의 모든 레이아웃 생성 작업에 대한 실험을 수행했습니다. 우리의 접근 방식이 단순함에도 불구하고, 실험 결과는 LayoutPrompter가 모델 학습이나 미세 조정 없이도 이러한 작업에서 최신 기술을 능가하거나 경쟁할 수 있음을 보여줍니다. 이는 이 다용적이고 학습이 필요 없는 접근 방식의 효과성을 입증합니다. 또한, 어블레이션 연구는 LayoutPrompter가 데이터가 부족한 환경에서 학습 기반 베이스라인보다 현저히 우수함을 보여주며, 이는 LayoutPrompter의 데이터 효율성을 더욱 강조합니다. 우리의 프로젝트는 https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter에서 확인할 수 있습니다.
T0, FLAN, OPT-IML과 같은 대규모 언어 모델(LLMs)은 통합된 지시-따르기 패러다임 하에서 멀티태스킹에 탁월한 성능을 보이며, 보이지 않는 작업에 대한 놀라운 일반화 능력도 나타냅니다. 이러한 LLMs는 수십억에서 수천억 개의 파라미터 규모를 가지고 있어 인상적인 성능을 발휘하지만, 상당한 계산 자원을 요구하기 때문에 훈련과 추론이 비용이 많이 들고 비효율적입니다. 더욱이, 특히 복잡한 작업에 대해 이러한 모델을 다운스트림 애플리케이션에 적용하는 것은 파라미터 효율적인 접근 방식인 프롬프트 튜닝을 사용하더라도 파인튜닝을 위한 광범위한 하드웨어 요구 사항으로 인해 종종 실현 불가능합니다. 또한, OPT-IML-175B와 FLAN-PaLM-540B와 같은 가장 강력한 멀티태스크 LLMs는 공개적으로 접근할 수 없어 그들의 맞춤화 가능성이 심각하게 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 멀티태스크 LLMs의 성능과 효율성을 향상시키기 위해 설계된 사전 훈련된 소형 스코어러인 Cappy를 소개합니다. 단 3억 6천만 개의 파라미터만을 가진 Cappy는 분류 작업에서 독립적으로 작동하거나 LLMs의 보조 구성 요소로 작용하여 그들의 성능을 향상시킬 수 있습니다. 더욱이, Cappy는 LLM 파인튜닝이나 파라미터 접근 없이도 다운스트림 감독을 효율적으로 통합할 수 있게 합니다. 우리의 실험은 PromptSource의 11개 언어 이해 작업에서 독립적으로 작동할 때, Cappy가 수백 배 더 큰 LLMs를 능가하는 성능을 보임을 입증합니다. 또한, BIG-Bench의 45개 복잡한 작업에서 Cappy는 고급 멀티태스크 LLM인 FLAN-T5의 성능을 크게 향상시킵니다. 더 나아가, Cappy는 파인튜닝과 컨텍스트 내 학습을 포함한 다른 LLM 적응 방식과 유연하게 협력하여 추가적인 성능 향상을 제공합니다.
본 연구에서는 주의 깊게 선별된 쌍 데이터를 사용하지 않으면서도, 광범위한 LLM 능력을 유지한 채 end-to-end 범용 음성 처리 및 추론 능력을 갖춘 instruction-tuned Llama-2 모델을 확장합니다. 제안된 모델은 텍스트 대신 오디오 프롬프트를 활용하여 대화를 지속할 수 있습니다. 이러한 모델은 음성 질의응답, 음성 번역, 오디오 요약 등 다양한 폐쇄형 및 개방형 도메인 작업을 수행할 수 있는 확장된 크로스모달 능력을 갖추고 있습니다. 이는 LLM이 제한된 수의 사전 지정된 작업을 위해 오디오를 처리하도록 확장된 기존 음성 접근 방식과는 다릅니다. 실험 결과, 우리의 end-to-end 접근 방식은 프롬프트에 대한 응답을 모델링하는 측면에서 캐스케이드 시스템(음성 인식기 + LLM)과 동등하거나 더 나은 성능을 보여줍니다. 더욱이, 캐스케이드와 달리 우리의 접근 방식은 텍스트와 오디오 모달리티를 교환하고 대화의 이전 컨텍스트를 활용하여 더 나은 결과를 제공할 수 있는 능력을 보여줍니다.
우리는 언어 모델 정렬을 위한 간단하면서도 도전적인 테스트베드 역할을 하는 적대적 산술 문제를 소개하고 연구한다. 이 문제는 자연어로 제시된 산술 질문에 임의의 적대적 문자열이 질문이 완성되기 전에 삽입된 형태로 구성된다. 1자리 수 덧셈 문제와 같은 단순한 설정에서도 PaLM2, GPT4, Claude2를 포함한 모든 테스트된 모델이 오작동하도록 만드는 적대적 프롬프트를 쉽게 찾을 수 있으며, 심지어 모델이 특정 오답을 내도록 유도하는 것도 가능하다. 또한, 우리는 동일한 모델에 쿼리를 보내어 성공적인 공격을 찾는 간단한 알고리즘을 제시하며, 이를 "프롬프트 역전 거부 샘플링(Prompt Inversion Rejection Sampling, PIRS)"이라고 명명한다. 마지막으로, 강화 학습과 에이전트 기반 헌법적 루프를 통해 모델이 이러한 공격에 부분적으로 견고해질 수 있음을 보여준다. 그러나 우리는 언어 모델이 적대적 산술 공격에 완전히 견고해지도록 만드는 데는 성공하지 못했다.