번역이 포함된 일일 선별된 AI 연구 논문
텍스트-이미지 생성은 현대 컴퓨터 비전에서 중요한 분야이며, 생성적 아키텍처의 진화를 통해 상당한 개선을 이루어냈습니다. 이 중에서도 확산 기반 모델들은 필수적인 품질 향상을 보여주었습니다. 이러한 모델들은 일반적으로 픽셀 수준과 잠재 수준 접근법으로 나뉩니다. 우리는 이미지 사전 모델의 원리와 잠재 확산 기술을 결합한 새로운 잠재 확산 아키텍처 탐구인 Kandinsky1을 제시합니다. 이미지 사전 모델은 텍스트 임베딩을 CLIP의 이미지 임베딩으로 매핑하기 위해 별도로 학습됩니다. 제안된 모델의 또 다른 독특한 특징은 이미지 오토인코더 구성 요소로 사용된 수정된 MoVQ 구현입니다. 전체적으로 설계된 모델은 33억 개의 파라미터를 포함합니다. 또한 우리는 텍스트-이미지 생성, 이미지 융합, 텍스트 및 이미지 융합, 이미지 변형 생성, 텍스트 기반 인페인팅/아웃페인팅 등 다양한 생성 모드를 지원하는 사용자 친화적인 데모 시스템을 배포했습니다. 추가적으로, Kandinsky 모델의 소스 코드와 체크포인트를 공개했습니다. 실험적 평가 결과, COCO-30K 데이터셋에서 FID 점수 8.03을 기록하여 측정 가능한 이미지 생성 품질 측면에서 최고의 오픈소스 성능을 보여주었습니다.
대규모 멀티모달 모델(LMM)은 최근 시각적 명령어 튜닝을 통해 고무적인 진전을 보여주고 있습니다. 본 노트에서는 LLaVA의 완전 연결된 시각-언어 크로스모달 커넥터가 놀라울 정도로 강력하고 데이터 효율적임을 보여줍니다. LLaVA에 간단한 수정을 가함으로써, 즉 MLP 프로젝션을 사용한 CLIP-ViT-L-336px와 학문적 과제 지향적 VQA 데이터를 간단한 응답 형식 프롬프트와 함께 추가함으로써, 11개의 벤치마크에서 최첨단 성능을 달성하는 더 강력한 베이스라인을 확립했습니다. 우리의 최종 13B 체크포인트는 단 120만 개의 공개 데이터만을 사용하며, 단일 8-A100 노드에서 약 1일 만에 전체 학습을 완료합니다. 이를 통해 최첨단 LMM 연구가 더욱 접근 가능해지길 바랍니다. 코드와 모델은 공개될 예정입니다.
최근 공개된 GPT-4 코드 인터프리터는 자연어를 활용한 추론, 코드 생성, 코드 실행, 그리고 실행 결과를 기반으로 한 추가 추론 능력 덕분에 어려운 수학 문제를 해결하는 데 있어 뛰어난 성능을 보여주었습니다. 본 논문에서는 오픈소스 언어 모델을 미세 조정하여 코드를 활용해 수학 방정식을 모델링하고 도출함으로써 수학적 추론 능력을 향상시키는 방법을 제시합니다. 우리는 수학 문제와 코드 기반 해결책을 포함한 새로운 고품질 데이터셋을 생성하는 방법을 제안하며, 이를 MathCodeInstruct라고 명명합니다. 각 해결책은 자연어, 코드, 실행 결과를 교차적으로 포함합니다. 또한, 맞춤형 지도 학습 미세 조정 및 추론 접근법을 소개합니다. 이 접근법은 어려운 수학 문제를 해결하기 위한 코드 기반 해결책을 생성할 수 있는 MathCoder 모델군을 탄생시킵니다. 특히, MathCoder 모델은 MATH(45.2%)와 GSM8K(83.9%) 데이터셋에서 오픈소스 LLM 중 최고 수준의 점수를 달성하며, 다른 오픈소스 대안들을 크게 앞섭니다. 주목할 만한 점은, MathCoder 모델이 GSM8K와 MATH에서 ChatGPT-3.5와 PaLM-2를 능가할 뿐만 아니라, 경쟁 수준의 MATH 데이터셋에서 GPT-4를 능가한다는 것입니다. 데이터셋과 모델은 https://github.com/mathllm/MathCoder에서 공개될 예정입니다.
텍스트-이미지 확산 모델은 최근 매우 대규모의 비지도 또는 약한 지도 학습 텍스트-이미지 데이터셋을 기반으로 이미지 생성 분야의 최전선에 등장했습니다. 비지도 학습으로 훈련되기 때문에, 인간이 인지하는 이미지 품질 극대화, 이미지-텍스트 정렬, 윤리적 이미지 생성과 같은 다운스트림 작업에서의 행동을 제어하는 것은 어려운 문제입니다. 최근 연구들은 높은 분산을 보이는 그래디언트 추정기로 악명 높은 일반 강화 학습을 사용하여 확산 모델을 다운스트림 보상 함수에 맞게 미세 조정했습니다. 본 논문에서는 디노이징 과정을 통해 보상 그래디언트의 종단 간 역전파를 사용하여 확산 모델을 다운스트림 보상 함수에 맞추는 AlignProp 방법을 제안합니다. 이러한 역전파를 단순히 구현할 경우 현대적인 텍스트-이미지 모델의 편미분을 저장하기 위해 과도한 메모리 자원이 필요하지만, AlignProp은 저순위 어댑터 가중치 모듈을 미세 조정하고 그래디언트 체크포인팅을 사용하여 메모리 사용을 실용적으로 만듭니다. 우리는 AlignProp을 이미지-텍스트 의미론적 정렬, 미학, 압축성, 객체 수의 제어 가능성 및 이들의 조합과 같은 다양한 목표에 맞게 확산 모델을 미세 조정하는 데 테스트했습니다. AlignProp이 대안들보다 더 적은 훈련 단계에서 더 높은 보상을 달성하며 개념적으로 더 단순하여, 관심 있는 미분 가능한 보상 함수를 위해 확산 모델을 최적화하는 직관적인 선택이 됨을 보여줍니다. 코드와 시각화 결과는 https://align-prop.github.io/에서 확인할 수 있습니다.
언어 모델(LMs)은 다양한 생성 작업을 처리할 수 있는 능력을 입증해 왔습니다. 본 논문은 기존의 작업별 접근 방식과 달리, 언어 모델 기술을 활용하여 주어진 입력 조건에 따라 음성, 소리, 음악, 노래 등 다양한 유형의 오디오를 생성하는 UniAudio 시스템을 소개합니다. UniAudio는 1) 먼저 모든 유형의 대상 오디오와 다른 조건 모달리티를 토큰화하고, 2) 소스-대상 쌍을 단일 시퀀스로 연결한 후, 3) 언어 모델을 사용하여 다음 토큰을 예측합니다. 또한, 토큰화 과정에서 잔차 벡터 양자화 기반 신경 코덱으로 인해 발생하는 과도하게 긴 시퀀스를 처리하기 위해 다중 스케일 트랜스포머 모델을 제안합니다. UniAudio의 학습은 모든 생성 작업을 기반으로 165,000시간의 오디오와 10억 개의 파라미터로 확장되어, 오디오의 내재적 특성뿐만 아니라 오디오와 다른 모달리티 간의 상호 관계에 대한 충분한 사전 지식을 얻는 것을 목표로 합니다. 따라서 학습된 UniAudio 모델은 범용 오디오 생성을 위한 기초 모델이 될 잠재력을 가지고 있습니다: 이 모델은 모든 학습된 작업에서 강력한 성능을 보이며, 간단한 미세 조정 후 새로운 오디오 생성 작업을 원활하게 지원할 수 있습니다. 실험 결과, UniAudio는 11개 작업 중 대부분에서 최첨단 또는 적어도 경쟁력 있는 결과를 달성함을 보여줍니다. 데모와 코드는 https://github.com/yangdongchao/UniAudio에서 공개되었습니다.
대부분의 대규모 언어 모델(LLM)은 한 번 훈련된 후 업데이트되지 않기 때문에, 끊임없이 변화하는 세상에 동적으로 적응할 수 있는 능력이 부족합니다. 본 연구에서는 현재의 세계 지식을 테스트하는 질문에 답변하는 맥락에서 LLM이 생성한 텍스트의 사실성을 상세히 분석합니다. 구체적으로, 우리는 빠르게 변화하는 세계 지식이 필요한 질문과 잘못된 전제를 반박해야 하는 질문을 포함한 다양한 유형의 질문과 답변을 포괄하는 새로운 동적 QA 벤치마크인 FreshQA를 소개합니다. 우리는 폐쇄형과 오픈소스 LLM을 모두 대상으로 두 가지 모드의 평가 절차를 통해 정확성과 환각(hallucination)을 측정합니다. 5만 건 이상의 인간 평가를 통해 이러한 모델의 한계를 밝히고 상당한 개선의 여지가 있음을 보여줍니다: 예를 들어, 모든 모델(모델 크기와 무관하게)은 빠르게 변화하는 지식과 잘못된 전제가 포함된 질문에서 어려움을 겪습니다. 이러한 결과를 바탕으로, 우리는 검색 엔진에서 검색된 관련성 있고 최신 정보를 프롬프트에 통합함으로써 LLM의 FreshQA 성능을 크게 향상시키는 간단한 퓨샷 프롬프팅 방법인 FreshPrompt를 제시합니다. 우리의 실험은 FreshPrompt가 Self-Ask(Press et al., 2022)와 같은 경쟁 검색 엔진 기반 프롬프팅 방법 및 Perplexity.AI와 같은 상용 시스템을 모두 능가함을 보여줍니다. FreshPrompt에 대한 추가 분석은 검색된 증거의 수와 순서가 LLM이 생성한 답변의 정확성에 중요한 역할을 한다는 것을 보여줍니다. 또한, LLM에게 간결하고 직접적인 답변을 생성하도록 지시하는 것이 더 장황한 답변을 유도하는 것보다 환각을 줄이는 데 도움이 됩니다. 향후 연구를 위해, 우리는 FreshQA를 github.com/freshllms/freshqa에서 공개하고 정기적으로 업데이트할 것을 약속합니다.
현재의 시각-언어 생성 모델들은 최적의 성능과 일반화 능력을 달성하기 위해 대규모의 이미지-텍스트 쌍 데이터 코퍼스에 의존합니다. 그러나 이러한 데이터를 자동으로 수집하는 방법(예: 대규모 웹 스크래핑)은 낮은 품질과 이미지-텍스트 간의 약한 상관관계를 초래하는 반면, 인간 주석은 더 정확하지만 상당한 수작업과 비용이 필요합니다. 우리는 ITIT(InTegrating Image Text)를 소개합니다: 이는 사이클 일관성(cycle consistency) 개념에 기반한 혁신적인 훈련 패러다임으로, 쌍을 이루지 않은 이미지와 텍스트 데이터를 사용하여 시각-언어 훈련을 가능하게 합니다. ITIT는 결합된 이미지-텍스트 인코더와 분리된 이미지 및 텍스트 디코더로 구성되어 단일 프레임워크 내에서 양방향 이미지-텍스트 및 텍스트-이미지 생성을 가능하게 합니다. 훈련 중에 ITIT는 소량의 쌍을 이루는 이미지-텍스트 데이터를 활용하여 출력이 양방향에서 입력과 합리적으로 일치하도록 합니다. 동시에, 모델은 이미지나 텍스트만 포함하는 훨씬 더 큰 데이터셋에서도 훈련됩니다. 이는 원본 쌍을 이루지 않은 샘플과 사이클 생성된 대응물 간의 일관성을 강제함으로써 달성됩니다. 예를 들어, 주어진 입력 이미지에 대한 캡션을 생성한 다음, 그 캡션을 사용하여 출력 이미지를 생성하고, 입력 이미지와 출력 이미지 간의 유사성을 강제합니다. 우리의 실험은 쌍을 이루지 않은 데이터셋을 사용한 ITIT가 고품질 쌍 데이터를 사용할 때와 유사한 스케일링 행동을 보인다는 것을 보여줍니다. 우리는 최신 텍스트-이미지 및 이미지-텍스트 모델과 동등한 이미지 생성 및 캡션 생성 성능을 훨씬 적은 양(단 3M)의 쌍을 이루는 이미지-텍스트 데이터로 달성함을 입증합니다.
인간 피드백을 통한 강화 학습(RLHF)을 사용하여 대규모 언어 모델을 정렬하는 데 있어 큰 성공이 보고되었습니다. 오픈소스 선호도 데이터셋과 보상 모델은 일반적인 채팅 설정을 넘어 더 넓은 실험을 가능하게 하여, 웹 질문 응답, 요약, 다중 턴 대화와 같은 작업에서 시스템을 더 "도움이 되도록" 만드는 데 특히 기여했습니다. 도움을 최적화할 때, RLHF가 모델이 더 긴 출력을 생성하도록 유도하는 것이 지속적으로 관찰되었습니다. 본 논문은 이러한 설정에서 RLHF가 보고한 개선의 상당 부분이 응답 길이를 최적화하는 데 기인한다는 것을 보여줍니다. 먼저, 도움을 위한 세 가지 오픈소스 선호도 데이터셋으로 훈련된 보상 모델에 대해 보상과 길이 간의 관계를 연구합니다. 여기서 길이는 보상과 강한 상관관계를 가지며, 보상 점수의 개선은 대부분 출력 길이 분포의 변화에 의해 주도됩니다. 그런 다음, RL과 보상 모델 학습 중에 개입을 탐구하여 길이를 증가시키지 않고도 RLHF와 동일한 하류 개선을 달성할 수 있는지 확인합니다. 우리의 개입은 길이 증가를 완화하지만, 모든 설정에서 균일하게 효과적이지는 않습니다. 더 나아가, 길이에만 기반한 보상을 사용하여 RLHF를 실행하더라도 초기 정책 모델에 비해 대부분의 하류 개선을 재현할 수 있음을 발견했습니다. 이는 이러한 설정에서 보상 모델이 아직 갈 길이 멀다는 것을 보여줍니다.
웹에서 작업을 수행하는 것은 대규모 언어 모델(LLMs)에게 조합적으로 큰 오픈 월드 작업과 웹 인터페이스 간의 변동성과 같은 근본적인 도전 과제를 제시합니다. 가능한 모든 행동과 상태를 처리하기 위해 단순히 큰 프롬프트를 지정하는 것은 매우 복잡하며, 관련 없는 행동 간에 행동 누출을 초래합니다. 이를 해결하기 위해 별도의 정책으로 분해하는 방법이 있지만, 정책 간의 제어를 신중하게 넘겨주는 것이 필요합니다. 우리는 다양한 웹 작업을 해결하기 위해 정책을 동적으로 구성하는 접근 방식인 웹 액션을 위한 스택형 LLM 정책(SteP)을 제안합니다. SteP는 제어 상태, 즉 정책 호출의 체인을 나타내는 정책 스택을 상태로 하는 마르코프 결정 프로세스를 정의합니다. 정적 계층 구조에 제한되는 전통적인 방법과 달리, SteP는 작업의 복잡성에 적응하는 동적 제어를 가능하게 합니다. 우리는 SteP를 WebArena, MiniWoB++, CRM을 포함한 여러 베이스라인 및 웹 환경에서 평가합니다. WebArena에서 SteP는 GPT-4 정책을 사용하는 SOTA보다 14.9%에서 33.5% 향상되었으며, MiniWoB++에서는 상당히 적은 데이터를 사용하면서도 기존 연구와 경쟁력을 보였습니다. 우리의 코드와 데이터는 https://asappresearch.github.io/webagents-step에서 확인할 수 있습니다.
DragView를 소개합니다. DragView는 보지 못한 장면의 새로운 뷰를 생성하기 위한 혁신적이고 상호작용적인 프레임워크입니다. DragView는 단일 소스 이미지에서 새로운 뷰를 초기화하며, 렌더링은 포즈가 지정되지 않은 다중 뷰 이미지의 희소 집합에 의해 지원되고, 이 모든 것이 단일 순방향 패스 내에서 원활하게 실행됩니다. 우리의 접근 방식은 사용자가 로컬 상대 좌표계를 통해 소스 뷰를 드래그하는 것으로 시작됩니다. 픽셀 정렬 특징은 대상 광선을 따라 샘플링된 3D 점을 소스 뷰에 투영하여 얻습니다. 그런 다음, 투영 중 발생하는 오클루전을 효과적으로 처리하기 위해 뷰 의존적 변조 레이어를 통합합니다. 또한, 에피폴라 주의 메커니즘을 모든 소스 픽셀을 포함하도록 확장하여, 포즈가 지정되지 않은 다른 뷰에서 초기화된 좌표 정렬 점 특징을 집계할 수 있도록 합니다. 마지막으로, 다른 트랜스포머를 사용하여 광선 특징을 최종 픽셀 강도로 디코딩합니다. 중요한 점은, 우리의 프레임워크가 2D 사전 모델이나 명시적인 카메라 포즈 추정에 의존하지 않는다는 것입니다. 테스트 중에, DragView는 훈련 중에 보지 못한 새로운 장면으로 일반화할 수 있는 능력을 보여주며, 포즈가 지정되지 않은 지원 이미지만을 사용하여 유연한 카메라 궤적을 특징으로 하는 사실적인 새로운 뷰를 생성할 수 있습니다. 우리의 실험에서는, DragView의 성능을 포즈가 없는 조건에서 작동하는 최근의 장면 표현 네트워크와, 잡음이 있는 테스트 카메라 포즈를 가진 일반화 가능한 NeRF와 포괄적으로 비교합니다. DragView는 뷰 합성 품질에서 우수한 성능을 일관되게 보여주며, 더 사용자 친화적이기도 합니다. 프로젝트 페이지: https://zhiwenfan.github.io/DragView/.