번역이 포함된 일일 선별된 AI 연구 논문
PaLM 2를 소개합니다. 이는 이전 버전인 PaLM보다 더 나은 다국어 및 추론 능력을 갖추고 있으며, 더 높은 계산 효율성을 자랑하는 최첨단 언어 모델입니다. PaLM 2는 Transformer 기반 모델로, 다양한 목적 함수를 혼합하여 학습되었습니다. 영어 및 다국어 언어 작업과 추론 작업에 대한 광범위한 평가를 통해, PaLM 2가 다양한 모델 크기에서 다운스트림 작업의 품질을 크게 향상시켰음을 입증했습니다. 동시에 PaLM에 비해 더 빠르고 효율적인 추론을 보여주었습니다. 이러한 향상된 효율성은 더 넓은 배포를 가능하게 하며, 모델이 더 빠르게 응답하여 더 자연스러운 상호작용 속도를 제공합니다. PaLM 2는 BIG-Bench 및 기타 추론 작업에서 PaLM 대비 큰 개선을 보여주며 강력한 추론 능력을 입증했습니다. 또한, PaLM 2는 책임 있는 AI 평가에서 안정적인 성능을 보이며, 추가 오버헤드 없이도 유해성에 대한 추론 시점 제어를 가능하게 하여 다른 기능에 영향을 미치지 않습니다. 전반적으로 PaLM 2는 다양한 작업과 기능에서 최첨단 성능을 달성했습니다. PaLM 2 패밀리를 논의할 때는 사전 학습된 모델(다양한 크기), 이 모델들의 미세 조정 버전, 그리고 이러한 모델을 사용하는 사용자 지향 제품을 구분하는 것이 중요합니다. 특히, 사용자 지향 제품은 일반적으로 추가적인 전처리 및 후처리 단계를 포함합니다. 또한, 기본 모델은 시간이 지남에 따라 진화할 수 있습니다. 따라서 사용자 지향 제품의 성능이 이 보고서에서 보고된 결과와 정확히 일치할 것이라고 기대해서는 안 됩니다.
텍스트 편집 또는 수정은 인간의 글쓰기 과정에서 필수적인 기능입니다. 대규모 언어 모델(LLM)이 고품질의 수정을 수행하고 인간 작가와 협업할 수 있는 능력을 이해하는 것은 효과적인 글쓰기 보조 도구를 구축하기 위한 중요한 단계입니다. LLM과 명령어 튜닝의 이전 성공을 바탕으로, 우리는 사용자 생성 텍스트의 품질을 향상시키고 프로세스의 효율성을 높이기 위해 명령어 튜닝된 LLM을 텍스트 수정에 활용합니다. 우리는 글쓰기 지원을 위한 최첨단 텍스트 편집 모델인 CoEdIT를 소개합니다. CoEdIT는 사용자로부터 "문장을 더 간단하게 만들어라" 또는 "더 중립적인 스타일로 작성하라"와 같은 원하는 텍스트의 속성을 지정하는 명령어를 입력받아 편집된 텍스트를 출력합니다. 우리는 텍스트 편집을 위한 다양한 작업별 명령어(총 82K개의 명령어)로 미세 조정된 대규모 언어 모델을 제시합니다. 우리의 모델은 (1) 다양한 텍스트 편집 벤치마크에서 최첨단 성능을 달성하고, (2) 명령어로 훈련된 공개적으로 사용 가능한 가장 큰 크기의 LLM과 경쟁력이 있으면서도 크기가 60배 더 작으며, (3) 보이지 않는 편집 명령어에 일반화할 수 있고, (4) 서로 다른 편집 동작의 조합을 포함하는 명령어에 일반화할 수 있는 구성적 이해 능력을 보여줍니다. 광범위한 정성적 및 정량적 분석을 통해, 우리는 작가들이 다른 최첨단 텍스트 편집 모델에 비해 CoEdIT가 제안한 편집을 선호한다는 것을 보여줍니다. 우리의 코드와 데이터셋은 공개적으로 이용 가능합니다.
인간 피드백을 통해 학습하는 것이 언어 모델을 인간의 선호에 맞추는 데 효과적임이 입증되었습니다. 기존 연구들은 주로 인간 선호 데이터로 훈련된 보상 모델에서 할당된 보상 점수를 사용해 언어 모델을 최적화하는 인간 피드백 강화 학습(RLHF)에 의존해 왔습니다. 본 연구에서는 최근 도입된 시퀀스 가능성 보정(SLiC)을 활용해 인간 선호를 효과적으로 학습할 수 있는 방법(SLiC-HF)을 제시합니다. 더 나아가, 이 방법이 오프-폴리시, 오프라인 강화 학습 데이터와 유사하게 다른 모델을 위해 수집된 인간 피드백 데이터를 사용하여 수행될 수 있음을 보여줍니다. TL;DR 요약 작업에 대한 자동 및 인간 평가 실험을 통해 SLiC-HF가 지도 미세 조정 기준선을 크게 개선함을 확인했습니다. 또한, SLiC-HF는 기존 연구에서 사용된 PPO RLHF 구현에 비해 경쟁력 있는 대안을 제시하면서도 구현이 훨씬 간단하고, 튜닝이 용이하며, 실제로 계산 효율성이 더 높습니다.
사전 학습 데이터 도메인(예: 위키백과, 책, 웹 텍스트)의 혼합 비율은 언어 모델(LM)의 성능에 큰 영향을 미칩니다. 본 논문에서는 도메인 재가중치 최소최대 최적화(Domain Reweighting with Minimax Optimization, DoReMi)를 제안합니다. 이 방법은 먼저 그룹 분포 강건 최적화(Group DRO)를 사용하여 작은 프록시 모델을 학습시켜, 다운스트림 작업에 대한 지식 없이도 도메인 가중치(혼합 비율)를 생성합니다. 그런 다음 이 도메인 가중치를 사용하여 데이터셋을 재샘플링하고, 더 큰 전체 크기의 모델을 학습시킵니다. 실험에서는 280M 파라미터의 프록시 모델에 DoReMi를 적용하여 8B 파라미터 모델(30배 더 큰)을 더 효율적으로 학습시키기 위한 도메인 가중치를 찾았습니다. The Pile 데이터셋에서 DoReMi는 특정 도메인의 가중치를 낮추더라도 모든 도메인에서 perplexity를 개선했습니다. DoReMi는 The Pile의 기본 도메인 가중치를 사용하여 학습한 베이스라인 모델 대비 평균 few-shot 다운스트림 정확도를 6.5% 향상시켰으며, 베이스라인 정확도에 도달하는 데 필요한 학습 단계를 2.6배 줄였습니다. GLaM 데이터셋에서 DoReMi는 다운스트림 작업에 대한 지식이 없음에도 불구하고, 다운스트림 작업에 맞춰 조정된 도메인 가중치를 사용한 성능과 동등한 결과를 보였습니다.
본 논문에서는 마스크 언어 모델링, 자기 지식 증류, 온라인 클러스터링을 결합한 자기 지도 음성 표현 학습(DinoSR)을 위한 자기 지식 증류와 온라인 클러스터링을 소개합니다. 우리는 이러한 개념들이 서로 보완적으로 작용하여 강력한 음성 표현 학습 모델을 만든다는 것을 보여줍니다. DinoSR은 먼저 교사 네트워크를 사용하여 입력 오디오에서 문맥적 임베딩을 추출한 다음, 이 임베딩에 온라인 클러스터링 시스템을 실행하여 기계가 발견한 음소 인벤토리를 생성하고, 마지막으로 이산화된 토큰을 사용하여 학생 네트워크를 안내합니다. 우리는 DinoSR이 여러 다운스트림 작업에서 이전의 최첨단 성능을 능가한다는 것을 보여주고, 모델과 학습된 이산 단위에 대한 상세한 분석을 제공합니다. 소스 코드는 익명 기간 이후에 공개될 예정입니다.
단어 사용 개선은 글쓰기 보조 기능에서 요구되는 중요한 요소입니다. 이 분야의 연구를 더욱 발전시키기 위해, 본 논문은 "스마트 단어 제안(Smart Word Suggestions, SWS)" 작업과 벤치마크를 소개합니다. 기존 연구와 달리, SWS는 종단 간(end-to-end) 평가를 강조하며 더 현실적인 글쓰기 보조 시나리오를 제시합니다. 이 작업은 개선이 필요한 단어나 구문을 식별하고 대체 제안을 제공하는 과정을 포함합니다. 벤치마크는 테스트를 위한 인간이 라벨링한 데이터, 훈련을 위한 대규모 원격 감독( distantly supervised) 데이터셋, 그리고 평가를 위한 프레임워크로 구성됩니다. 테스트 데이터는 영어 학습자가 작성한 1,000개의 문장과 10명의 원어민이 주석을 단 16,000개 이상의 대체 제안으로 이루어져 있습니다. 훈련 데이터셋은 규칙을 통해 생성된 370만 개 이상의 문장과 1,270만 개의 제안을 포함합니다. 7개의 베이스라인을 사용한 실험 결과, SWS가 도전적인 작업임을 입증했습니다. 실험 분석을 바탕으로, SWS에 대한 향후 연구 방향을 제안합니다. 데이터셋과 관련 코드는 https://github.com/microsoft/SmartWordSuggestions에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 점점 더 다양한 작업에서 놀라운 예측 성능을 보여주고 있습니다. 그러나 이들의 급속한 확산과 점점 더 불투명해지는 특성으로 인해 해석 가능성에 대한 필요성이 커지고 있습니다. 본 연구에서는 블랙박스 텍스트 모듈에 대한 자연어 설명을 자동으로 얻을 수 있는지에 대해 질문합니다. 여기서 "텍스트 모듈"이란 텍스트를 스칼라 연속 값으로 매핑하는 모든 함수를 의미하며, 이는 LLM 내부의 하위 모듈이나 뇌 영역의 피팅된 모델 등을 포함합니다. "블랙박스"는 모듈의 입력/출력에만 접근할 수 있음을 나타냅니다. 우리는 Summarize and Score(SASC)라는 방법을 소개합니다. 이 방법은 텍스트 모듈을 입력으로 받아 모듈의 선택성에 대한 자연어 설명과 설명의 신뢰도를 나타내는 점수를 반환합니다. 우리는 SASC를 세 가지 맥락에서 연구합니다. 먼저, 합성 모듈에 대해 SASC를 평가하여 종종 실제 설명을 복구할 수 있음을 확인했습니다. 둘째, 사전 훈련된 BERT 모델 내부의 모듈을 설명하기 위해 SASC를 사용하여 모델의 내부를 검사할 수 있게 했습니다. 마지막으로, SASC가 언어 자극에 대한 개별 fMRI 복셀의 반응을 설명할 수 있음을 보여주며, 이는 세밀한 뇌 매핑에 대한 잠재적 응용 가능성을 시사합니다. SASC 사용 및 결과 재현을 위한 모든 코드는 Github에서 공개되었습니다.
온디바이스 자동 음성 인식 시스템은 서버 기반 시스템과 비교하여 여러 가지 과제에 직면합니다. 이러한 시스템은 동일한 정확도를 유지하면서 속도, 디스크 크기 및 메모리 측면에서 더 엄격한 제약 조건을 충족해야 합니다. 또한 종종 가상 어시스턴트와의 통신 및 음성-텍스트 변환과 같이 서로 다른 분포를 가진 여러 애플리케이션을 동시에 처리해야 합니다. 여러 애플리케이션을 처리하는 가장 간단한 해결책은 애플리케이션별 (언어) 모델을 구축하는 것이지만, 이는 메모리 사용량 증가로 이어집니다. 따라서 우리는 단일 애플리케이션-불특정 모델을 구축하기 위해 다양한 데이터 및 아키텍처 기반 언어 모델링 접근 방식을 탐구합니다. 우리는 온디바이스 제약 조건 사이에서 최적의 균형을 찾는 두 가지 새로운 피드포워드 아키텍처를 제안합니다. 애플리케이션별 해결책과 비교했을 때, 우리의 새로운 접근 방식 중 하나는 원본 모델의 속도와 정확도를 유지하면서 디스크 크기를 절반으로 줄입니다.
멀티뷰 스테레오(Multi-view Stereo, MVS)의 핵심은 참조 픽셀과 소스 픽셀 간의 매칭 과정입니다. 이 과정에서 비용 집계(cost aggregation)는 중요한 역할을 하며, 기존 방법들은 주로 CNN(Convolutional Neural Networks)을 통해 이를 처리하는 데 초점을 맞추었습니다. 그러나 CNN은 제한된 지역 수용 필드(local receptive field)로 인해 반복적이거나 잘못된 매칭을 구분하지 못하는 고유한 한계를 지니고 있습니다. 이러한 문제를 해결하기 위해 우리는 Transformer를 비용 집계 과정에 도입하고자 합니다. 하지만 Transformer로 인해 계산 복잡도가 제곱적으로 증가하면서 메모리 오버플로우와 추론 지연 문제가 발생할 수 있습니다. 본 논문에서는 이러한 한계를 극복하기 위해 효율적인 Transformer 기반 비용 집계 네트워크인 CostFormer를 제안합니다. 깊이 및 공간 차원에서 자기 주의 메커니즘(self-attention mechanism)을 통해 비용 볼륨(cost volume)의 장거리 특징을 집계하기 위해 잔여 깊이 인식 비용 Transformer(Residual Depth-Aware Cost Transformer, RDACT)를 제안합니다. 또한, 공간 주의력을 강화하기 위해 잔여 회귀 Transformer(Residual Regression Transformer, RRT)를 제안합니다. 제안된 방법은 학습 기반 MVS 방법을 개선하기 위한 범용 플러그인으로 사용될 수 있습니다.
대규모 다국어 언어 모델은 일반적인 신경망 번역 시스템에 제공되는 의도적인 번역 예제를 본 적이 없음에도 불구하고, 놀라울 정도로 우수한 제로샷 또는 퓨샷 기계 번역 능력을 보여줍니다. 우리는 대규모 언어 모델의 번역 능력을 설명하는 데 있어 '우연적 이중언어성(incidental bilingualism)'의 역할을 조사합니다. 여기서 우연적 이중언어성은 번역 예제를 포함한 이중언어 신호를 의도하지 않게 소비한 것을 의미하며, Pathways Language Model(PaLM)을 사례 연구로 삼습니다. 우리는 대규모로 우연적 이중언어성을 측정하고 이해하기 위한 혼합 방법론을 소개합니다. 이를 통해 PaLM이 최소 44개 언어에 걸쳐 3천만 개 이상의 번역 쌍에 노출되었음을 보여줍니다. 또한, 비영어 언어의 경우 우연적 이중언어 콘텐츠의 양은 해당 언어의 단일언어 콘텐츠의 양과 높은 상관관계를 보입니다. 우리는 우연적 이중언어 콘텐츠를 제로샷 프롬프트와 연관지어, 이를 통해 새로운 프롬프트를 발굴하여 PaLM의 영어 외 제로샷 번역 품질을 개선할 수 있음을 보여줍니다. 마지막으로, 일련의 소규모 제거 실험을 통해 우연적 이중언어성이 번역 능력에 상당한 영향을 미치지만, 이 영향은 모델 규모가 커질수록 감소함을 확인합니다.
우리는 다수의 대형 언어 모델(LLM)이 협상 게임을 통해 서로를 자율적으로 개선할 수 있는지, 즉 게임을 플레이하고, 성찰하며, 비판하는 과정을 통해 개선이 가능한지를 연구한다. 이 질문에 관심을 갖는 이유는, 만약 LLM이 서로를 개선할 수 있다면, 최소한의 인간 개입으로 강력한 AI 에이전트를 창출할 가능성이 있기 때문이다. 우리는 두 개의 LLM이 각각 구매자와 판매자의 역할을 맡아 서로 협상하도록 요청한다. 이들은 구매자는 낮은 가격을, 판매자는 높은 가격을 목표로 거래를 성사시키려 한다. 비평가 역할을 맡은 세 번째 언어 모델은 플레이어에게 피드백을 제공하여 협상 전략을 개선하도록 돕는다. 우리는 두 에이전트가 여러 라운드를 플레이하도록 하며, 이전 협상 기록과 AI 피드백을 문맥 내 데모로 활용하여 모델의 협상 전략을 반복적으로 개선한다. 우리는 서로 다른 역할에 대해 서로 다른 LLM(GPT와 Claude)을 사용하며, 거래 가격을 평가 지표로 활용한다. 실험 결과, 다음과 같은 흥미로운 발견을 얻었다: (1) 고려한 언어 모델 중 일부만이 자가 플레이를 통해 AI 피드백으로부터 거래 가격을 개선할 수 있었으며, 약한 모델은 게임 규칙을 이해하지 못하거나 AI 피드백을 추가 개선에 활용하지 못했다. (2) 모델의 피드백 학습 능력은 역할에 따라 달라졌다. 예를 들어, Claude-instant는 판매자 역할보다 구매자 역할에서 개선하기가 더 어려웠다. (3) 게임을 여러 라운드로 진행할 때, 강력한 에이전트는 이전 경험과 반복적인 AI 피드백을 의미 있게 활용하여 성능을 지속적으로 개선할 수 있었지만, 거래가 깨질 위험도 더 컸다. 우리는 이 연구가 게임 플레이와 AI 피드백을 통해 모델이 서로를 자율적으로 개선하는 초기 탐구로서 유의미한 통찰을 제공하기를 바란다.
세밀한 분류(fine-grained classification)는 동일한 범주 내 객체들 간의 미묘한 차이를 식별해야 하는 어려운 과제입니다. 이 작업은 특히 데이터가 부족한 시나리오에서 더욱 도전적입니다. 최근 시각 트랜스포머(Visual Transformer, ViT)는 자기 주의(self-attention) 메커니즘을 통해 시각 데이터의 높은 표현력을 학습할 수 있는 능력으로 인해 이미지 분류를 위한 강력한 도구로 부상했습니다. 본 연구에서는 주석이 달린 데이터가 부족한 상황에 적합한, 준지도 학습(semi-supervised learning) 기법을 사용하여 미세 조정된 ViT 모델인 Semi-ViT를 탐구합니다. 이는 특히 전자상거래 분야에서 흔히 발생하는데, 이미지는 쉽게 구할 수 있지만 레이블은 노이즈가 있거나 존재하지 않거나 얻는 데 비용이 많이 드는 경우가 많기 때문입니다. 우리의 실험 결과는 Semi-ViT가 제한된 주석 데이터로 미세 조정된 경우에도 기존의 합성곱 신경망(CNN)과 ViT를 능가함을 보여줍니다. 이러한 발견은 시각 데이터의 정밀하고 세밀한 분류가 필요한 응용 분야에서 Semi-ViT가 상당한 잠재력을 가지고 있음을 시사합니다.
본 연구는 IEEE 국제 로봇공학 및 자동화 컨퍼런스 2023의 '비전통적 공간 표현 워크숍'에서 발표되었습니다. 신경 방사 필드(Neural Radiance Fields, NeRFs)는 컬러 이미지로부터 3D 환경을 모델링하는 암묵적 장면 표현 기법의 한 종류입니다. NeRFs는 표현력이 뛰어나며, 실제 세계 환경의 복잡하고 다중 스케일의 기하학적 구조를 모델링할 수 있어 로봇공학 응용 분야에서 강력한 도구로 활용될 잠재력을 가지고 있습니다. 최신 NeRF 학습 라이브러리는 정적 데이터 세트로부터 몇 초 만에 사실적인 NeRF를 생성할 수 있지만, 오프라인 사용을 위해 설계되었으며 느린 포즈 최적화 사전 계산 단계가 필요합니다. 이 연구에서는 ROS(Robot Operating System)와 인기 있는 Nerfstudio 라이브러리 간의 실시간 온라인 NeRF 학습을 위한 오픈소스 브리지인 NerfBridge를 제안합니다. NerfBridge는 Nerfstudio가 제공하는 효율적인 학습 파이프라인과 모델 라이브러리에 대한 확장 가능한 인터페이스를 제공함으로써 로봇공학에서 NeRF 응용 연구의 신속한 개발을 가능하게 합니다. 예시 사용 사례로, 쿼드로터에 장착된 카메라로 촬영한 실내외 환경 이미지를 활용하여 NeRF를 학습하는 하드웨어 설정을 소개합니다. 동영상 및 코드는 다음 링크에서 확인할 수 있습니다: 동영상: https://youtu.be/EH0SLn-RcDg 코드: https://github.com/javieryu/nerf_bridge
광고 및 스토리 비디오와 같은 멀티미디어 콘텐츠는 창의성과 다양한 모달리티가 풍부하게 혼합된 형태를 보여줍니다. 이러한 콘텐츠는 텍스트, 시각적 요소, 오디오, 스토리텔링 기법과 같은 요소를 통합하며, 감정, 상징, 슬로건과 같은 장치를 활용하여 의미를 전달합니다. 기존의 멀티미디어 이해 연구는 주로 요리와 같은 특정 동작이 포함된 비디오에 초점을 맞추어 왔으며, 대규모로 주석이 달린 훈련 데이터셋의 부재로 인해 실제 응용에서 만족스러운 성능을 보이는 지도 학습 모델의 개발이 어려웠습니다. 그러나 대규모 언어 모델(LLM)의 등장으로 감정 분류, 질문-응답, 주제 분류와 같은 다양한 자연어 처리(NLP) 작업에서 놀라운 제로샷 성능이 관찰되었습니다. 멀티미디어 이해에서의 이러한 성능 격차를 해소하기 위해, 우리는 스토리 비디오를 자연어로 설명하는 방식으로 변환한 후, 원본 비디오 대신 생성된 스토리에 대해 비디오 이해 작업을 수행하는 방법을 제안합니다. 다섯 가지 비디오 이해 작업에 대한 광범위한 실험을 통해, 우리의 방법이 제로샷 접근임에도 불구하고 비디오 이해를 위한 지도 학습 베이스라인보다 훨씬 더 나은 결과를 달성함을 입증했습니다. 또한, 스토리 이해 벤치마크의 부족을 해소하기 위해, 계산 사회과학에서 중요한 작업인 설득 전략 식별에 대한 최초의 데이터셋을 공개합니다.