번역이 포함된 일일 선별된 AI 연구 논문
트랜스포머(Transformers)는 거의 모든 자연어 처리(NLP) 작업에 혁명을 일으켰지만, 시퀀스 길이에 따라 제곱으로 증가하는 메모리 및 계산 복잡성 문제를 안고 있습니다. 반면, 순환 신경망(RNNs)은 메모리와 계산 요구 사항이 선형적으로 증가하지만, 병렬화 및 확장성의 한계로 인해 트랜스포머와 동일한 성능을 내기 어렵습니다. 우리는 트랜스포머의 효율적인 병렬화 학습과 RNN의 효율적인 추론을 결합한 새로운 모델 아키텍처인 Receptance Weighted Key Value(RWKV)를 제안합니다. 우리의 접근 방식은 선형 어텐션 메커니즘을 활용하여 모델을 트랜스포머 또는 RNN으로 공식화할 수 있게 하며, 학습 중에는 계산을 병렬화하고 추론 중에는 일정한 계산 및 메모리 복잡도를 유지함으로써 수백억 개의 파라미터로 확장된 최초의 비-트랜스포머 아키텍처를 구현합니다. 우리의 실험 결과, RWKV는 동일한 크기의 트랜스포머와 비슷한 성능을 보여주며, 이 아키텍처를 활용하여 더 효율적인 모델을 만들 수 있는 가능성을 제시합니다. 이 연구는 시퀀스 처리 작업에서 계산 효율성과 모델 성능 간의 트레이드오프를 조화시키는 데 있어 중요한 진전을 이루었습니다.
최근 대규모 언어 모델(LLM)의 발전은 매우 인상적입니다. 그러나 이러한 모델들은 때때로 사실을 왜곡하거나, 결함이 있는 코드를 생성하거나, 공격적이고 유해한 콘텐츠를 만들어내는 등 일관성 없는 문제 행동을 보이기도 합니다. 이러한 모델들과 달리, 인간은 일반적으로 초기 콘텐츠를 교차 검증하고 개선하기 위해 외부 도구를 활용합니다. 예를 들어, 사실 확인을 위해 검색 엔진을 사용하거나, 디버깅을 위해 코드 인터프리터를 사용하는 것과 같은 방식입니다. 이러한 관찰에서 영감을 받아, 우리는 LLM이 인간의 도구 상호작용과 유사한 방식으로 자신의 출력을 검증하고 점진적으로 수정할 수 있도록 하는 CRITIC이라는 프레임워크를 소개합니다. 보다 구체적으로, CRITIC은 초기 출력을 시작으로 적절한 도구와 상호작용하여 텍스트의 특정 측면을 평가하고, 이 검증 과정에서 얻은 피드백을 바탕으로 출력을 수정합니다. 자유 형식 질문 답변, 수학적 프로그램 합성, 유해성 감소 등 포괄적인 평가를 통해 CRITIC이 LLM의 성능을 지속적으로 향상시킨다는 것을 입증했습니다. 동시에, 우리의 연구는 외부 피드백이 LLM의 지속적인 자기 개선을 촉진하는 데 있어 중요한 역할을 한다는 점을 강조합니다.
텍스트 기반 확산 모델은 이미지 생성 분야에서 전례 없는 능력을 발휘하고 있지만, 시간적 모델링의 과도한 학습 비용으로 인해 비디오 생성은 여전히 뒤처져 있습니다. 학습 부담 외에도 생성된 비디오는 특히 긴 비디오 합성에서 외관 불일치와 구조적 깜빡임 문제를 겪습니다. 이러한 문제를 해결하기 위해, 우리는 자연스럽고 효율적인 텍스트-투-비디오 생성을 가능하게 하는 학습이 필요 없는 프레임워크인 ControlVideo를 설계했습니다. ControlVideo는 ControlNet에서 적응되어 입력된 동작 시퀀스로부터 대략적인 구조적 일관성을 활용하고, 비디오 생성을 개선하기 위해 세 가지 모듈을 도입합니다. 첫째, 프레임 간의 외관 일관성을 보장하기 위해 ControlVideo는 자기 주의(self-attention) 모듈에 완전한 프레임 간 상호작용을 추가합니다. 둘째, 깜빡임 효과를 완화하기 위해 교차 프레임 보간을 사용하는 인터리브 프레임 스무더를 도입합니다. 마지막으로, 긴 비디오를 효율적으로 생성하기 위해 전체적인 일관성을 유지하며 각 짧은 클립을 별도로 합성하는 계층적 샘플러를 활용합니다. 이러한 모듈을 통해 ControlVideo는 다양한 동작-프롬프트 쌍에서 양적 및 질적으로 최신 기술을 능가합니다. 특히, 효율적인 설계 덕분에 하나의 NVIDIA 2080Ti를 사용하여 짧은 비디오와 긴 비디오를 모두 몇 분 내에 생성할 수 있습니다. 코드는 https://github.com/YBYBZhang/ControlVideo에서 확인할 수 있습니다.
자율 웹 탐색의 발전은 온라인 강화 학습을 통한 수십억 건의 탐색적 상호작용에 대한 의존성과, 풍부한 도메인 외 데이터로부터의 일반화를 활용하기 어렵게 만드는 도메인 특화 모델 설계로 인해 지체되어 왔습니다. 본 연구에서는 비전-언어 기반 모델을 활용한 웹 에이전트의 데이터 기반 오프라인 훈련을 탐구합니다. 우리는 웹페이지 스크린샷과 HTML 페이지를 모두 관찰하고 클릭 및 입력과 같은 웹 탐색 동작을 출력하는 명령어 기반 멀티모달 에이전트인 WebGUM을 제안합니다. WebGUM은 명령어 미세 조정된 언어 모델과 비전 트랜스포머를 대규모 데모 데이터셋에서 공동으로 미세 조정하여 훈련됩니다. 우리는 이 방법론이 에이전트의 시각적 인지, HTML 이해 및 다단계 추론 능력을 향상시키며, 기존 연구를 상당한 차이로 능가함을 실증적으로 입증합니다. MiniWoB 벤치마크에서는 이전 최고의 오프라인 방법 대비 31.9% 이상의 성능 향상을 달성하며, 온라인 미세 조정된 최신 기술(SoTA)에 근접한 성능을 보입니다. WebShop 벤치마크에서는 30억 파라미터 모델이 기존 SoTA인 PaLM-540B를 능가하는 우수한 성능을 달성합니다. 또한, 우리는 훈련된 모델을 사용하여 347,000건의 고품질 데모 데이터를 수집하였으며, 이는 기존 연구 대비 38배 규모로, 이 방향의 향후 연구를 촉진하기 위해 공개합니다.
확산 모델(Diffusion models)은 로그 가능도 목적 함수에 대한 근사치를 사용하여 학습되는 유연한 생성 모델의 한 종류입니다. 그러나 확산 모델의 대부분의 사용 사례는 가능도 자체보다는 인간이 인지하는 이미지 품질이나 약물 효과성과 같은 하위 목표에 더 관심을 둡니다. 본 논문에서는 이러한 목표를 직접 최적화하기 위해 확산 모델에 강화 학습 방법을 적용하는 방식을 탐구합니다. 우리는 노이즈 제거(denoising)를 다단계 의사결정 문제로 설정함으로써 정책 경사 알고리즘의 한 종류를 가능하게 하는 방법을 설명하며, 이를 노이즈 제거 확산 정책 최적화(DDPO, Denoising Diffusion Policy Optimization)라고 부릅니다. DDPO는 대안적인 보상 가중 가능도 접근법보다 더 효과적임을 보여줍니다. 실험적으로, DDPO는 텍스트-이미지 확산 모델을 프롬프트로 표현하기 어려운 목표(예: 이미지 압축성)나 인간 피드백에서 도출된 목표(예: 미적 품질)에 적응시킬 수 있습니다. 마지막으로, DDPO가 시각-언어 모델의 피드백을 사용하여 추가 데이터 수집이나 인간 주석 없이도 프롬프트-이미지 정렬을 개선할 수 있음을 보여줍니다.
최근 몇 년간 이미지 생성 분야에서는 확산 모델(diffusion model)이 중심적인 역할을 하며 성능 면에서 큰 도약을 이루어냈습니다. 이러한 모델들은 고품질의 이미지를 생성할 수 있지만, 주로 텍스트 설명에 기반하여 조건화(conditioning)됩니다. 이는 "다른 모달리티를 기반으로 이러한 모델을 어떻게 적용할 수 있을까?"라는 질문을 제기합니다. 본 논문에서는 텍스트-이미지 생성을 위해 학습된 잠재 확산 모델(latent diffusion model)을 활용하여 오디오 녹음을 기반으로 이미지를 생성하는 새로운 방법을 제안합니다. 사전 학습된 오디오 인코딩 모델을 사용하여, 제안된 방법은 오디오를 새로운 토큰으로 인코딩하며, 이는 오디오와 텍스트 표현 사이의 적응 계층(adaptation layer)으로 간주될 수 있습니다. 이러한 모델링 패러다임은 학습 가능한 매개변수의 수가 적어 경량 최적화(lightweight optimization)에 적합한 접근 방식을 제공합니다. 객관적 및 주관적 지표를 고려할 때, 제안된 방법은 평가된 기준 방법들보다 우수한 성능을 보여줍니다. 코드와 샘플은 https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken에서 확인할 수 있습니다.
Differentiable Search Index로 대중화된 생성적 검색(Generative Retrieval)의 새로운 패러다임은 기존의 정보 검색 문제를 시퀀스-투-시퀀스 모델링 작업으로 재구성하며, 외부 인덱스를 배제하고 전체 문서 코퍼스를 단일 Transformer 내에 인코딩합니다. 생성적 검색의 효과를 개선하기 위해 다양한 접근 방식이 제안되었지만, 이들은 대부분 10만 규모의 문서 코퍼스에서만 평가되었습니다. 본 연구에서는 다양한 규모의 코퍼스에 걸쳐 생성적 검색 기술을 처음으로 실증적으로 연구하며, 최종적으로 880만 개의 패시지로 구성된 MS MARCO 패시지 랭킹 작업 전체를 대상으로 모델 크기를 최대 110억 파라미터까지 확장하여 평가합니다. 우리는 수백만 개의 패시지로 생성적 검색을 확장하는 과정에서 몇 가지 중요한 발견을 했습니다. 특히, 인덱싱 과정에서 합성 쿼리를 문서 표현으로 사용하는 것의 핵심 중요성, 계산 비용을 고려할 때 기존에 제안된 아키텍처 수정의 비효율성, 그리고 검색 성능과 관련하여 모델 파라미터를 단순히 확장하는 것의 한계 등이 그 예입니다. 우리는 생성적 검색이 소규모 코퍼스에서 최신의 이중 인코더(Dual Encoder)와 경쟁력이 있음을 확인했지만, 수백만 개의 패시지로 확장하는 것은 여전히 중요한 해결되지 않은 과제로 남아 있습니다. 이러한 연구 결과는 생성적 검색의 현재 상태를 명확히 하고, 독특한 도전 과제를 강조하며, 새로운 연구 방향을 제시하는 데 있어 커뮤니티에 가치 있는 통찰을 제공할 것이라 믿습니다.
오디오 처리 분야에서 전이 학습(Transfer Learning)은 자기 지도 학습(Self-Supervised Learning)과 제로샷 학습(Zero-Shot Learning) 기술의 부상을 촉진했습니다. 이러한 접근 방식은 다양한 작업을 처리할 수 있는 다재다능한 모델의 개발로 이어졌으며, 최첨단 성능을 제공하고 있습니다. 그러나 현재의 모델은 오디오 캡셔닝(Audio Captioning)이나 오디오 질의응답(Audio Question & Answering)과 같은 개방형 작업에 필요한 언어를 생성하는 능력이 본질적으로 부족합니다. 우리는 Pengi라는 새로운 오디오 언어 모델을 소개합니다. 이 모델은 모든 오디오 작업을 텍스트 생성 작업으로 재구성하여 전이 학습을 활용합니다. Pengi는 오디오 녹음과 텍스트를 입력으로 받아 자유 형식의 텍스트를 출력으로 생성합니다. 입력 오디오는 오디오 인코더에 의해 연속적인 임베딩 시퀀스로 표현되며, 텍스트 인코더는 해당 텍스트 입력에 대해 동일한 작업을 수행합니다. 두 시퀀스는 사전 훈련된 고정 언어 모델을 프롬프트하기 위한 접두사로 결합됩니다. Pengi의 통합 아키텍처는 추가적인 미세 조정이나 작업별 확장 없이도 개방형 작업과 폐쇄형 작업을 모두 가능하게 합니다. 22개의 하위 작업에 대해 평가했을 때, 우리의 접근 방식은 여러 작업에서 최첨단 성능을 보여주었습니다. 우리의 결과는 언어 모델과 오디오 모델을 연결하는 것이 범용 오디오 이해를 향한 중요한 단계임을 보여줍니다.
최근 대규모 언어 모델(Large Language Models)의 사전 학습에서의 급속한 발전은 다음 토큰 예측(next token prediction)이나 범위 손상(span corruption)과 같은 자기 지도(self-supervised) 언어 모델링 목적 함수를 사용함에 따라 이루어졌습니다. 반면, 기계 번역 시스템(Machine Translation Systems)은 대부분 소스 언어와 대상 언어 간의 정렬된 데이터가 필요한 교차 언어 지도(cross-lingual supervision)를 통해 학습됩니다. 우리는 자기 지도 언어 모델링 목적 함수와 지도된 기계 번역 목적 함수를 혼합하여 사전 학습을 수행함으로써, 즉 사전 학습 과정에서 교차 언어 병렬 데이터를 포함시킴으로써, 컨텍스트 내 학습(in-context learning) 능력이 더 뛰어난 모델을 얻을 수 있음을 보여줍니다. 사전 학습은 매우 자원 집약적인 과정이며, 두 목적 함수 간의 최적 혼합 비율을 그리드 탐색(grid search)으로 찾는 것은 비용이 너무 많이 들기 때문에, 우리는 사전 학습 과정에서 이를 학습할 수 있는 간단하지만 효과적인 전략을 제안합니다.
대형 언어 모델(LLMs)은 학습 데이터의 상당 부분을 암기하는 것으로 알려져 있습니다. 이 암기된 콘텐츠의 일부는 단순히 모델에 질의함으로써 추출 가능한 것으로 나타나며, 이는 프라이버시 위험을 초래합니다. 본 연구에서는 프롬프트 튜닝을 활용하여 LLM에서 암기된 콘텐츠의 추출률을 제어하는 새로운 접근 방식을 제시합니다. 추출률을 증가시키고 감소시키는 두 가지 프롬프트 학습 전략을 제안하며, 이는 각각 공격과 방어에 해당합니다. GPT-Neo 계열 모델을 공개 벤치마크에 적용하여 우리 기법의 효과를 입증합니다. 1.3B 파라미터 GPT-Neo 모델의 경우, 우리의 공격 기법은 기준선 대비 추출률을 9.3% 포인트 증가시켰습니다. 우리의 방어 기법은 사용자가 지정한 하이퍼파라미터를 통해 다양한 프라이버시-유틸리티 트레이드오프를 달성할 수 있도록 조정 가능합니다. 기준선 대비 최대 97.7%의 추출률 감소를 달성했으며, 이때 perplexity는 16.9% 증가했습니다.
대규모 언어 모델(LLM)은 소량의 프롬프트를 통해 더 작고 정제된 데이터셋을 생성하여 벤치마킹, 미세 조정 또는 기타 용도로 사용할 수 있습니다. 그러나 이러한 데이터셋을 이해하고 평가하는 것은 어려우며, LLM이 생성한 데이터의 실패 모드는 아직 잘 알려져 있지 않습니다. 특히, 데이터는 의미적으로 뿐만 아니라 구문적으로 그리고 어휘적으로도 놀라운 방식으로 반복될 수 있습니다. 우리는 LLM 생성 데이터셋의 구문적 다양성을 이해하고 분석하기 위한 새로운 인터랙티브 시각화 도구인 LinguisticLens를 소개합니다. LinguisticLens는 텍스트를 구문, 어휘 및 의미 축을 따라 클러스터링합니다. 이 도구는 텍스트 데이터셋의 계층적 시각화를 지원하여 사용자가 빠르게 개요를 스캔하고 개별 예시를 검사할 수 있게 합니다. 라이브 데모는 shorturl.at/zHOUV에서 확인할 수 있습니다.
트랜스포머 기반 단방향 언어 모델의 표현이 자연어에 대한 뇌 반응을 예측하는 데 효과적이라는 것은 잘 알려져 있습니다. 그러나 뇌와 언어 모델을 비교한 대부분의 연구에서는 GPT-2 또는 이와 유사한 크기의 언어 모델을 사용했습니다. 본 연구에서는 OPT 및 LLaMA 계열과 같은 더 큰 오픈소스 모델이 fMRI를 사용해 기록된 뇌 반응을 예측하는 데 더 나은 성능을 보이는지 테스트했습니다. 다른 맥락에서의 스케일링 결과와 마찬가지로, 125M에서 30B 파라미터 모델까지 모델 크기가 커짐에 따라 뇌 예측 성능이 로그 선형적으로 증가하며, 3명의 피험자에 걸쳐 보류된 테스트 세트와의 상관관계로 측정한 인코딩 성능이 약 15% 향상되는 것을 확인했습니다. fMRI 훈련 세트의 크기를 스케일링할 때도 유사한 로그 선형적 행동이 관찰되었습니다. 또한 HuBERT, WavLM, Whisper를 사용하는 음향 인코딩 모델의 스케일링을 특성화했으며, 모델 크기에 따라 비슷한 수준의 개선이 나타났습니다. 이러한 대규모 고성능 인코딩 모델에 대한 노이즈 천장 분석 결과, 전대상피질 및 고차 청각 피질과 같은 뇌 영역에서의 성능이 이론적 최대치에 근접하고 있음을 보여주었습니다. 이러한 결과는 모델과 데이터의 규모를 증가시키면 뇌의 언어 처리 모델이 매우 효과적으로 개선되어 더 나은 과학적 이해와 디코딩과 같은 응용 프로그램을 가능하게 할 것임을 시사합니다.
스테레오타입 벤치마크 데이터셋은 NLP 모델에서 특정 그룹에 대한 사회적 스테레오타입을 탐지하고 완화하는 데 중요한 역할을 합니다. 그러나 기존 데이터셋은 크기와 범위가 제한적이며, 주로 서구 사회에서 유행하는 스테레오타입에 국한되어 있습니다. 이는 언어 기술이 전 세계적으로 확산됨에 따라 특히 문제가 됩니다. 이러한 격차를 해결하기 위해, 우리는 PaLM, GPT-3와 같은 대형 언어 모델의 생성 능력을 활용하고, 전 세계적으로 다양한 평가자 풀을 활용하여 사회에서 이러한 스테레오타입의 유행을 검증한 광범위한 스테레오타입 데이터셋인 SeeGULL을 제시합니다. SeeGULL은 영어로 작성되었으며, 6개 대륙에 걸친 8개의 지리적 정치적 지역과 미국 및 인도 내 주 단위의 정체성을 포함하여 178개국의 정체성 그룹에 대한 스테레오타입을 담고 있습니다. 또한, 다양한 스테레오타입에 대한 세분화된 공격성 점수를 포함하고 이를 통해 전 세계적인 차이를 보여줍니다. 더 나아가, 해당 지역에 거주하는 주석자와 북미에 기반을 둔 주석자가 동일한 그룹에 대해 비교 주석을 제공하며, 지역 내 스테레오타입이 북미에서 유행하는 것과 다르다는 것을 입증합니다. 주의: 본 논문은 공격적일 수 있는 스테레오타입 예시를 포함하고 있습니다.
특히 소프트웨어 엔지지링(SE) 작업에서의 자동화는 이론에서 현실로 전환되었습니다. 수많은 학술 논문들이 프로젝트 관리, 모델링, 테스트, 개발과 같은 영역에서의 문제를 해결하기 위해 인공지능을 성공적으로 적용한 사례를 기록해 왔습니다. 최근의 혁신으로는 프로그래밍 코드 생성과 소프트웨어 테스트 전략 수립에 능숙한 리소스로 평가받는 머신러닝 기반 챗봇인 ChatGPT의 도입이 있습니다. 비록 인공지능 기반 컴퓨팅이 생산성을 높이고 심지어 소프트웨어 개발에서 소프트웨어 엔지니어를 대체할 수 있다는 추측이 있지만, 이를 검증할 실증적 증거는 현재 부족한 상황입니다. 더욱이, 인공지능 시스템의 정확도 향상에 주된 초점이 맞춰져 있는 반면, 에너지 효율성, 취약성, 공정성(즉, 인간의 편견), 안전성과 같은 비기능적 요구사항들은 종종 충분한 주의를 받지 못하고 있습니다. 본 논문은 다양한 평가 기준을 고려하여 소프트웨어 엔지니어와 인공지능 기반 솔루션을 포괄적으로 비교하는 것이 인간-기계 협업을 촉진하고, 인공지능 기반 방법의 신뢰성을 높이며, 인간 또는 인공지능에 적합한 작업을 이해하는 데 있어 핵심적이라고 주장합니다. 또한, 이는 협업 작업 구조와 인간-루프 프로세스의 효과적인 구현을 용이하게 합니다. 본 논문은 소프트웨어 엔지니어와 ChatGPT와 같은 인공지능 시스템의 성능을 다양한 평가 지표에 걸쳐 대조하는 실증적 조사를 수행합니다. 이 실증적 연구에는 ChatGPT가 생성한 코드와 개발자가 작성하여 Leetcode에 업로드한 코드를 평가하는 사례가 포함됩니다.
선택적 정보 요구를 공식화하면 교집합, 합집합, 차집합과 같은 집합 연산을 암시적으로 지정하는 쿼리가 생성됩니다. 예를 들어, "도요새가 아닌 물떼새"나 "영국에서 촬영된 공상과학 영화"와 같은 검색이 있을 수 있습니다. 이러한 정보 요구를 충족시키기 위한 검색 시스템의 능력을 연구하기 위해, 우리는 위키피디아 문서에 해당하는 엔티티 집합에 매핑되는 암시적 집합 연산이 포함된 3,357개의 자연어 쿼리로 구성된 QUEST 데이터셋을 구축했습니다. 이 데이터셋은 모델이 쿼리에 언급된 여러 제약 조건을 문서 내의 해당 증거와 매칭하고 다양한 집합 연산을 올바르게 수행할 수 있는지를 평가합니다. 데이터셋은 위키피디아 카테고리 이름을 사용하여 반자동으로 구축되었습니다. 쿼리는 개별 카테고리에서 자동으로 구성된 후, 크라우드워커에 의해 자연스러움과 유창성을 위해 패러프레이징되고 추가 검증됩니다. 크라우드워커는 또한 문서를 기반으로 엔티티의 관련성을 평가하고, 쿼리 제약 조건이 문서 텍스트의 특정 부분에 어떻게 기인하는지 강조합니다. 우리는 여러 현대 검색 시스템을 분석한 결과, 이러한 쿼리에서 종종 어려움을 겪는 것을 발견했습니다. 특히 부정과 접속이 포함된 쿼리는 특히 어려우며, 이러한 연산의 조합은 시스템에 더 큰 도전을 제기합니다.
대규모 언어 모델(LLM)의 등장은 자연어 처리 분야에 상당한 영향을 미치며, 다양한 과제에서 탁월한 성과를 입증해 왔습니다. 본 연구에서는 LLM이 의사결정 과정을 스스로 최적화할 수 있도록 돕기 위해 '내성적 팁(Introspective Tips)'을 활용합니다. LLM은 궤적을 내성적으로 검토함으로써 간결하고 유용한 팁을 생성하여 자신의 정책을 개선합니다. 우리의 방법은 에이전트의 과거 경험에서 학습하고, 전문가의 시범을 통합하며, 다양한 게임 간 일반화를 고려함으로써 소수 샷(few-shot) 및 제로 샷(zero-shot) 학습 상황에서 에이전트의 성능을 향상시킵니다. 특히, 이러한 개선은 LLM의 파라미터를 미세 조정하지 않고도 이루어지며, 대신 프롬프트를 조정하여 앞서 언급한 세 가지 상황에서의 통찰력을 일반화합니다. 우리의 프레임워크는 LLM을 문맥 내 의사결정에 활용할 때의 이점을 강조하고 지원합니다. TextWorld에서 100개 이상의 게임을 대상으로 한 실험은 우리의 접근 방식이 우수한 성능을 보임을 입증합니다.
대형 언어 모델(LLM)은 개방형 도메인 작업에서 인기를 얻고 뛰어난 성과를 거두었지만, 특정 지식이 부족하기 때문에 실제 산업 현장의 도메인 특화 시나리오에서는 평균적인 성능을 보입니다. 이 문제는 광범위한 관심을 받고 있지만, 관련 벤치마크는 거의 없는 실정입니다. 본 논문에서는 마이크로소프트 제품과 고객이 겪는 IT 기술 문제에 관한 질의응답(QA) 데이터셋인 MSQA를 제공합니다. 이 데이터셋은 일반적인 LLM에서는 접할 수 없는 산업 클라우드 특화 QA 지식을 포함하고 있어, LLM의 도메인 특화 능력을 향상시키는 방법을 평가하는 데 적합합니다. 또한, 우리는 LLM이 능숙하지 않은 도메인 특화 작업에서 더 나은 성능을 발휘할 수 있도록 하는 새로운 모델 상호작용 패러다임을 제안합니다. 광범위한 실험을 통해 우리의 모델 융합 프레임워크를 따르는 접근 방식이 일반적으로 사용되는 LLM과 검색 방법을 능가함을 입증했습니다.
본 논문에서는 디자인 문제에서의 반사실적 최적화를 위한 새로운 방법론인 다목적 반사실적 디자인(Multi-Objective Counterfactuals for Design, MCD)을 소개합니다. 반사실적 상황은 다른 결정이나 선택으로 이어질 수 있는 가상의 시나리오를 의미합니다. 본 논문에서는 반사실적 탐색 문제를 디자인 개선을 위한 추천 도구로 재구성하여, 더 나은 기능적 성능을 이끌어낼 수 있는 디자인 수정 사항을 식별하는 데 도움을 줄 수 있도록 합니다. MCD는 디자인 문제에서 중요한 다목적 질의를 지원하고, 반사실적 탐색과 샘플링 과정을 분리함으로써 기존의 반사실적 탐색 방법을 개선하여 효율성을 높이고 목표 간 상충 관계 시각화를 용이하게 합니다. 본 논문에서는 2차원 테스트 케이스를 통해 MCD의 핵심 기능을 시연한 후, 실제 디자인 문제에서 MCD의 효과를 입증하기 위해 자전거 디자인에 대한 세 가지 사례 연구를 제시합니다. 첫 번째 사례 연구에서 MCD는 질의 디자인에 대한 수정 사항을 추천하여 무게 절감 및 구조적 안전 계수 개선과 같은 기능적 성능을 크게 향상시키는 데 탁월한 성과를 보여줍니다. 두 번째 사례 연구에서는 MCD가 사전 훈련된 언어 모델과 협력하여 주관적인 텍스트 프롬프트를 기반으로 디자인 변경 사항을 효과적으로 제안할 수 있음을 입증합니다. 마지막으로, 저자들은 MCD에 복잡한 다중 모드 질의를 수행하도록 하여, 질의 디자인의 무게를 줄이고 구조적 성능을 개선하면서도 목표 이미지 및 텍스트 프롬프트와의 유사성을 동시에 높이는 과제를 부여함으로써 MCD의 성능을 입증합니다. 전반적으로, MCD는 가상의 디자인 수정 사항과 여러 디자인 목표에 미치는 영향을 탐색함으로써 실무자와 디자인 자동화 연구자들이 "만약에"라는 질문에 대한 답을 찾는 데 유용한 추천을 제공할 수 있는 잠재력을 가지고 있습니다. 본 논문에서 사용된 코드, 테스트 문제 및 데이터셋은 decode.mit.edu/projects/counterfactuals/에서 공개되어 있습니다.
발달 심리학자들은 수십 년 동안 유아와 아동의 지능과 지식을 테스트하고 중요한 개념과 능력의 기원을 추적하기 위한 실험을 고안해 왔습니다. 더 나아가, 발달 심리학의 실험 기법은 특정 행동을 뒷받침하는 인지 능력을 구별하기 위해 신중하게 설계되었습니다. 우리는 아동 발달 분야의 고전적인 실험을 활용하는 것이 일반적으로 AI 모델, 특히 대형 언어 모델(LLM)의 계산 능력을 탐구하는 데 특히 효과적인 방법이라고 제안합니다. 첫째, 발달 심리학의 방법론적 기법, 예를 들어 과거 경험을 통제하기 위한 새로운 자극의 사용이나 단순한 연관성을 사용하는지 여부를 판단하기 위한 통제 조건 등은 LLM의 능력을 평가하는 데 동등하게 유용할 수 있습니다. 동시에, 이러한 방식으로 LLM을 테스트함으로써 텍스트에 인코딩된 정보가 특정 반응을 가능하게 하는 데 충분한지, 아니면 물리적 세계 탐색과 같은 다른 종류의 정보에 의존하는지 여부를 알 수 있습니다. 본 연구에서는 구글의 대형 언어 모델인 LaMDA의 능력을 평가하기 위해 고전적인 발달 실험을 적용했습니다. 우리는 GPT와 같은 다른 언어 모델을 평가하는 데 사용할 수 있는 새로운 LLM 응답 점수(LRS) 메트릭을 제안합니다. 우리는 LaMDA가 사회적 이해와 관련된 실험에서 아동과 유사한 적절한 응답을 생성한다는 것을 발견했는데, 이는 이러한 영역의 지식이 언어를 통해 발견된다는 증거를 제공할 수 있습니다. 반면, LaMDA의 초기 물체 및 행동 이해, 마음 이론, 특히 인과적 추론 과제에서의 응답은 어린 아동과 매우 달랐는데, 이는 이러한 영역이 더 많은 현실 세계에서의 자기 주도적 탐색을 필요로 하며 단순히 언어 입력의 패턴으로부터 학습될 수 없음을 보여줄 수 있습니다.