번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)과 시각-언어 모델(VLM)은 상식 추론과 같은 다양한 작업에서 뛰어난 성능을 보여주는 것으로 입증되었습니다. 이러한 모델들이 강력할지라도, 이들은 공간 관계, 어포던스, 물리학, 레이아웃 등과 같은 더 풍부한 개념을 포함하는 3D 물리 세계에 기반을 두고 있지 않습니다. 본 연구에서는 3D 세계를 대형 언어 모델에 주입하고, 완전히 새로운 3D-LLM 패밀리를 소개합니다. 구체적으로, 3D-LLM은 3D 포인트 클라우드와 그 특징을 입력으로 받아 캡션 생성, 밀집 캡션 생성, 3D 질문 응답, 작업 분해, 3D 그라운딩, 3D 지원 대화, 네비게이션 등 다양한 3D 관련 작업을 수행할 수 있습니다. 우리가 설계한 세 가지 유형의 프롬프트 메커니즘을 사용하여 이러한 작업을 포괄하는 300k 이상의 3D-언어 데이터를 수집할 수 있었습니다. 3D-LLM을 효율적으로 학습시키기 위해, 먼저 렌더링된 다중 뷰 이미지에서 3D 특징을 추출하는 3D 특징 추출기를 활용합니다. 그런 다음, 2D VLM을 백본으로 사용하여 3D-LLM을 학습시킵니다. 3D 위치 지정 메커니즘을 도입함으로써, 3D-LLM은 3D 공간 정보를 더 잘 포착할 수 있습니다. ScanQA에 대한 실험에서 우리의 모델은 최첨단 베이스라인을 큰 차이로 능가하는 것으로 나타났습니다(예: BLEU-1 점수가 최첨단 점수를 9% 초과). 또한, 3D 캡션 생성, 작업 구성, 3D 지원 대화를 위한 우리의 보유 데이터셋에 대한 실험에서 우리의 모델은 2D VLM을 능가하는 성능을 보였습니다. 질적 예제는 또한 우리의 모델이 기존 LLM과 VLM의 범위를 넘어 더 많은 작업을 수행할 수 있음을 보여줍니다. 프로젝트 페이지: https://vis-www.cs.umass.edu/3dllm/.
사전 학습된 대규모 언어 모델(LLMs)은 최근 자율 웹 탐색에서 더 나은 일반화와 샘플 효율성을 달성했습니다. 그러나 실제 웹사이트에서의 성능은 여전히 (1) 개방 도메인 특성, (2) 제한된 컨텍스트 길이, (3) HTML에 대한 귀납적 편향 부족으로 인해 어려움을 겪고 있습니다. 우리는 자연어 지시에 따라 실제 웹사이트에서 작업을 완료할 수 있는 LLM 기반 에이전트인 WebAgent를 소개합니다. WebAgent는 지시를 표준 하위 지시로 분해하여 미리 계획을 세우고, 긴 HTML 문서를 작업 관련 요약본으로 요약하며, 이를 통해 생성된 Python 프로그램을 사용하여 웹사이트에서 행동합니다. 우리는 WebAgent를 Flan-U-PaLM을 사용하여 코드 생성을 기반으로 설계하고, 긴 HTML 문서를 위한 새로운 사전 학습된 LLM인 HTML-T5를 사용하여 로컬 및 글로벌 주의 메커니즘과 장거리 노이즈 제거 목표의 혼합을 통해 계획 및 요약을 수행합니다. 우리는 이 방법론이 실제 웹사이트에서의 성공률을 50% 이상 향상시키고, HTML-T5가 HTML 기반 작업을 해결하는 최고의 모델임을 실증적으로 입증했습니다. HTML-T5는 MiniWoB 웹 탐색 벤치마크에서 이전 최고 기술(SoTA)보다 14.9% 더 높은 성공률을 달성했으며, 오프라인 작업 계획 평가에서도 더 나은 정확도를 보였습니다.
이미지 생성 및 편집 분야에서 거의 탐구되지 않은 한 가지 영역은 두 입력 이미지 간의 보간 작업으로, 이는 현재 배포된 모든 이미지 생성 파이프라인에서 누락된 기능입니다. 우리는 이러한 기능이 해당 모델의 창의적인 응용을 확장할 수 있다고 주장하며, 잠재 확산 모델을 사용한 제로샷 보간 방법을 제안합니다. 우리는 잠재 공간에서 일련의 감소하는 노이즈 수준에서 보간을 적용한 다음, 텍스트 역전 및 (선택적으로) 대상 포즈에서 파생된 보간된 텍스트 임베딩을 조건으로 디노이징을 수행합니다. 더 높은 일관성을 위해 또는 추가 기준을 지정하기 위해 여러 후보를 생성하고 CLIP을 사용하여 가장 높은 품질의 이미지를 선택할 수 있습니다. 우리는 다양한 대상 포즈, 이미지 스타일 및 이미지 콘텐츠에 걸쳐 설득력 있는 보간 결과를 얻었으며, FID와 같은 표준 정량적 메트릭이 보간의 품질을 측정하기에는 부적절함을 보여줍니다. 코드와 데이터는 https://clintonjwang.github.io/interpolation에서 확인할 수 있습니다.
대형 언어 모델(LLM)은 추상적 요약 및 개방형 질문 응답과 같은 다양한 생성 작업을 해결할 수 있는 높은 유연성을 입증해 왔습니다. 본 논문에서는 작은 오디오 인코더를 직접 부착하여 음성 인식을 수행할 수 있도록 LLM의 기능을 확장합니다. 오디오 임베딩 시퀀스를 텍스트 토큰 임베딩 앞에 직접 추가함으로써, LLM을 자동 음성 인식(ASR) 시스템으로 변환할 수 있으며, 텍스트 기반 모델과 동일한 방식으로 사용할 수 있습니다. Multilingual LibriSpeech(MLS)에서의 실험 결과, 오픈소스 LLaMA-7B에 Conformer 인코더를 통합하면 단일 언어 기준선을 18% 능가하며, LLaMA가 주로 영어 텍스트로 훈련되었음에도 불구하고 다국어 음성 인식을 수행할 수 있음을 보여줍니다. 또한, LLM의 원래 기능을 유지하기 위해 훈련 중에 완전히 고정할 수 있는지, 오디오 인코더의 규모를 확장할 수 있는지, 오디오 인코더의 스트라이드를 증가시켜 더 적은 수의 임베딩을 생성할 수 있는지에 대한 제거 연구를 수행했습니다. 이러한 연구 결과, LLM이 고정된 상태에서도 다국어 ASR이 가능하며, 오디오 인코더에서 거의 1초에 가까운 스트라이드를 사용하더라도 가능하다는 것을 보여줌으로써, LLM이 장시간 오디오를 처리할 수 있는 가능성을 열어줍니다.
ChatGPT를 대표로 하여, 수많은 기업들이 대형 트랜스포머 모델을 기반으로 한 서비스를 제공하기 시작했습니다. 그러나 이러한 서비스를 사용하면 필연적으로 사용자의 프롬프트가 모델 제공자에게 유출됩니다. 기존 연구에서는 보안 다자간 계산(MPC)을 사용하여 트랜스포머 모델의 안전한 추론을 연구했으며, 이 과정에서 모델 파라미터와 클라이언트의 프롬프트가 비밀로 유지되었습니다. 그럼에도 불구하고, 이러한 프레임워크는 모델 성능, 효율성, 배포 측면에서 여전히 한계가 있었습니다. 이러한 한계를 해결하기 위해, 우리는 빠르고 안전한 트랜스포머 모델 추론을 가능하게 하는 PUMA 프레임워크를 제안합니다. 우리의 프레임워크는 GeLU 및 Softmax와 같은 고비용 함수에 대한 고품질 근사치를 설계하여, 모델 성능을 유지하면서도 안전한 추론의 비용을 크게 줄입니다. 또한, 트랜스포머 아키텍처를 훼손하지 않으면서도 원하는 기능을 충실히 구현하는 안전한 임베딩 및 LayerNorm 절차를 설계했습니다. PUMA는 최신 MPC 프레임워크인 MPCFORMER(ICLR 2023)보다 약 2배 빠르며, 미세 조정 없이도 일반 텍스트 모델과 유사한 정확도를 달성합니다(이는 기존 연구에서 달성하지 못한 부분입니다). 한 가지 더, PUMA는 LLaMA-7B를 평가하여 1개의 토큰을 생성하는 데 약 5분 정도가 소요됩니다. 우리가 아는 한, 이러한 규모의 파라미터를 가진 모델을 MPC 하에서 평가할 수 있는 것은 이번이 처음입니다. PUMA는 SecretFlow-SPU의 Github 저장소에 오픈소스로 공개되었습니다.
대규모 언어 모델(LLM)이 더 복잡한 작업을 수행할수록, 그 행동의 정확성과 안전성을 검증하는 것이 더 어려워진다. 이 문제를 해결하기 위한 한 가지 접근 방식은 LLM에게 자신의 추론 과정을 외부화하도록 요청하는 것이다. 예를 들어, 질문에 답변하면서 단계별 추론을 생성하도록 하는 방법(Chain-of-Thought; CoT)이 있다. 이러한 추론 과정을 통해 모델이 작업을 수행하는 데 사용한 프로세스를 확인할 수 있다. 그러나 이 접근 방식은 명시된 추론이 모델의 실제 추론을 충실히 반영한다는 데 의존하는데, 이는 항상 사실이 아니다. CoT 추론의 충실성을 개선하기 위해, 우리는 모델이 질문을 하위 질문으로 분해하여 추론을 생성하도록 한다. 분해 기반 방법은 질문-답변 작업에서 강력한 성능을 달성하며, 때로는 CoT에 근접한 성능을 보이면서도 최근 제안된 여러 지표에서 모델의 명시된 추론의 충실성을 개선한다. 모델이 더 간단한 하위 질문을 별도의 맥락에서 답변하도록 강제함으로써, 우리는 CoT에 비해 모델 생성 추론의 충실성을 크게 높이면서도 CoT의 성능 향상 중 일부를 여전히 달성한다. 우리의 결과는 모델 생성 추론의 충실성을 개선할 수 있음을 보여준다; 이러한 지속적인 개선은 LLM 행동의 정확성과 안전성을 검증할 수 있는 추론으로 이어질 수 있다.
현대 언어 모델은 방대한 양의 사실적 지식을 포착합니다. 그러나 일부 사실은 잘못 유도되거나 시간이 지남에 따라 구식이 되어 사실적으로 부정확한 생성물을 초래할 수 있습니다. 이로 인해 모델에 인코딩된 사실을 업데이트할 수 있는 다양한 편집 방법이 개발되었습니다. 이러한 방법의 평가는 주로 개별 사실이 성공적으로 주입되었는지, 그리고 다른 주제에 대한 유사한 예측이 변경되지 않았는지를 테스트하는 데 초점을 맞추어 왔습니다. 여기서 우리는 이러한 평가가 제한적이라고 주장합니다. 왜냐하면 하나의 사실(예: "잭 뎁은 조니 뎁의 아들이다")을 주입하면 모델이 업데이트해야 하는 추가적인 사실(예: "잭 뎁은 릴리로즈 뎁의 형제이다")과 같은 "파급 효과"가 발생하기 때문입니다. 이 문제를 해결하기 위해, 우리는 편집이 관련 사실에 미치는 영향을 고려한 새로운 평가 기준 세트를 제안합니다. 이러한 기준을 사용하여, 우리는 다양한 유형의 파급 효과를 포착하는 5,000개의 사실 편집으로 구성된 진단 벤치마크를 구축합니다. 우리는 이 벤치마크에서 주요 편집 방법을 평가하며, 현재의 방법들이 모델의 지식에 일관된 변화를 도입하는 데 실패하고 있음을 보여줍니다. 또한, 우리는 간단한 인컨텍스트 편집 베이스라인이 우리의 벤치마크에서 가장 높은 점수를 얻는 것을 발견하여, 모델 편집을 위한 유망한 연구 방향을 제시합니다.
우리는 인간 피드백을 사용하지 않고 언어 모델이 자연어 원칙을 따르도록 정렬하는 방법인 Contrast Distillation을 통한 강화 학습(RLCD)을 제안한다. RLCD는 긍정적 및 부정적 프롬프트를 대조적으로 사용하여 생성된 고품질 및 저품질 예제를 포함하는 시뮬레이션된 선호 쌍을 사용하여 선호 모델을 훈련시킨다. 이 선호 모델은 강화 학습을 통해 정렬되지 않은 기본 언어 모델을 개선하는 데 사용된다. 실험적으로, RLCD는 RLAIF(Bai et al., 2022b) 및 컨텍스트 디스틸레이션(Huang et al., 2022) 기준선을 세 가지 다양한 정렬 작업—무해성, 유용성, 스토리 개요 생성—에서 그리고 7B 및 30B 모델 규모 모두에서 선호 데이터 시뮬레이션 측면에서 능가한다.
본 논문은 대규모 언어 모델(LLM) 훈련을 위한 any-to-any 네트워크 구축의 기존 패러다임에 도전한다. 우리는 LLM이 고유한 통신 패턴을 보이며, 최적에 가까운 훈련 성능을 달성하기 위해 소규모 GPU 그룹 내에서만 고대역폭 any-to-any 통신이 필요하다는 것을 보여준다. 이러한 GPU 그룹 간의 통신은 미미하고, 희소하며, 균일하다. 우리는 LLM의 통신 요구사항과 밀접하게 일치하는 새로운 네트워크 아키텍처를 제안한다. 우리의 아키텍처는 클러스터를 비차단적 any-to-any 고대역폭 상호 연결로 연결된 GPU 집합으로 분할하며, 이를 HB 도메인이라고 부른다. HB 도메인 간에는 통신 수요가 있는 GPU만 연결된다. 우리는 이를 "rail-only" 연결이라고 부르며, 제안된 아키텍처가 최신 any-to-any Clos 네트워크 대비 네트워크 비용을 최대 75%까지 절감하면서도 LLM 훈련 성능을 저하시키지 않음을 보여준다.
시각 표현의 자기 지도 학습은 주로 객체의 움직임이나 위치를 포착하지 않는 콘텐츠 특징을 학습하는 데 초점을 맞추어 왔으며, 이미지와 비디오에서 객체를 식별하고 구별하는 데 중점을 두었습니다. 반면, 광학 흐름 추정은 추정 대상 이미지의 콘텐츠를 이해하는 작업을 포함하지 않습니다. 우리는 이 두 접근법을 통합하고, 공통 인코더 내에서 광학 흐름과 콘텐츠 특징을 함께 학습하기 위한 공동 임베딩 예측 아키텍처 및 자기 지도 학습 접근법인 MC-JEPA를 소개합니다. 이를 통해 광학 흐름 추정 목표와 자기 지도 학습 목표가 서로에게 이점을 제공하며, 움직임 정보를 포함한 콘텐츠 특징을 학습할 수 있음을 입증합니다. 제안된 접근법은 기존의 비지도 광학 흐름 벤치마크와 이미지 및 비디오의 의미론적 분할과 같은 다운스트림 작업에서 일반적인 자기 지도 학습 접근법과 동등한 성능을 달성합니다.
DETR과 유사한 모델들은 탐지기의 성능을 크게 향상시켰으며, 심지어 기존의 컨볼루션 모델들을 능가하기도 했습니다. 그러나 전통적인 인코더 구조에서는 모든 토큰이 동등하게 처리되어 불필요한 계산 부담을 초래합니다. 최근의 희소화 전략은 정보가 풍부한 토큰의 부분집합을 활용하여 주의 복잡도를 줄이면서도 희소 인코더를 통해 성능을 유지하려고 합니다. 하지만 이러한 방법들은 종종 신뢰할 수 없는 모델 통계에 의존하는 경향이 있습니다. 또한, 단순히 토큰의 수를 줄이는 것은 탐지 성능을 크게 저하시켜 이러한 희소 모델의 적용을 제한합니다. 우리는 계산 효율성과 모델 정확도 사이의 더 나은 균형을 위해 정보가 풍부한 토큰에 주의를 집중하는 Focus-DETR을 제안합니다. 구체적으로, 우리는 다중 스케일 특징 맵에서 객체의 위치 및 범주 의미 정보를 모두 고려하는 토큰 점수 메커니즘을 포함한 이중 주의를 통해 인코더를 재구성합니다. 이를 통해 배경 쿼리를 효율적으로 제거하고, 점수에 기반하여 세밀한 객체 쿼리의 의미적 상호작용을 강화합니다. 동일한 설정 하에서 최신 희소 DETR 탐지기들과 비교했을 때, 우리의 Focus-DETR은 비슷한 복잡도를 유지하면서 COCO에서 50.4AP(+2.2)를 달성합니다. 코드는 https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR와 https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR에서 확인할 수 있습니다.
장기 활동 예측은 관찰된 행동 간의 시간적 관계와 인간 활동의 다양성 및 복잡성을 이해해야 하기 때문에 특히 어려운 연구 문제입니다. 비용이 많이 드는 인간 주석을 통한 강력한 감독에 의존함에도 불구하고, 최첨단 예측 접근법들은 보이지 않는 데이터에 대해 일반적으로 잘 일반화하지 못합니다. 이 문제를 완화하기 위해, 우리는 다중 스케일 비디오 사전 학습(MVP)이라는 새로운 자기 지도 학습 사전 학습 접근법을 제안합니다. MVP는 다양한 시간 스케일에 걸쳐 미래 비디오 클립의 맥락화된 표현을 예측함으로써 강력한 표현을 학습합니다. MVP는 비디오 내 행동이 다중 스케일 특성을 가진다는 관찰에 기반을 두고 있으며, 여기서 원자적 행동은 일반적으로 짧은 시간 스케일에서 발생하고 더 복잡한 행동은 더 긴 시간 스케일에 걸쳐 나타납니다. 우리는 MVP를 장기 행동 예측 및 비디오 요약 예측을 포함한 하위 작업에서 최첨단 자기 지도 비디오 학습 접근법들과 비교합니다. Ego4D 및 Epic-Kitchens-55/100 데이터셋에 걸친 포괄적인 실험을 통해 MVP가 최첨단 방법들을 상당한 차이로 능가함을 입증합니다. 특히, MVP는 기존 방법들에 비해 비디오 요약 예측에서 20% 이상의 상대적 성능 향상을 달성합니다.