번역이 포함된 일일 선별된 AI 연구 논문
최근 등장한 자기 지도 사전 학습 기술은 양식 문서 이해 분야에서 다중 모달 학습의 사용이 급증하는 계기가 되었습니다. 그러나 마스크 언어 모델링을 다른 모달리티로 확장하는 기존 접근 방식들은 신중한 다중 작업 튜닝, 복잡한 재구성 목표 설계 또는 추가적인 사전 학습 데이터를 요구합니다. FormNetV2에서는 모든 모달리티에 대한 자기 지도 사전 학습을 하나의 손실 함수로 통합하기 위해 중앙 집중식 다중 모달 그래프 대조 학습 전략을 도입했습니다. 그래프 대조 목표는 다중 모달 표현 간의 일치를 극대화하여 특별한 맞춤화 없이도 모든 모달리티 간의 자연스러운 상호작용을 제공합니다. 또한, 그래프 엣지로 연결된 토큰 쌍을 결합하는 경계 상자 내부의 이미지 특징을 추출함으로써, 복잡하고 별도로 사전 학습된 이미지 임베더를 로드하지 않고도 더 목표 지향적인 시각적 단서를 포착합니다. FormNetV2는 더 컴팩트한 모델 크기로 FUNSD, CORD, SROIE 및 Payment 벤치마크에서 새로운 최첨단 성능을 달성했습니다.
고품질의 3D 아바타를 애니메이션 가능하고 사용자 정의할 수 있도록 쉽게 생성할 수 있는 방법에 대한 수요가 점점 증가하고 있습니다. 3D 모핑 가능 모델은 편집 및 애니메이션을 위한 직관적인 제어 기능과 단일 뷰 얼굴 재구성의 견고성을 제공하지만, 기하학적 및 외관 세부 사항을 쉽게 포착할 수는 없습니다. 신경 암시적 표현(neural implicit representation) 기반 방법들, 예를 들어 부호 있는 거리 함수(SDF) 또는 신경 방사 필드(neural radiance fields)는 사진과 같은 사실감에 접근하지만 애니메이션하기 어렵고 보지 못한 데이터에 대해 잘 일반화되지 않습니다. 이 문제를 해결하기 위해, 우리는 일반화 가능하고 편집이 직관적인 암시적 3D 모핑 가능 얼굴 모델을 구축하는 새로운 방법을 제안합니다. 고품질 3D 스캔 컬렉션으로부터 학습된 우리의 얼굴 모델은 학습된 SDF와 명시적 UV 텍스처 파라미터화를 통해 기하학, 표정 및 텍스처 잠재 코드로 파라미터화됩니다. 한 번 학습되면, 우리는 단일 야외 이미지에서 아바타를 재구성할 수 있으며, 이를 위해 학습된 사전 지식을 활용하여 이미지를 모델의 잠재 공간으로 투영합니다. 우리의 암시적 모핑 가능 얼굴 모델은 새로운 뷰에서 아바타를 렌더링하고, 표정 코드를 수정하여 얼굴 표정을 애니메이션화하며, 학습된 UV 텍스처 맵에 직접 그림을 그려 텍스처를 편집하는 데 사용할 수 있습니다. 우리는 양적 및 질적으로 우리의 방법이 최신 기술과 비교하여 사진과 같은 사실감, 기하학 및 표정 정확도에서 개선되었음을 보여줍니다.
본 논문은 일반적인 형태 편집 작업을 위해 신경 방사 필드(NeRF)를 기본적으로 편집 가능하게 만드는 NeuralEditor를 제안합니다. 새로운 시점 합성에서의 인상적인 결과에도 불구하고, NeRF가 장면의 형태를 편집하는 것은 여전히 근본적인 과제로 남아 있습니다. 우리의 핵심 통찰은 NeRF 렌더링을 관련 3D 포인트 클라우드를 2D 이미지 평면에 투영하거나 "플롯팅"하는 과정으로 직관적으로 해석하는 데서 영감을 받아, 명시적 포인트 클라우드 표현을 NeRF를 구성하기 위한 기반 구조로 활용하는 것입니다. 이를 위해 NeuralEditor는 K-D 트리 기반 밀도 적응형 복셀 내에서의 결정론적 통합을 기반으로 한 새로운 렌더링 방식을 도입하여, 최적화를 통해 고품질 렌더링 결과와 정밀한 포인트 클라우드를 동시에 생성합니다. NeuralEditor는 이후 포인트 클라우드 간의 관련 포인트 매핑을 통해 형태 편집을 수행합니다. 광범위한 평가 결과, NeuralEditor는 형태 변형 및 장면 모핑 작업 모두에서 최첨단 성능을 달성함을 보여줍니다. 특히, NeuralEditor는 제로샷 추론과 편집된 장면에 대한 추가 미세 조정을 모두 지원합니다. 우리의 코드, 벤치마크, 데모 비디오는 https://immortalco.github.io/NeuralEditor에서 확인할 수 있습니다.
다국어 기계 번역은 비영어 언어 간의 번역 품질을 향상시킬 것으로 기대됩니다. 이는 여러 가지 이유로 유리한데, 특히 지연 시간 감소(두 번 번역할 필요 없음)와 오류 전파 감소(예: 영어를 거쳐 번역할 때 성별 및 공손함 정보 손실 방지)가 그 예입니다. 반면, 더 많은 언어를 추가하면 언어당 모델 용량이 감소하는데, 이는 일반적으로 전체 모델 크기를 늘려 해결하며, 이는 학습을 더 어렵게 하고 추론 속도를 느리게 만듭니다. 본 연구에서는 Language-Specific Transformer Layers(LSLs)를 소개하여 모델 용량을 늘리면서도 순전파 시 사용되는 계산량과 매개변수 수를 일정하게 유지합니다. 핵심 아이디어는 인코더의 일부 레이어를 소스 또는 타겟 언어에 특화시키고, 나머지 레이어는 공유하는 것입니다. 신경망 구조 탐색에서 영감을 받은 접근법을 사용하여 이러한 레이어를 배치하는 최적의 방법을 연구하고, 별도의 디코더 아키텍처에서는 LSLs를 사용하지 않았을 때보다 1.3 chrF(1.5 spBLEU) 점수, 공유 디코더 아키텍처에서는 1.9 chrF(2.2 spBLEU) 점수의 개선을 달성했습니다.
AI 작업은 다양한 도메인과 분야를 포괄한다. 특정 작업과 응용을 위해 설계된 수많은 AI 모델들이 있지만, 적절한 모델 아키텍처, 최적화 알고리즘, 하이퍼파라미터를 찾기 위해서는 상당한 인간의 노력이 필요하다. ChatGPT와 같은 대형 언어 모델(LLM)의 최근 발전은 추론, 이해, 상호작용 등 다양한 측면에서 뛰어난 능력을 보여준다. 이에 따라, 우리는 작업 지향 프롬프트를 개발하고 LLM을 자동으로 활용하여 훈련 파이프라인을 자동화하는 것을 제안한다. 이를 구현하기 위해, 우리는 GPT를 다양한 AI 모델과의 연결고리로 사용하고 최적화된 하이퍼파라미터로 모델을 동적으로 훈련시키는 AutoML-GPT를 제시한다. AutoML-GPT는 모델 및 데이터 카드에서 사용자 요청을 동적으로 받아 해당 프롬프트 단락을 구성한다. 궁극적으로, 이 프롬프트 단락을 통해 AutoML-GPT는 데이터 처리부터 모델 아키텍처, 하이퍼파라미터 튜닝, 예측된 훈련 로그에 이르기까지 실험을 자동으로 수행한다. AutoML-GPT의 강력한 언어 능력과 사용 가능한 AI 모델을 활용함으로써, 다양한 작업과 데이터셋에 걸친 수많은 복잡한 AI 작업을 해결할 수 있다. 이 접근법은 컴퓨터 비전, 자연어 처리 및 기타 도전적인 분야에서 뛰어난 결과를 달성한다. 광범위한 실험과 절제 연구를 통해 우리의 방법이 많은 AI 작업에 대해 일반적이고 효과적이며 유익할 수 있음을 입증한다.
대규모 언어 모델의 사용으로 인한 코드 생성 능력의 최근 개선은 주로 범용 프로그래밍 언어에 혜택을 주었습니다. IT 자동화에 사용되는 도메인 특화 언어(Domain Specific Languages, DSL)는 많은 활발한 개발자들이 참여하고 있으며 현대 클라우드 플랫폼의 필수 구성 요소임에도 불구하고 상대적으로 덜 주목받아 왔습니다. 본 연구는 IT 자동화에 널리 사용되는 마크업 언어인 Ansible-YAML의 생성에 초점을 맞춥니다. 우리는 IT 자동화 생산성을 향상시키기 위한 자연어에서 Ansible-YAML 코드로의 생성 도구인 Ansible Wisdom을 소개합니다. Ansible Wisdom은 Ansible-YAML을 포함한 새로운 데이터셋으로 학습을 확장한 트랜스포머 기반 모델입니다. 또한, 이 도메인의 특성을 반영하기 위해 YAML 및 Ansible에 대한 두 가지 새로운 성능 지표를 개발했습니다. 결과는 Ansible Wisdom이 자연어 프롬프트로부터 Ansible 스크립트를 정확하게 생성할 수 있으며, 기존의 최첨단 코드 생성 모델과 비교해도 성능이 우수하거나 더 나음을 보여줍니다.
복잡하고 동적인 환경에서 지속적으로 객체를 추적하는 것은 컴퓨터 비전 시스템에게 여전히 어려운 과제로 남아 있다. 본 논문에서는 심각한 폐색(occlusion)과 포함(containment) 상황을 통한 시각적 추적을 위한 새로운 벤치마크 및 모델인 TCOW를 소개한다. 우리는 비디오 시퀀스가 주어졌을 때, 목표 객체의 투영된 범위와 주변의 컨테이너 또는 폐색물(occluder)이 존재할 경우 이를 분할하는 작업을 설정하였다. 이 작업을 연구하기 위해, 우리는 합성 데이터와 주석이 달린 실제 데이터를 혼합하여 다양한 형태의 작업 변형(예: 이동 중이거나 중첩된 포함) 하에서 모델 성능의 구조적 평가와 지도 학습을 지원하는 데이터셋을 구축하였다. 최근의 트랜스포머(transformer) 기반 비디오 모델 두 가지를 평가한 결과, 특정 작업 변형 설정 하에서는 목표를 추적하는 데 놀라울 정도로 능력이 있음이 확인되었지만, 객체 영속성(object permanence)에 대한 진정한 개념을 획득했다고 주장할 수 있을 만큼의 성능 격차가 여전히 존재함을 발견하였다.
텍스처는 시각적으로 매력적이고 사실적인 3D 모델을 만드는 데 있어 중요한 요소입니다. 본 논문에서는 일반적인 3D 형태 모델링에 비해 상대적으로 덜 탐구된 3D 자산의 형태가 주어졌을 때 고품질 텍스처를 생성하는 문제를 연구합니다. 우리의 목표는 특정 카테고리의 입력 형태와 독립적으로 하나의 텍스처 코드가 특정 외관 스타일에 대응할 수 있도록 제어 가능한 텍스처 생성 프로세스를 용이하게 하는 것입니다. 우리는 3D 형태에 직접 텍스처를 생성하는 대신 학습 가능한 UV 구체 공간에서 텍스처를 생성하는 Texture UV Radiance Fields(TUVF)를 소개합니다. 이를 통해 텍스처가 기본 형태로부터 분리되고 동일한 UV 공간을 공유하는 다른 형태로 전이될 수 있게 합니다. 우리는 UV 구체 공간을 radiance field와 통합하여 기존의 텍스처 맵보다 더 효율적이고 정확한 텍스처 표현을 제공합니다. 우리는 실제 객체 데이터셋에서 실험을 수행하여 사실적인 합성뿐만 아니라 텍스처 제어 및 편집에서 최신 기술 대비 상당한 개선을 달성했습니다. 프로젝트 페이지: https://www.anjiecheng.me/TUVF
우리는 인간의 머리를 고해상도로 재현된 라디언스 필드로 복원하고, 시간에 따른 애니메이션을 포착하며, 임의의 시간 단계에서 새로운 시점에서의 재렌더링을 합성하는 데 초점을 맞춥니다. 이를 위해, 우리는 16개의 보정된 머신 비전 카메라로 구성된 새로운 멀티뷰 캡처 시스템을 제안합니다. 이 시스템은 7.1 MP 해상도와 초당 73프레임으로 시간 동기화된 이미지를 기록합니다. 이 설정을 통해, 우리는 220명 이상의 인간 머리를 포함한 4700개 이상의 고해상도, 고프레임레이트 시퀀스로 구성된 새로운 데이터셋을 수집하고, 이를 바탕으로 새로운 인간 머리 복원 벤치마크를 소개합니다. 기록된 시퀀스는 머리 움직임, 자연스러운 표정, 감정, 그리고 구어를 포함한 다양한 얼굴 동역학을 다룹니다. 고해상도 인간 머리를 복원하기 위해, 우리는 해시 앙상블을 사용한 동적 신경 라디언스 필드(NeRSemble)를 제안합니다. 우리는 변형 필드와 3D 다중 해상도 해시 인코딩의 앙상블을 결합하여 장면 동역학을 표현합니다. 변형 필드는 단순한 장면 움직임을 정밀하게 모델링할 수 있게 해주며, 해시 인코딩 앙상블은 복잡한 동역학을 표현하는 데 도움을 줍니다. 결과적으로, 우리는 시간에 따른 움직임을 포착하고 임의의 새로운 시점에서의 재렌더링을 용이하게 하는 인간 머리의 라디언스 필드 표현을 얻습니다. 일련의 실험을 통해, 우리는 우리 방법의 설계 선택을 탐구하고, 우리의 접근 방식이 최신 동적 라디언스 필드 접근법을 상당한 차이로 능가함을 입증합니다.
우리는 순차적 의사결정을 위한 일반적인 추상화로서 마스크드 트래젝토리 모델(Masked Trajectory Models, MTM)을 소개한다. MTM은 상태-행동 시퀀스와 같은 트래젝토리를 입력으로 받아, 동일한 트래젝토리의 무작위 부분 집합에 조건부로 트래젝토리를 재구성하는 것을 목표로 한다. 고도로 무작위화된 마스킹 패턴으로 학습함으로써, MTM은 추론 시 적절한 마스크를 선택하기만 하면 다양한 역할이나 기능을 수행할 수 있는 다재다능한 네트워크를 학습한다. 예를 들어, 동일한 MTM 네트워크를 전방 동역학 모델, 역동역학 모델, 심지어 오프라인 강화학습(RL) 에이전트로 사용할 수 있다. 여러 연속 제어 작업에서의 광범위한 실험을 통해, 동일한 MTM 네트워크(즉, 동일한 가중치)가 앞서 언급한 기능을 위해 훈련된 전용 네트워크와 견줄 만하거나 이를 능가할 수 있음을 보여준다. 또한, MTM에 의해 학습된 상태 표현이 전통적인 RL 알고리즘의 학습 속도를 크게 가속화할 수 있음을 발견했다. 마지막으로, 오프라인 RL 벤치마크에서 MTM은 명시적인 RL 구성 요소 없이도 일반적인 자기 지도 학습 방법임에도 불구하고, 전용 오프라인 RL 알고리즘과 경쟁력을 갖추고 있음을 확인했다. 코드는 https://github.com/facebookresearch/mtm에서 확인할 수 있다.
최근 DeepNorm은 Transformer를 극도로 깊은 구조(예: 1000개 계층)로 확장하며, 깊이를 증가시키는 것의 잠재력을 보여주었다. 깊은 모델의 학습을 안정화하기 위해 DeepNorm(Wang et al., 2022)은 모델 업데이트를 일정한 값으로 제한하려고 시도한다. 이러한 제약을 적용하면 모델 학습 초기 단계에는 도움이 될 수 있지만, 전체 학습 과정에서 모델이 충분히 학습되지 않을 가능성이 있다. 본 논문에서는 학습 기간에 따라 Transformer의 비잔여 분기를 동적으로 재조정하는 BranchNorm을 제안한다. BranchNorm은 이론적으로 초기 단계에서 부드러운 그래디언트 노름을 통해 학습을 안정화할 뿐만 아니라, 이후 학습 단계에서 더 나은 수렴을 촉진한다. 다중 번역 작업에 대한 실험 결과는 BranchNorm이 학습 안정성과 수렴 성능 사이에서 더 나은 균형을 달성함을 보여준다.
이전에는 오프라인 용도로만 사용되던 복잡한 외관의 장면을 실시간으로 렌더링하기 위한 완전한 시스템을 제시합니다. 이는 알고리즘적 및 시스템 수준의 혁신적 접근을 결합하여 달성되었습니다. 우리의 외관 모델은 신경망 디코더를 통해 해석되는 학습된 계층적 텍스처를 활용하며, 이 디코더는 반사율 값과 중요도 샘플링된 방향을 생성합니다. 디코더의 모델링 능력을 최대한 활용하기 위해, 두 가지 그래픽스 사전 지식을 디코더에 적용했습니다. 첫 번째 사전 지식은 방향을 학습된 쉐이딩 프레임으로 변환하는 것으로, 중간 규모 효과의 정확한 재구성을 가능하게 합니다. 두 번째 사전 지식은 마이크로패싯 샘플링 분포로, 신경망 디코더가 효율적으로 중요도 샘플링을 수행할 수 있게 합니다. 결과적으로 생성된 외관 모델은 이방성 샘플링과 세부 수준 렌더링을 지원하며, 깊이 계층화된 재질 그래프를 간결한 통합 신경망 표현으로 구워낼 수 있습니다. 하드웨어 가속 텐서 연산을 레이 트레이싱 셰이더에 노출시킴으로써, 신경망 디코더를 실시간 경로 추적기 내에서 효율적으로 인라인 실행할 수 있음을 보여줍니다. 신경 재질의 수가 증가함에 따른 확장성을 분석하고, 일관적 및 분기적 실행에 최적화된 코드를 사용하여 성능을 개선할 것을 제안합니다. 우리의 신경 재질 셰이더는 비신경적 계층 재질보다 한 차원 더 빠를 수 있습니다. 이는 게임 및 실시간 미리보기와 같은 실시간 애플리케이션에서 영화 수준의 시각적 품질을 사용할 수 있는 길을 열어줍니다.
대규모 언어 모델(LLMs)은 자연어 처리 분야에서 최첨단 시스템을 구동하는 핵심 요소입니다. 그러나 이러한 모델들은 추론 시점에서도 매우 높은 계산 비용을 요구하며, 이는 더 큰 모델을 배포하는 데 드는 추가 비용이 예상되는 성능 향상을 정당화할 수 있는 시점이 언제인지에 대한 근본적인 질문을 제기합니다. 이러한 절충 관계를 더 잘 이해하기 위해서는 (i) 서로 다른 제공업체의 모델 간에 쉽게 비교 가능하고, (ii) 격리된 성능 환경에서 쿼리를 실행하는 실제 비용을 대표할 수 있는 추론 효율성 지표가 필요합니다. 불행히도, 현재 LLMs에 대한 접근은 대부분 블랙박스 텍스트 생성 API로 제한되어 있으며, 이 인터페이스를 통해 측정된 원시 실행 시간은 이러한 요구 사항을 충족하지 못합니다. 모델 제공업체는 모델과 무관한 다양한 소프트웨어 및 하드웨어 최적화를 적용할 수 있으며, 공유 인프라에서 서비스되는 모델은 성능 경합에 취약합니다. 이러한 문제를 해결하기 위해, 우리는 모델 간 추론 효율성을 비교할 수 있는 새로운 지표를 제안합니다. 이 지표는 모델들이 (i) 균일한 하드웨어와 소프트웨어에서 서비스되고, (ii) 성능 경합 없이 실행되는 것처럼 동등한 조건에서 비교할 수 있도록 합니다. 우리는 이 지표를 이상화된 실행 시간(idealized runtime)이라고 부르며, 자기회귀 트랜스포머 모델에 대해 이 지표를 효율적으로 추정하는 방법론을 제안합니다. 또한, 모델을 서비스하는 데 필요한 가속기 수를 고려한 비용 인식 변형 지표도 제안합니다. 이러한 지표를 사용하여, 우리는 10개의 최첨단 LLMs를 비교하여 추론 효율성과 성능 간의 절충 관계에 대한 첫 번째 분석을 제공합니다. 이 분석을 통해 우리는 특정 API의 우수한 추론 실행 시간 성능이 종종 기본 모델보다는 API 내부의 최적화의 부산물이라는 사실을 포함한 여러 관찰을 도출합니다. 우리의 방법론은 또한 서로 다른 소프트웨어 및 하드웨어 스택을 효율적으로 비교하는 데 도움을 줍니다.
사전 학습된 대형 언어 모델(LLMs)은 세계에 대한 절차적 지식을 포착합니다. 최근 연구에서는 LLM의 추상적인 계획 생성 능력을 활용하여 도전적인 제어 작업을 단순화하는 데 주력해 왔는데, 이는 행동 점수화(action scoring)나 행동 모델링(미세 조정, fine-tuning)을 통해 이루어졌습니다. 그러나 트랜스포머 아키텍처는 LLM이 직접 에이전트로 작동하기 어렵게 만드는 여러 제약을 내포하고 있습니다. 예를 들어, 제한된 입력 길이, 미세 조정의 비효율성, 사전 학습으로 인한 편향, 그리고 비텍스트 환경과의 비호환성 등이 있습니다. 저수준 훈련 가능한 행위자와의 호환성을 유지하기 위해, 우리는 LLM의 지식을 활용하여 제어 문제를 해결하는 대신 단순화하는 방식을 제안합니다. 이를 위해 계획(Plan), 제거(Eliminate), 추적(Track) 모듈로 구성된 PET 프레임워크를 제안합니다. 계획 모듈은 작업 설명을 고수준 하위 작업 목록으로 변환합니다. 제거 모듈은 현재 하위 작업과 관련 없는 객체와 수용기를 관측에서 제외합니다. 마지막으로, 추적 모듈은 에이전트가 각 하위 작업을 완료했는지 여부를 판단합니다. AlfWorld 지시 따르기 벤치마크에서 PET 프레임워크는 인간 목표 명세에 대한 일반화에서 최신 기술(SOTA) 대비 15%의 상당한 성능 향상을 이끌어냈습니다.