번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 다양한 자연어 처리(NLP) 작업에서 유용하며, 모델 크기가 커질수록 성능이 향상됩니다. 현재 최고의 오픈소스 모델들은 500억 개 이상의 파라미터를 가지고 있습니다. 그러나 이러한 500억 이상의 파라미터를 가진 모델을 사용하려면 고성능 하드웨어가 필요하며, 이는 대부분의 연구자들에게 접근하기 어려운 상황을 초래합니다. 본 연구에서는 LLM의 비용 효율적인 추론 및 미세 조정 방법을 탐구하며, 로컬 및 분산 전략을 비교합니다. 우리는 충분히 큰 모델(500억 이상)이 소비자 급 네트워크에서 지리적으로 분산된 장치에서도 효율적으로 실행될 수 있음을 관찰했습니다. 이는 여러 연구 그룹과 자원봉사자들의 유휴 컴퓨팅 자원을 모아 LLM을 효율적으로 실행할 수 있는 가능성을 시사합니다. 우리는 두 가지 미해결 문제를 다룹니다: (1) 어떤 장치가 갑자기 연결이 끊어져도 안정적으로 추론과 미세 조정을 수행하는 방법, (2) 하드웨어 성능이 불균일한 장치들 간에 LLM을 분할하고 자유롭게 참여 및 탈퇴할 수 있는 방법. 이를 위해, 우리는 특별한 내결함성 추론 알고리즘과 장치를 자동으로 할당하여 전체 시스템 처리량을 극대화하는 로드 밸런싱 프로토콜을 개발했습니다. 우리는 이러한 알고리즘을 Petals라는 분산 시스템에서 구현하여, Llama 2(700억)와 BLOOM(1,760억)을 인터넷을 통해 실행하며 인터랙티브 생성 작업에서 오프로딩보다 최대 10배 빠른 성능을 보여줍니다. 우리는 시뮬레이션 환경과 두 대륙에 걸친 실제 환경에서 시스템 성능을 평가합니다.
기존의 개방형 어휘 이미지 분할 방법은 마스크 주석 및/또는 이미지-텍스트 데이터셋에 대한 미세 조정 단계를 필요로 합니다. 마스크 레이블링은 노동 집약적이어서 분할 데이터셋의 카테고리 수가 제한됩니다. 그 결과, 사전 훈련된 시각-언어 모델(VLM)의 개방형 어휘 능력은 미세 조정 후 심각하게 감소합니다. 그러나 미세 조정 없이는 약한 이미지-텍스트 감독 하에 훈련된 VLM이 이미지에 존재하지 않는 개념을 참조하는 텍스트 쿼리가 있을 때 최적이 아닌 마스크 예측을 하는 경향이 있습니다. 이러한 문제를 완화하기 위해, 우리는 훈련 노력 없이도 관련 없는 텍스트를 점진적으로 걸러내고 마스크 품질을 향상시키는 새로운 순환 프레임워크를 소개합니다. 이 순환 단위는 가중치가 고정된 VLM을 기반으로 하는 두 단계의 분할기입니다. 따라서 우리의 모델은 VLM의 광범위한 어휘 공간을 유지하면서 분할 능력을 강화합니다. 실험 결과는 우리의 방법이 훈련이 필요 없는 대조군뿐만 아니라 수백만 개의 추가 데이터 샘플로 미세 조정된 모델들도 능가하며, 제로샷 의미론적 및 참조 이미지 분할 작업 모두에서 새로운 최첨단 기록을 세웠음을 보여줍니다. 구체적으로, 우리는 Pascal VOC, COCO Object, Pascal Context에서 현재 기록을 각각 28.8, 16.0, 6.9 mIoU만큼 향상시켰습니다.
3D 시뮬레이션 환경은 구체화된 AI(Embodied AI)에서 중요한 역할을 하지만, 이러한 환경을 생성하려면 전문 지식과 방대한 수작업이 필요하여 다양성과 범위가 제한됩니다. 이러한 한계를 완화하기 위해, 우리는 사용자가 제공한 프롬프트에 맞춰 3D 환경을 완전히 자동으로 생성하는 시스템인 Holodeck을 제안합니다. Holodeck은 아케이드, 스파, 박물관 등 다양한 장면을 생성할 수 있으며, 스타일을 조정하고, "고양이가 있는 연구원의 아파트"나 "스타워즈 팬인 교수의 사무실"과 같은 복잡한 질의의 의미를 파악할 수 있습니다. Holodeck은 상식적인 지식을 위해 대형 언어 모델(GPT-4)을 활용하고, Objaverse의 방대한 3D 자산 컬렉션을 사용하여 장면을 다양한 객체로 채웁니다. 객체를 올바르게 배치하는 문제를 해결하기 위해, GPT-4를 사용하여 객체 간의 공간적 관계 제약을 생성한 후, 이러한 제약을 만족하도록 레이아웃을 최적화합니다. 대규모 인간 평가 결과, 주거 환경에서 Holodeck은 수동으로 설계된 절차적 베이스라인보다 더 선호되며, 다양한 장면 유형에서도 고품질의 출력을 생성할 수 있음이 확인되었습니다. 또한, Holodeck의 흥미로운 응용 사례로, 음악실이나 어린이집과 같은 새로운 장면에서 인간이 구축한 데이터 없이도 에이전트를 훈련시켜 탐색할 수 있음을 보여주었는데, 이는 범용적인 구체화된 에이전트 개발에 있어 중요한 진전입니다.
본 연구는 텍스트-이미지 확산 모델의 효율성 향상을 목표로 합니다. 확산 모델은 모든 생성 단계에서 계산 비용이 높은 UNet 기반의 노이즈 제거 연산을 사용하지만, 모든 연산이 최종 출력 품질에 동일하게 기여하는 것은 아닙니다. 특히, 고해상도 특징 맵에서 작동하는 UNet 레이어는 작은 변화에도 상대적으로 민감한 반면, 저해상도 특징 맵은 최종 이미지의 의미론적 레이아웃에 영향을 미치며 종종 변화를 가해도 출력에 눈에 띄는 차이가 없음을 관찰했습니다. 이러한 관찰을 바탕으로, 우리는 이전 노이즈 제거 단계의 계산을 주기적으로 재사용하여 하나 이상의 후속 단계에서 저해상도 특징 맵을 근사화하는 Clockwork Diffusion 방법을 제안합니다. 여러 베이스라인과 텍스트-이미지 생성 및 이미지 편집 작업에서 Clockwork이 크게 감소된 계산 복잡도로 비슷하거나 향상된 지각 점수를 달성함을 입증했습니다. 예를 들어, Stable Diffusion v1.5에서 8개의 DPM++ 단계를 사용할 때, FID와 CLIP 점수의 미미한 변화만으로 FLOPs의 32%를 절약했습니다.
본 논문에서는 6D 객체 포즈 추정 및 추적을 위한 통합 기반 모델인 FoundationPose를 제안한다. 이 모델은 모델 기반 및 모델 프리 설정을 모두 지원하며, 테스트 시점에서 새로운 객체에 즉시 적용할 수 있다. 단, 해당 객체의 CAD 모델이 제공되거나 소수의 참조 이미지가 캡처된 경우에 한한다. 우리는 신경망 기반의 암묵적 표현을 통해 두 설정 간의 간극을 메우며, 동일한 통합 프레임워크 내에서 하위 포즈 추정 모듈의 불변성을 유지한다. 대규모 합성 데이터 학습, 대형 언어 모델(LLM), 새로운 트랜스포머 기반 아키텍처, 그리고 대조 학습 방식을 통해 강력한 일반화 성능을 달성하였다. 다양한 공개 데이터셋을 활용한 평가 결과, 본 접근법은 각 작업에 특화된 기존 방법들을 큰 차이로 능가하는 것으로 나타났다. 또한, 가정을 줄였음에도 불구하고 인스턴스 수준의 방법들과 비슷한 결과를 달성하였다. 프로젝트 페이지: https://nvlabs.github.io/FoundationPose/
대규모 언어 모델(LLM)은 문제 문장을 분석하고, 도메인 지식을 연관시키며, 복합적인 논리적 추론을 수행하고, 중간 단계의 논리를 통합하는 등 종합적인 능력이 요구되는 복잡한 수학 문제를 해결하는 데 어려움을 겪습니다. 이러한 모든 문제를 한 번에 해결하려는 시도는 LLM에게 부담스러울 수 있으며, 이로 인해 생성 과정에서 혼란이 발생할 수 있습니다. 본 연구에서는 수학적 추론 과정을 세심하게 분해하고 모델링함으로써 에이전트를 활용하여 LLM의 성능을 향상시킬 가능성을 탐구합니다. 구체적으로, 우리는 수학 문제 해결에 대한 공식적인 설명을 제안하고, Planner-Reasoner-Executor-Reflector(PRER)라는 에이전트 기반의 제로샷 프레임워크를 통해 LLM을 확장합니다. 또한, 다양한 세분성과 방향성을 가진 액션 풀을 통해 논리적 형태와 내재적 관계를 정의하는 두 가지 MathAgent를 제안하고 구현합니다: MathAgent-M은 LLM에 맞춰 액션을 조정하고, MathAgent-H는 인간의 사고 방식에 맞춰 조정됩니다. miniF2F와 MATH 데이터셋에서의 실험을 통해 PRER와 제안된 MathAgent의 효과를 입증하였으며, MiniF2F에서 12.3%(53.9%→66.2%), MATH에서 9.2%(49.8%→59.0%), 그리고 MATH의 레벨-5 문제에서 GPT-4 대비 13.2%(23.2%→35.4%)의 성능 향상을 달성했습니다. 추가적인 분석 결과는 에이전트로서의 LLM의 행동을 활용하는 데 있어 더 깊은 통찰을 제공합니다.
근거 발견은 하위 작업의 예측을 최대한 지원하는 입력 데이터의 부분 집합을 찾는 것으로 정의됩니다. 그래프 머신 러닝 맥락에서, 그래프 근거는 주어진 그래프 토폴로지 내에서 예측 결과를 근본적으로 결정하는 중요한 부분 그래프를 찾는 것으로 정의됩니다. 근거 부분 그래프와 대조적으로, 나머지 부분 그래프는 환경 부분 그래프라고 명명됩니다. 그래프 근거화는 그래프 근거와 예측 레이블 간의 매핑이 불변으로 간주됨에 따라 모델 성능을 향상시킬 수 있습니다. 추출된 근거 부분 그래프의 판별력을 보장하기 위해, "개입"이라는 핵심 기술이 적용됩니다. 개입의 핵심 아이디어는 변화하는 환경 부분 그래프가 주어졌을 때, 근거 부분 그래프의 의미는 불변이며 이는 올바른 예측 결과를 보장한다는 것입니다. 그러나 기존의 그래프 데이터에 대한 근거화 작업 대부분은 그래프 수준에서 개입 전략을 개발하는데, 이는 거친 수준의 접근입니다. 본 논문에서는 그래프 데이터에 대해 잘 정제된 개입 전략을 제안합니다. 우리의 아이디어는 입력 노드 간의 풍부한 상호작용을 제공하는 Transformer 모델의 발전에서 비롯되었습니다. 자기 주의 메커니즘을 기반으로, 우리가 제안한 불변 그래프 Transformer(IGT)는 세밀한, 특히 노드 수준 및 가상 노드 수준의 개입을 달성할 수 있습니다. 우리의 포괄적인 실험은 7개의 실제 데이터셋을 포함하며, 제안된 IGT는 13개의 기준 방법과 비교하여 상당한 성능 우위를 보여줍니다.
최근 신경 렌더링(neural rendering) 분야의 발전은, 비록 속도가 느리긴 하지만, 암묵적(implicit) 컴팩트 모델이 다중 뷰(multiple views)로부터 장면의 기하학적 구조와 시점에 따라 달라지는 외관을 학습할 수 있음을 보여주었습니다. 이러한 작은 메모리 사용량을 유지하면서도 더 빠른 추론 시간을 달성하기 위해, 최근 연구들은 암묵적 신경 방사 필드(implicit neural radiance fields)에서 각 광선(ray)을 따라 작은 점들의 부분집합을 적응적으로 샘플링하는 '샘플러(sampler)' 네트워크를 도입했습니다. 이러한 방법들은 렌더링 시간을 최대 10배까지 단축할 수 있지만, 여전히 기본 NeRF와 비교하여 상당한 품질 저하를 겪고 있습니다. 이에 반해, 우리는 ProNeRF를 제안합니다. ProNeRF는 메모리 사용량(NeRF와 유사), 속도(HyperReel보다 빠름), 품질(K-Planes보다 우수) 간의 최적의 균형을 제공합니다. ProNeRF는 새로운 투영 인식 샘플링(projection-aware sampling, PAS) 네트워크와 광선 탐색 및 활용을 위한 새로운 학습 전략을 갖추고 있어, 효율적인 미세 입자 샘플링이 가능합니다. 우리의 ProNeRF는 최신 기술 수준의 성능 지표를 보여주며, NeRF보다 15-23배 빠르고 PSNR이 0.65dB 더 높으며, 최고의 샘플러 기반 방법인 HyperReel보다 PSNR이 0.95dB 더 높습니다. 우리의 탐색 및 활용 학습 전략은 ProNeRF가 전체 장면의 색상과 밀도 분포를 학습하는 동시에 가장 높은 밀도 영역에 초점을 맞춘 효율적인 광선 샘플링을 학습할 수 있게 합니다. 우리는 널리 사용되는 전방향(forward-facing) 및 360도 데이터셋인 LLFF와 Blender에서 우리 방법의 효과를 입증하는 광범위한 실험 결과를 제공합니다.