번역이 포함된 일일 선별된 AI 연구 논문
현대의 대규모 언어 모델(LLM)이 생성한 텍스트를 탐지하는 것은 어려운 일로 여겨져 왔다. 이는 LLM과 인간 모두 다양한 복잡한 행동을 보일 수 있기 때문이다. 그러나 우리는 두 개의 밀접하게 관련된 언어 모델을 대조하여 얻은 점수가 인간이 생성한 텍스트와 기계가 생성한 텍스트를 구분하는 데 매우 정확하다는 사실을 발견했다. 이 메커니즘을 기반으로, 우리는 사전 훈련된 두 개의 LLM만을 사용하여 간단한 계산만으로도 작동하는 새로운 LLM 탐지기를 제안한다. 이 방법은 'Binoculars'라고 명명되었으며, 어떠한 훈련 데이터도 없이도 최첨단 수준의 정확도를 달성한다. Binoculars는 모델별 수정 없이도 다양한 현대 LLM에서 생성된 기계 텍스트를 탐지할 수 있다. 우리는 Binoculars를 다양한 텍스트 소스와 다양한 상황에서 포괄적으로 평가했다. 다양한 문서 유형에 걸쳐, Binoculars는 ChatGPT(및 기타 LLM) 데이터로 훈련되지 않았음에도 불구하고 0.01%의 오탐률로 ChatGPT에서 생성된 샘플의 90% 이상을 탐지한다.
오픈소스 대형 언어 모델(LLMs)의 역할 수행 능력을 강화하기 위해 독점 모델을 모방하는 데 상당한 노력이 투입되어 왔다. 그러나 우리는 LLMs가 방대한 훈련 코퍼스에 내재된 캐릭터와 대화에 대한 광범위한 지식 덕분에 본질적으로 역할 수행 능력을 가지고 있다고 주장한다. 따라서 본 연구에서는 역할 수행을 위한 자기 정렬 방법인 Ditto를 소개한다. Ditto는 캐릭터 지식을 활용하여 지시를 따르는 LLM이 독해의 변형으로 역할 수행 대화를 시뮬레이션하도록 유도한다. 이 방법은 4,000개의 캐릭터로 구성된 역할 수행 훈련 데이터셋을 생성하며, 이는 현재 사용 가능한 데이터셋의 규모를 역할 수 기준으로 10배 이상 초과한다. 이후, 이 자체 생성된 데이터셋을 사용하여 LLM을 미세 조정하여 역할 수행 능력을 강화한다. 우리가 신중하게 구성하고 재현 가능한 역할 수행 벤치마크와 MT-Bench의 역할 수행 하위 집합을 평가한 결과, 다양한 파라미터 규모에서 Ditto는 일관된 역할 정체성을 유지하고 다중 턴 역할 수행 대화에서 정확한 역할별 지식을 제공한다. 특히, Ditto는 모든 오픈소스 역할 수행 기준선을 능가하며, 고급 독점 챗봇과 비슷한 수준의 성능을 보여준다. 또한, 우리는 역할 수행 영역에서 최초의 포괄적인 교차 감독 정렬 실험을 제시하며, LLMs의 내재적 능력이 역할 수행 내의 지식을 제한하는 반면, 더 작은 모델의 지도를 통해 역할 수행 스타일은 쉽게 획득될 수 있음을 보여준다. 관련 리소스는 https://github.com/OFA-Sys/Ditto에서 오픈소스로 공개한다.
우리는 언어 모델(LM)의 기능을 향상시키기 위해 설계된 효과적인 스캐폴딩 기법인 메타 프롬프팅을 소개한다. 이 접근법은 단일 LM을 다면적 지휘자로 변환하여, 여러 독립적인 LM 질의를 관리하고 통합하는 데 능숙하도록 만든다. 메타 프롬프팅은 상위 수준의 지시를 사용하여 LM이 복잡한 작업을 더 작고 관리하기 쉬운 하위 작업으로 분해하도록 안내한다. 이러한 하위 작업은 각각 특정한 맞춤형 지시를 받는 동일한 LM의 별도 "전문가" 인스턴스에 의해 처리된다. 이 과정의 핵심은 지휘자 역할을 하는 LM 자체로, 이는 전문가 모델들의 출력을 원활하게 통신하고 효과적으로 통합하는 것을 보장한다. 또한, LM은 내재된 비판적 사고와 강력한 검증 프로세스를 활용하여 최종 결과를 정제하고 인증한다. 이 협업적 프롬프팅 접근법은 단일 LM이 포괄적인 오케스트레이터와 다양한 전문가 패널의 역할을 동시에 수행할 수 있게 하여, 다양한 작업에서의 성능을 크게 향상시킨다. 메타 프롬프팅의 제로샷, 작업-불특정적 특성은 사용자 상호작용을 크게 단순화하며, 작업별 상세한 지시의 필요성을 없앤다. 더 나아가, 우리의 연구는 Python 인터프리터와 같은 외부 도구를 메타 프롬프팅 프레임워크에 원활하게 통합함으로써 그 적용 범위와 유용성을 확장한다. GPT-4를 사용한 엄격한 실험을 통해, 우리는 메타 프롬프팅이 기존의 스캐폴딩 방법보다 우수함을 입증했다: 24 게임, 체크메이트-원, Python 프로그래밍 퍼즐을 포함한 모든 작업에서 평균적으로, Python 인터프리터 기능이 추가된 메타 프롬프팅은 표준 프롬프팅보다 17.1%, 전문가(동적) 프롬프팅보다 17.3%, 멀티페르소나 프롬프팅보다 15.2% 더 높은 성능을 보였다.
디퓨전 모델은 텍스트-이미지 생성 및 편집 분야에서 뛰어난 성능을 보여왔습니다. 그러나 기존 방법들은 다수의 객체와 속성, 관계를 포함하는 복잡한 텍스트 프롬프트를 처리할 때 어려움을 겪는 경우가 많습니다. 본 논문에서는 이러한 문제를 해결하기 위해, 다중모달 LLM의 강력한 사고 연쇄(chain-of-thought) 추론 능력을 활용하여 텍스트-이미지 디퓨전 모델의 구성성을 향상시키는 새로운 학습 없이도 사용 가능한 텍스트-이미지 생성/편집 프레임워크인 Recaption, Plan and Generate(RPG)를 제안합니다. 우리의 접근 방식은 MLLM을 전역 플래너로 사용하여 복잡한 이미지 생성 과정을 하위 영역 내에서 더 단순한 다수의 생성 작업으로 분해합니다. 또한, 지역별 구성적 생성을 가능하게 하는 보완적 지역 디퓨전을 제안합니다. 더 나아가, 제안된 RPG 프레임워크 내에서 텍스트 기반 이미지 생성과 편집을 폐루프 방식으로 통합함으로써 일반화 능력을 향상시켰습니다. 광범위한 실험을 통해 우리의 RPG가 DALL-E 3 및 SDXL을 포함한 최신 텍스트-이미지 디퓨전 모델들을 능가하며, 특히 다중 범주 객체 구성 및 텍스트-이미지 의미 정렬에서 우수한 성능을 보임을 입증했습니다. 특히, RPG 프레임워크는 MiniGPT-4와 같은 다양한 MLLM 아키텍처 및 ControlNet과 같은 디퓨전 백본과의 광범위한 호환성을 보여줍니다. 우리의 코드는 https://github.com/YangLing0818/RPG-DiffusionMaster에서 확인할 수 있습니다.
텍스트-이미지 확산 모델은 고품질 이미지 생성에서 인상적인 능력을 보여주는 심층 생성 모델의 한 종류입니다. 그러나 이러한 모델은 웹 규모의 텍스트-이미지 학습 쌍에서 발생하는 암묵적 편향에 취약하며, 우리가 중요하게 여기는 이미지의 측면을 부정확하게 모델링할 수 있습니다. 이는 최적이 아닌 샘플, 모델 편향, 그리고 인간의 윤리와 선호도와 일치하지 않는 이미지를 초래할 수 있습니다. 본 논문에서는 인간 선호도, 구성성, 공정성과 같은 다양한 보상 함수에 걸쳐 강화 학습(RL)을 사용하여 확산 모델을 개선하는 효과적이고 확장 가능한 알고리즘을 제시합니다. 우리의 접근 방식이 인간 선호도와 확산 모델을 정렬하는 기존 방법을 크게 능가하는 방식을 보여줍니다. 또한, 이 방법이 사전 학습된 Stable Diffusion(SD) 모델을 크게 개선하여, 기본 SD 모델에서 생성된 샘플 대비 80.3%의 경우에서 인간이 선호하는 샘플을 생성하면서 동시에 생성된 샘플의 구성과 다양성을 모두 향상시키는 것을 보여줍니다.
시각적 질의응답(VQA)과 로봇공학에서 공간 관계를 이해하고 추론하는 능력은 기본적인 역량입니다. 비전 언어 모델(VLM)은 특정 VQA 벤치마크에서 뛰어난 성능을 보여주었지만, 여전히 거리나 크기 차이와 같은 물리적 객체의 양적 관계를 인식하는 3D 공간 추론 능력이 부족합니다. 우리는 VLM의 제한된 공간 추론 능력이 훈련 데이터에 3D 공간 지식이 부족하기 때문이라고 가정하고, 이를 해결하기 위해 인터넷 규모의 공간 추론 데이터로 VLM을 훈련시키는 것을 목표로 합니다. 이를 위해, 우리는 이러한 접근법을 촉진하는 시스템을 제시합니다. 먼저, 1천만 개의 실제 이미지에 대해 20억 개의 VQA 예제를 생성할 수 있는 자동 3D 공간 VQA 데이터 생성 프레임워크를 개발합니다. 그런 다음 데이터 품질, 훈련 파이프라인, VLM 아키텍처를 포함한 훈련 레시피의 다양한 요소를 조사합니다. 우리의 작업은 미터법 공간에서 최초의 인터넷 규모 3D 공간 추론 데이터셋을 특징으로 합니다. 이러한 데이터로 VLM을 훈련함으로써, 우리는 질적 및 양적 공간 VQA에서의 능력을 크게 향상시킵니다. 마지막으로, 이 VLM이 양적 추정 능력으로 인해 사고 연쇄 공간 추론과 로봇공학에서 새로운 하위 응용 프로그램을 가능하게 한다는 것을 보여줍니다. 프로젝트 웹사이트: https://spatial-vlm.github.io/
대규모 멀티모달 모델(LMMs)의 능력이 지속적으로 발전함에 따라, LMMs의 성능을 평가하는 필요성이 점점 더 커지고 있습니다. 또한, 중국어와 같은 비영어권 환경에서 LMMs의 고급 지식과 추론 능력을 평가하는 데는 더 큰 격차가 존재합니다. 우리는 중국어 환경에서 대학 수준의 학문적 지식과 신중한 추론을 요구하는 과제에서 LMMs를 평가하기 위해 설계된 새로운 벤치마크인 CMMMU(Chinese Massive Multi-discipline Multimodal Understanding)를 소개합니다. CMMMU는 MMMU의 주석 및 분석 패턴을 엄격히 따르며 그에 영감을 받았습니다. CMMMU는 대학 시험, 퀴즈, 교과서에서 수동으로 수집된 12,000개의 멀티모달 질문을 포함하며, Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, Tech & Engineering 등 6개의 핵심 학문 분야를 다룹니다. 이는 MMMU와 유사합니다. 이러한 질문은 30개의 주제를 아우르며 차트, 다이어그램, 지도, 표, 악보, 화학 구조 등 39개의 매우 이질적인 이미지 유형으로 구성됩니다. CMMMU는 중국어 환경에서 도메인 특화 지식을 활용한 복잡한 인지와 추론에 초점을 맞춥니다. 우리는 11개의 오픈소스 LLM과 하나의 독점 모델인 GPT-4V(ision)를 평가했습니다. 심지어 GPT-4V도 42%의 정확도만 달성하여 개선의 여지가 크다는 것을 보여줍니다. CMMMU는 전문가 수준의 인공지능을 향한 차세대 LMMs를 구축하고 다양한 언어 환경을 제공함으로써 LMMs의 민주화를 촉진할 것입니다.
흉부 X선(CXR)은 임상 실무에서 가장 빈번하게 시행되는 영상 검사이다. 최근 비전-언어 기반 모델(FM) 개발의 진전으로 자동화된 CXR 해석이 가능해져, 의사의 임상적 의사결정을 지원하고 환자 결과를 개선할 수 있는 가능성이 제기되었다. 그러나 CXR을 정확하게 해석할 수 있는 FM을 개발하는 것은 (1) 의료 영상 분야에서 대규모 비전-언어 데이터셋의 제한된 가용성, (2) 의료 데이터의 복잡성을 포착할 수 있는 비전 및 언어 인코더의 부재, (3) CXR 해석에 대한 FM의 능력을 벤치마킹하기 위한 평가 프레임워크의 결여로 인해 어려운 과제이다. 본 연구에서는 이러한 문제를 해결하기 위해 먼저 28개의 공개 데이터셋에서 선별된 대규모 지시 튜닝 데이터셋인 CheXinstruct를 소개한다. 이어서 CXR을 분석하고 요약할 수 있는 지시 튜닝 FM인 CheXagent를 제시한다. CheXagent를 구축하기 위해 방사선 보고서를 파싱할 수 있는 임상 대형 언어 모델(LLM), CXR 이미지를 표현할 수 있는 비전 인코더, 그리고 비전과 언어 모달리티를 연결하는 네트워크를 설계하였다. 마지막으로 8개의 임상적으로 관련된 CXR 해석 작업에 걸쳐 FM을 체계적으로 평가하기 위해 설계된 새로운 벤치마크인 CheXbench를 소개한다. 5명의 전문 방사선과 의사와의 광범위한 정량적 평가 및 질적 검토를 통해 CheXagent가 CheXbench 작업에서 이전에 개발된 일반 및 의료 분야 FM을 능가함을 입증하였다. 또한 모델 투명성을 개선하기 위해 성별, 인종 및 연령 요인에 걸친 공정성 평가를 수행하여 잠재적인 성능 차이를 강조하였다. 본 프로젝트는 https://stanford-aimi.github.io/chexagent.html에서 확인할 수 있다.
본 논문에서는 픽셀 수에 대해 선형 스케일링을 보이며, 고해상도(예: 1024×1024)에서 픽셀 공간에서 직접 학습을 지원하는 이미지 생성 모델인 Hourglass Diffusion Transformer(HDiT)를 제안한다. 수십억 개의 파라미터로 확장 가능한 것으로 알려진 Transformer 아키텍처를 기반으로, HDiT는 컨볼루션 U-Net의 효율성과 Transformer의 확장성 간의 격차를 해소한다. HDiT는 다중 스케일 아키텍처, 잠재 오토인코더 또는 자기 조건화와 같은 일반적인 고해상도 학습 기법 없이도 성공적으로 학습된다. 우리는 HDiT가 ImageNet 256^2에서 기존 모델과 경쟁력 있는 성능을 보이며, FFHQ-1024^2에서 디퓨전 모델의 새로운 최첨단 기술을 설정함을 입증한다.
우리는 사전 학습된 텍스트-투-뮤직 확산 모델을 추론 시점에서 초기 노이즈 잠재 변수를 최적화함으로써 제어할 수 있는 일반 목적 프레임워크인 Diffusion Inference-Time T-Optimization (DITTO)를 제안한다. 우리의 방법은 미분 가능한 특징 매칭 손실을 통해 목표(스타일화된) 출력을 달성하기 위해 최적화할 수 있으며, 메모리 효율성을 위해 그래디언트 체크포인팅을 활용한다. 우리는 인페인팅, 아웃페인팅, 루핑뿐만 아니라 강도, 멜로디, 음악적 구조 제어를 포함한 음악 생성의 놀라울 정도로 다양한 응용 사례를 보여준다. 이 모든 것이 기본 모델을 미세 조정하지 않고도 가능하다. 우리는 관련된 학습, 가이던스, 최적화 기반 방법들과 우리의 접근법을 비교했을 때, DITTO가 거의 모든 작업에서 최첨단 성능을 달성하며, 제어 가능성, 오디오 품질, 계산 효율성 면에서 유사한 접근법들을 능가함을 발견했다. 이는 확산 모델에 대한 고품질의 유연한 학습 없는 제어의 가능성을 열어준다. 음향 예제는 https://DITTO-Music.github.io/web/에서 확인할 수 있다.
강화 학습(RLHF)을 통해 대형 언어 모델(LLMs)을 인간의 선호도에 맞추는 과정에서 보상 모델(RM)의 결함을 악용하여 실제 목표를 달성하지 못한 채 높은 보상을 얻으려는 보상 해킹(reward hacking)이 발생할 수 있다. 본 연구에서는 보상 해킹을 완화하기 위해 보상 모델을 설계할 때 직면하는 두 가지 주요 문제를 확인하였다: RL 과정 중 발생하는 분포 변화와 인간 선호도의 불일치이다. 이를 해결하기 위해, 우리는 먼저 여러 보상 모델을 미세 조정한 후 가중치 공간에서 평균화하는 가중치 평균 보상 모델(WARM)을 제안한다. 이 전략은 동일한 사전 학습을 공유할 때 미세 조정된 가중치가 선형적으로 연결된 상태를 유지한다는 관찰에 기반한다. 가중치를 평균화함으로써, WARM은 전통적인 예측 앙상블 방식에 비해 효율성을 높이면서도 분포 변화에 대한 신뢰성과 선호도 불일치에 대한 견고성을 개선한다. 요약 작업에서 best-of-N 및 RL 방법을 사용한 실험 결과, WARM은 LLM 예측의 전반적인 품질과 정렬을 향상시키는 것으로 나타났다. 예를 들어, WARM으로 미세 조정된 RL 정책은 단일 보상 모델로 미세 조정된 RL 정책에 대해 79.4%의 승률을 보였다.
디퓨전 모델은 최근 의미론적 분할(semantic segmentation) 작업에서 뛰어난 전이 능력으로 인해 점점 더 많은 연구 관심을 받고 있습니다. 그러나 디퓨전 모델을 사용하여 세밀한 분할 마스크를 생성하려면 주석이 달린 데이터셋에 대한 추가 학습이 필요한 경우가 많아, 사전 학습된 디퓨전 모델만으로도 생성된 이미지의 의미론적 관계를 어느 정도 이해하는지 명확하지 않습니다. 이 문제를 해결하기 위해, 우리는 Stable Diffusion(SD)에서 추출된 의미론적 지식을 활용하여 추가 학습 없이도 세밀한 분할 맵을 생성할 수 있는 이미지 분할기를 개발하고자 합니다. 주요 어려움은 의미론적으로 의미 있는 특징 맵(feature map)이 일반적으로 공간적으로 저차원의 레이어에만 존재한다는 점에서 비롯되며, 이는 이러한 특징 맵에서 직접 픽셀 수준의 의미론적 관계를 추출하는 데 어려움을 초래합니다. 이 문제를 극복하기 위해, 우리의 프레임워크는 SD의 생성 과정을 활용하여 이미지 픽셀과 저차원 특징 맵의 공간적 위치 간의 의미론적 대응 관계를 식별하고, 이를 이미지 해상도의 분할 맵을 구성하는 데 활용합니다. 광범위한 실험에서 생성된 분할 맵은 잘 구분되며 이미지의 세부 부분을 포착하는 것으로 나타나, 디퓨전 모델에 매우 정확한 픽셀 수준의 의미론적 지식이 존재함을 보여줍니다.
자연어와 이미지 분야에서 대규모 생성 모델 훈련에 있어 상당한 진전이 이루어졌습니다. 그러나 3D 생성 모델의 발전은 훈련에 필요한 막대한 자원 요구와 비효율적이고 비압축적이며 표현력이 떨어지는 표현 방식으로 인해 제약을 받고 있습니다. 본 논문은 대규모 훈련에 효율적으로 적용 가능한 새로운 3D 생성 모델인 Make-A-Shape를 소개합니다. 이 모델은 공개적으로 이용 가능한 1천만 개의 형태를 활용할 수 있습니다. 기술적인 측면에서, 우리는 먼저 웨이블릿 트리 표현을 혁신적으로 도입하여 형태를 압축적으로 인코딩하고, 서브밴드 계수 필터링 기법을 공식화하여 계수 간의 관계를 효율적으로 활용합니다. 그런 다음, 이 표현을 확산 모델로 생성 가능하도록 만들기 위해 서브밴드 계수 패킹 기법을 고안하여 저해상도 그리드에 표현을 배치합니다. 더 나아가, 우리는 서브밴드 적응형 훈련 전략을 도출하여 모델이 거친 웨이블릿 계수와 세부 웨이블릿 계수를 효과적으로 생성하도록 학습시킵니다. 마지막으로, 우리는 프레임워크를 확장하여 추가 입력 조건에 의해 제어될 수 있도록 하여 단일/다중 뷰 이미지, 포인트 클라우드, 저해상도 복셀 등 다양한 형태로부터 형태를 생성할 수 있게 합니다. 광범위한 실험을 통해 우리는 무조건 생성, 형태 완성, 다양한 형태에 대한 조건부 생성 등 다양한 응용 사례를 입증합니다. 우리의 접근 방식은 고품질 결과를 제공하는 데 있어 최신 기술을 능가할 뿐만 아니라, 대부분의 조건에서 단 2초 내에 형태를 효율적으로 생성합니다.
본 연구에서는 140억 개의 파라미터를 가진 다국어 대규모 언어 모델 컬렉션인 Orion-14B를 소개합니다. 우리는 영어, 중국어, 일본어, 한국어 및 기타 언어로 된 텍스트에서 추출한 2.5조 개의 토큰으로 구성된 다양한 코퍼스를 기반으로 데이터 스케줄링 방식을 활용하여 기초 모델을 학습시켰습니다. 또한, 대화형 애플리케이션 및 기타 특정 사용 사례에 맞춰 조정된 일련의 모델을 미세 조정했습니다. 평가 결과, Orion-14B는 광범위한 작업에서 최첨단 성능을 달성함을 보여줍니다. 우리는 Orion-14B 모델 패밀리와 관련 코드를 https://github.com/OrionStarAI/Orion에서 공개하여, 해당 분야의 미래 연구와 실용적 응용을 촉진하고자 합니다.
최근 언어 모델(LM)의 발전은 인상적인 제로샷 음성 변환(VC) 성능을 보여주고 있습니다. 그러나 기존의 LM 기반 VC 모델은 일반적으로 소스 의미론에서 음향 특성으로의 오프라인 변환을 적용하며, 완전한 소스 음성을 요구함으로써 실시간 애플리케이션에의 배포가 제한됩니다. 본 논문에서는 임의의 화자 프롬프트와 소스 음성이 주어졌을 때 실시간 변환을 가능하게 하는 새로운 스트리밍 LM 기반 제로샷 VC 모델인 StreamVoice를 소개합니다. 구체적으로, 스트리밍 기능을 가능하게 하기 위해 StreamVoice는 시간적으로 독립적인 음향 예측기를 가진 완전한 인과적 맥락 인식 LM을 사용하며, 자동회귀의 각 시간 단계에서 의미론적 및 음향적 특성을 번갈아 처리함으로써 완전한 소스 음성에 대한 의존성을 제거합니다. 스트리밍 처리에서 불완전한 맥락으로 인한 성능 저하를 해결하기 위해, 우리는 두 가지 전략을 통해 LM의 맥락 인식 능력을 강화합니다: 1) 교사 모델을 사용하여 현재 및 미래의 의미론적 맥락을 요약하여 훈련 중에 모델의 미래 맥락 예측을 안내하는 교사 주도 맥락 예측, 2) 선행하는 손상된 의미론적 및 음향적 입력으로부터 음향 예측을 촉진하여 맥락 학습 능력을 강화하는 의미론적 마스킹 전략. 특히, StreamVoice는 미래 정보를 전혀 사용하지 않는 최초의 LM 기반 스트리밍 제로샷 VC 모델입니다. 실험 결과는 StreamVoice가 스트리밍 변환 능력을 유지하면서도 비스트리밍 VC 시스템과 비슷한 수준의 제로샷 성능을 유지함을 보여줍니다.
최근 몇 년 동안 비전, 언어, 로봇 공학 분야에서 놀라운 발전이 이루어졌다. 이제 우리는 언어 질의를 기반으로 물체를 인식할 수 있는 비전 모델, 모바일 시스템을 효과적으로 제어할 수 있는 내비게이션 시스템, 다양한 물체를 다룰 수 있는 그리핑 모델을 보유하고 있다. 이러한 발전에도 불구하고, 인식, 내비게이션, 그리핑과 같은 기본 기능에 의존하는 일반 목적 로봇 응용 프로그램은 여전히 뒤처져 있다. 본 논문에서는 시스템 중심 접근 방식을 채택하여 새로운 오픈 지식 기반 로봇 프레임워크인 OK-Robot을 개발한다. OK-Robot은 물체 감지를 위한 비전-언어 모델(VLM), 이동을 위한 내비게이션 프리미티브, 물체 조작을 위한 그리핑 프리미티브를 결합하여, 별도의 훈련 없이도 픽앤드롭 작업을 위한 통합 솔루션을 제공한다. 성능을 평가하기 위해 OK-Robot을 10개의 실제 가정 환경에서 실행하였다. 그 결과, OK-Robot은 개방형 픽앤드롭 작업에서 58.5%의 성공률을 달성하여, 이전 연구 대비 거의 1.8배의 성능으로 Open Vocabulary Mobile Manipulation(OVMM) 분야에서 새로운 최첨단 기술을 보여주었다. 더 깨끗하고 정리된 환경에서는 OK-Robot의 성능이 82%까지 증가하였다. 그러나 OK-Robot에서 얻은 가장 중요한 통찰은 VLM과 같은 오픈 지식 시스템을 로봇 모듈과 결합할 때 미묘한 세부 사항이 얼마나 중요한 역할을 하는지이다. 실험 영상은 웹사이트(https://ok-robot.github.io)에서 확인할 수 있다.
최근 3D 아바타 생성 기술의 발전이 큰 주목을 받고 있다. 이러한 혁신은 더욱 현실적이고 애니메이션 가능한 아바타를 생성하여 가상과 현실 세계 간의 격차를 줄이는 것을 목표로 한다. 기존 연구의 대부분은 Score Distillation Sampling(SDS) 손실 함수를 사용하며, 이는 미분 가능한 렌더러와 텍스트 조건을 결합하여 확산 모델이 3D 아바타를 생성하도록 유도한다. 그러나 SDS는 종종 과도하게 평활화된 결과를 생성하여 얼굴 세부 사항이 부족하고, 조상 샘플링(ancestral sampling)에 비해 다양성이 떨어진다. 반면, 단일 이미지에서 3D 아바타를 생성하는 다른 연구들은 원치 않는 조명 효과, 원근법 뷰, 그리고 낮은 이미지 품질로 인해 정렬된 완전한 텍스처를 가진 3D 얼굴 메쉬를 안정적으로 재구성하기 어렵다는 문제가 있다. 본 논문에서는 기하학적 충실도가 향상되고, 원치 않는 조명 없이 물리 기반 렌더링(PBR) 텍스처의 우수한 품질을 갖춘 새로운 3D 아바타 생성 접근법인 UltrAvatar를 제안한다. 이를 위해, 제안된 접근법은 확산 색상 추출 모델과 진실성 가이드 텍스처 확산 모델을 제시한다. 전자는 원치 않는 조명 효과를 제거하여 실제 확산 색상을 드러내어 생성된 아바타가 다양한 조명 조건에서 렌더링될 수 있도록 한다. 후자는 PBR 텍스처를 생성하기 위해 두 가지 그래디언트 기반 가이던스를 따르며, 다양한 얼굴 정체성 특징과 세부 사항을 렌더링하고 3D 메쉬 기하학과 더 잘 정렬되도록 한다. 실험을 통해 제안된 방법의 효과와 견고성을 입증하며, 최신 기술을 큰 차이로 능가하는 성능을 보여준다.
본 논문에서는 단일 이미지로부터 인간의 신경 방사장(Neural Radiance Fields, NeRF)을 예측하기 위해 설계된 단일 단계 순방향 대형 재구성 모델인 Human-LRM을 소개한다. 우리의 접근법은 3D 스캔 및 다중 뷰 캡처를 포함한 방대한 데이터셋을 사용한 훈련에서 뛰어난 적응력을 보여준다. 또한, 특히 폐색이 있는 야외 시나리오에서 모델의 적용성을 향상시키기 위해, 조건부 삼중 평면 확산 모델을 통해 다중 뷰 재구성을 단일 뷰로 증류하는 새로운 전략을 제안한다. 이 생성적 확장은 단일 뷰에서 관찰될 때 인간 신체 형태의 고유한 변이를 해결하며, 폐색된 이미지에서도 전체 신체를 재구성할 수 있게 한다. 광범위한 실험을 통해 Human-LRM이 여러 벤치마크에서 기존 방법들을 상당한 차이로 능가함을 보여준다.
실제 세계의 물체 역학을 정확하게 시뮬레이션하는 것은 로봇공학, 공학, 그래픽스, 디자인 등 다양한 응용 분야에서 필수적이다. 접촉과 마찰과 같은 복잡한 실제 역학을 더 잘 포착하기 위해 그래프 네트워크 기반의 학습된 시뮬레이터가 최근 큰 가능성을 보여주고 있다. 그러나 이러한 학습된 시뮬레이터를 실제 장면에 적용하는 데는 두 가지 주요 과제가 있다: 첫째, 수백 개의 복잡한 3D 형태를 가진 물체를 포함할 수 있는 실제 세계 장면의 복잡성을 처리하기 위해 학습된 시뮬레이터를 확장하는 것, 둘째, 3D 상태 정보가 아닌 인지로부터의 입력을 처리하는 것이다. 여기서 우리는 그래프 기반 학습 시뮬레이터를 실행하는 데 필요한 메모리를 크게 줄이는 방법을 소개한다. 이 메모리 효율적인 시뮬레이션 모델을 기반으로, 우리는 실제 세계 장면을 그래프 네트워크 시뮬레이터가 처리할 수 있는 구조화된 표현으로 변환할 수 있는 편집 가능한 NeRF 형태의 인지 인터페이스를 제시한다. 우리의 방법은 이전의 그래프 기반 시뮬레이터보다 훨씬 적은 메모리를 사용하면서도 정확도를 유지하며, 합성 환경에서 학습된 시뮬레이터가 다중 카메라 각도에서 캡처된 실제 세계 장면에 적용될 수 있음을 보여준다. 이는 추론 시점에 인지 정보만 사용 가능한 환경에서 학습된 시뮬레이터의 응용 범위를 확장하는 길을 열어준다.
가상 현실(VR)은 다른 매체보다 더 몰입감 있는 사회적 상호작용을 가능케 할 잠재력을 지니고 있습니다. 이의 핵심은 VR 헤드셋을 착용한 상태에서 자신의 모습을 닮은 사실적인 아바타를 정확하게 애니메이션화할 수 있는 능력입니다. 헤드셋 장착 카메라(HMC) 이미지에 대한 개인별 아바타의 고품질 등록은 오프라인 환경에서 가능하지만, 일반적인 실시간 모델의 성능은 크게 저하됩니다. 또한, 사선 카메라 시야와 모달리티 차이로 인해 온라인 등록도 어려운 과제입니다. 본 연구에서는 먼저 아바타와 헤드셋 카메라 이미지 간의 도메인 격차가 주요 어려움의 원인 중 하나임을 보여주며, 트랜스포머 기반 아키텍처가 도메인 일관성 데이터에서는 높은 정확도를 달성하지만 도메인 격차가 다시 도입되면 성능이 저하됨을 확인했습니다. 이를 바탕으로, 문제를 두 부분으로 분리하는 시스템 설계를 개발했습니다: 1) 도메인 내 입력을 받는 반복적 정제 모듈, 그리고 2) 현재 추정된 표정과 머리 포즈를 조건으로 하는 일반 아바타 기반 이미지-투-이미지 스타일 전이 모듈. 이 두 모듈은 상호 보완적으로 작동하며, 실제에 가까운 예제가 제공될수록 이미지 스타일 전이가 쉬워지고, 더 나은 도메인 격차 제거는 등록에 도움을 줍니다. 우리의 시스템은 고품질 결과를 효율적으로 생성함으로써 개인화된 레이블을 생성하기 위한 비용이 많이 드는 오프라인 등록의 필요성을 없앱니다. 상용 헤드셋에서의 광범위한 실험을 통해 우리의 접근 방식의 정확성과 효율성을 검증하며, 직접 회귀 방법 및 오프라인 등록 대비 상당한 개선을 입증했습니다.