번역이 포함된 일일 선별된 AI 연구 논문
로봇 조작을 위한 견고하고 수정 가능한 시각 운동 정책을 개발하는 것은 실패로부터의 자가 복구 메커니즘 부족과 간단한 언어 지침의 로봇 조작 안내 한계로 인해 어려운 과제입니다. 이러한 문제를 해결하기 위해 전문가 데모를 자동으로 보강하는 확장 가능한 데이터 생성 파이프라인을 제안합니다. 이 파이프라인은 실패 복구 궤적과 세밀한 언어 주석을 훈련하기 위해 자동으로 추가합니다. 그런 다음 실패 복구 데이터를 풍부한 언어 설명과 결합하는 감독자-배우 프레임워크인 RACER을 소개합니다. RACER은 오류 수정과 작업 실행을 향상시키기 위해 상세한 언어 지침을 제공하는 온라인 감독자 역할을 하는 비전-언어 모델(VLM)과 다음 동작을 예측하는 배우 역할로 언어 조건화된 시각 운동 정책을 특징으로 합니다. 실험 결과는 RACER이 RLbench에서 표준 장기 과제, 동적 목표 변경 과제 및 제로샷 미처 보지 못한 과제를 포함한 다양한 평가 설정에서 최첨단 로봇 뷰 변환기(RVT)를 능가하며, 시뮬레이션 및 실제 환경에서 우수한 성능을 달성했음을 보여줍니다. 비디오 및 코드는 다음 링크에서 확인할 수 있습니다: https://rich-language-failure-recovery.github.io.
대형 언어 모델(Large Language Models, LLMs)은 다양한 영역과 작업에서 놀라운 능력을 보여주며 학습과 인지 분야의 지식 경계를 넓혀왔습니다. 최신 모델인 OpenAI의 o1은 강화 학습 전략을 사용하여 첫 번째로 사고 체인을 내재화한 LLM으로 돋보입니다. 이 모델은 다양한 일반 언어 작업에서 놀라운 능력을 보여주었지만 의학과 같은 전문 분야에서의 성능은 아직 알려지지 않았습니다. 따라서 본 보고서는 o1 모델을 다양한 의학 시나리오에서 탐색하며 이해, 추론 및 다국어성이라는 3가지 핵심 측면을 조사합니다. 구체적으로, 우리의 평가는 뉴 잉글랜드 의학 저널(NEJM)과 더 란셋(The Lancet)의 전문 의학 퀴즈를 기반으로 한 두 가지 새롭고 더 어려운 질문-답변(QA) 작업을 포함하여 37개 의학 데이터셋에서 데이터를 사용하여 6가지 작업을 포함합니다. 이러한 데이터셋은 MedQA와 같은 표준 의학 QA 벤치마크에 비해 더 많은 임상 관련성을 제공하며 현실 세계의 임상 유용성으로 더 효과적으로 번역됩니다. 우리의 o1에 대한 분석은 LLM의 향상된 추론 능력이 다양한 의학 지침을 이해하고 복잡한 임상 시나리오를 추론하는 데 도움이 될 수 있다는 점을 시사합니다. 특히, o1은 이전 GPT-4보다 정확도 면에서 19개 데이터셋과 두 가지 새롭게 생성된 복잡한 QA 시나리오에서 평균 6.2% 및 6.6% 우수함을 보입니다. 그러나 한편으로는 모델 능력과 기존 평가 프로토콜의 여러 약점을 확인하였습니다. 이에는 환각, 일관성 없는 다국어 능력, 평가를 위한 상이한 메트릭 등이 포함됩니다. 우리는 향후 연구를 위해 원시 데이터와 모델 출력물을 https://ucsc-vlaa.github.io/o1_medicine/에서 공개합니다.
시각 지시 튜닝의 성공은 대형 언어 및 시각 모델(LLVMs)의 발전을 가속화했습니다. 지시 튜닝된 대형 언어 모델(LLMs)의 확장 법칙을 따르면, LLVMs는 크기를 더욱 증가시켜 26B, 34B, 심지어 80B의 매개변수에 도달했습니다. 모델 크기의 증가는 상당한 성능 향상을 가져왔지만, 교육 및 추론을 위해 상당히 많은 하드웨어 자원을 요구합니다. 따라서, 더 작은 크기로도 더 큰 모델의 성능을 달성하는 효율적인 LLVMs에 대한 강력한 필요성이 자연스럽게 존재합니다. 이 필요를 충족하기 위해, 우리는 0.5B, 1.8B, 3.8B 및 7B의 매개변수를 가진 새로운 효율적인 LLVM 패밀리인 Phantom을 제안합니다. Phantom은 제한된 구조 내에서 학습 능력을 크게 향상시킵니다. 다중 헤드 셀프 어텐션(MHSA) 중에 잠재 숨겨진 차원을 일시적으로 증가시킴으로써, 우리는 LLVMs가 물리적 모델 크기를 상당히 증가시키지 않고도 잠재적으로 훨씬 더 많은 시각-언어 지식을 보고 이해할 수 있도록 준비합니다. 이 이점을 극대화하기 위해, 우리는 오토레그레시브 지도 미세 조정(SFT) 및 직접 선호도 최적화(DPO)-와 유사한 개념을 사용하는 Phantom 최적화(PO)를 소개합니다. 이는 올바른 답변을 따르면서 잘못된 것과 모호한 것을 제거하여 효과적으로 작동합니다. Phantom은 다양한 대형 오픈 및 폐쇄 소스 LLVMs를 능가하여, 효율적인 LLVMs의 지혜로운 해결책으로 자리 잡고 있습니다.
본 논문은 이미지 생성, 조작 및 번역을 위한 다목적 이미지 대 이미지 비주얼 어시스턴트인 PixWizard를 제시합니다. 이를 위해 우리는 통합된 이미지-텍스트-이미지 생성 프레임워크로 다양한 시각 작업에 대응하고 Omni Pixel-to-Pixel Instruction-Tuning 데이터셋을 편집합니다. 자연어로 상세한 지시 템플릿을 구성함으로써 텍스트 대 이미지 생성, 이미지 복원, 이미지 매핑, 밀도 이미지 예측, 이미지 편집, 제어 가능한 생성, 인페인팅/아웃페인팅 등 다양한 시각 작업을 포괄적으로 포함합니다. 더불어, 우리는 Diffusion Transformers(DiT)를 기본 모델로 채택하고 유연한 해상도 메커니즘으로 기능을 확장하여 입력의 종횡비에 따라 이미지를 동적으로 처리할 수 있도록 하였습니다. 모델은 또한 입력 이미지로부터 정보를 효과적으로 융합하기 위해 구조 인식 및 의미 인식 가이던스를 통합합니다. 실험 결과, PixWizard는 다양한 해상도의 이미지에 대한 창조적이고 이해력 있는 능력을 보여주며, 보이지 않는 작업 및 인간 지시에 대한 유망한 일반화 능력을 나타냅니다. 코드 및 관련 자료는 https://github.com/AFeng-x/PixWizard에서 확인할 수 있습니다.
대형 언어 모델 (LLMs)은 임상 응용 프로그램을 변형하는 데 상당한 잠재력을 보여주었습니다. 본 연구에서는 LLMs를 임상 사용 사례에 적응시키기 위한 네 가지 기술의 효과를 조사합니다: 연속 사전 훈련, 지시형 미세 조정, NEFTune 및 프롬프트 엔지니어링. 우리는 Mistral 7B 및 Mixtral 8x7B 모델에 이러한 방법을 적용하며, 500 억 개의 토큰으로 이루어진 대규모 임상 사전 훈련 데이터 세트와 5 억 개의 토큰으로 이루어진 지시형 미세 조정 데이터 세트를 활용합니다. 다양한 임상 작업을 통해 우리의 평가는 각 기술의 영향을 밝혀냅니다. 250 억 개의 토큰을 넘어서는 연속 사전 훈련은 그 자체로는 미미한 개선을 보이지만, 지시형 미세 조정을 위한 강력한 기반을 확립합니다. 특히, 주로 생성 품질을 향상시키기 위해 설계된 NEFTune은 우리의 벤치마크에서 추가적인 이득을 놀라게도 보여줍니다. 복잡한 프롬프트 엔지니어링 방법은 성능을 더욱 향상시킵니다. 이러한 발견은 미세 조정 전략을 맞춤화하고 임상 영역에서 LLM 성능을 최적화하기 위해 혁신적인 기술을 탐구하는 중요성을 보여줍니다.
우리는 확산 기반 생성 모델을 사용하여 매우 현실적이고 타당한 거울 반사를 생성하는 문제에 대처합니다. 우리는 이 문제를 이미지 인페인팅 작업으로 정의하여 생성 프로세스 중 거울의 배치에 대한 사용자 제어를 더 많이 허용합니다. 이를 가능하게 하기 위해 우리는 SynMirror라는 다양한 합성 장면의 대규모 데이터셋을 만들었습니다. SynMirror에는 거울 앞에 배치된 물체가 포함된 약 198,000개의 샘플이 포함되어 있으며, 이는 66,000개의 고유한 3D 물체에서 렌더링되었습니다. 이 데이터셋에는 장면의 관련 기하학적 특성을 캡처하기 위해 깊이 맵, 법선 맵 및 인스턴스별 분할 마스크가 포함되어 있습니다. 이 데이터셋을 사용하여 우리는 입력 이미지와 거울 영역을 나타내는 마스크를 제공하면 고품질의 기하학적 일관성과 사실적인 거울 반사를 생성하는 새로운 깊이 조건 인페인팅 방법인 MirrorFusion을 제안합니다. MirrorFusion은 SynMirror에서 최첨단 방법을 능가하는 것으로 입증되었으며, 이는 포괄적인 양적 및 질적 분석에 의해 시연되었습니다. 우리의 지식으로는 확산 기반 모델을 사용하여 장면의 물체의 제어 가능하고 충실한 거울 반사를 성공적으로 다룬 첫 번째 연구입니다. SynMirror와 MirrorFusion은 실무자와 연구자들을 위한 이미지 편집 및 증강 현실 응용 프로그램에 대한 새로운 가능성을 열어줍니다.
최근의 역방향 렌더링 연구는 물체의 다중 뷰 이미지를 사용하여 형태, 반사율 및 재료를 복원하는 데 유망성을 보여주었습니다. 그러나 복원된 구성 요소들은 종종 입력 이미지에서 반사율과 재료 특성을 분리하는 내재적인 어려움으로 인해 새로운 조명 조건 하에서 정확하게 렌더링되지 못하는 경우가 있습니다. 이러한 도전에 대처하기 위해 우리는 텍스처와 재료 특성에 대한 2D 사전을 통합한 향상된 전통적인 3D 역방향 렌더링 파이프라인인 MaterialFusion을 소개합니다. 우리는 주어진 입력 외관으로부터 가장 가능성 있는 반사율과 재료를 추정하기 위해 다중 조명 데이터를 정제하는 2D 확산 모델 사전인 StableMaterial을 제시합니다. 이 모델은 약 12,000개의 예술가가 디자인한 합성 Blender 물체인 BlenderVault에서 파생된 반사율, 재료 및 재조명 이미지 데이터로 훈련되었습니다. 우리는 이 확산 사전을 반전 렌더링 프레임워크에 통합하여 점수 증류 샘플링(SDS)을 사용하여 반사율과 재료의 최적화를 안내함으로써 이전 연구와 비교하여 재조명 성능을 향상시킵니다. 우리는 MaterialFusion의 재조명 성능을 다양한 조명 조건 하에서 합성 및 실제 물체의 4개 데이터셋에서 검증하여, 우리의 확산 지원 접근법이 새로운 조명 조건 하에서 재구성된 물체의 외관을 현저하게 향상시킨다는 것을 보여줍니다. 우리는 이 분야에서의 추가 연구를 지원하기 위해 BlenderVault 데이터셋을 공개적으로 공개할 계획입니다.
2022년 11월 ChatGPT의 출시는 후훈련(post-training)에 대한 흥미 폭발과 새로운 선호도 최적화(PO) 방법의 폭풍을 촉발했습니다. 이러한 방법들은 LLM 판사들에 의해 측정되는 인간의 쌍별 선호도와 더 잘 일치함으로써 우수한 정렬을 주장합니다. 본 연구에서는 LLM 판사의 선호도가 다른 구체적인 정렬 지표에 어떻게 옮겨지는지, 그리고 그렇지 않다면 왜 그런지에 대한 질문에 시도합니다. 우리는 정렬을 위한 구체적인 지표를 정의하고, 현재까지 가장 큰 표준화된, 재현 가능한 LLM 메타-벤치마크인 SOS-Bench를 소개합니다. 우리는 (1) LLM 판단이 안전성, 세계 지식, 지시 따르기와 같은 구체적인 측정치와 상관관계가 없음을 발견했습니다; (2) LLM 판사들은 스타일보다 사실성과 안전성을 우선시하는 강력한 내재적 편향을 가지고 있습니다; 그리고 (3) 후훈련의 지도 미세 조정(SFT) 단계가 정렬에 가장 큰 영향을 미치며, 데이터 스케일링과 프롬프트 다양성이 주요 요인입니다. 우리의 코드베이스와 완전한 결과는 https://github.com/penfever/sos-bench에서 확인할 수 있습니다.
본 논문에서는 다국어 텍스트 음성 변환(TTS) 시스템에 매끄럽게 통합될 수 있는 제로샷 음성 전이(VT) 모듈을 소개합니다. 이 모듈은 개인의 음성을 언어 간에 전이할 수 있습니다. 제안된 VT 모듈은 참조 음성을 처리하는 스피커-인코더, 병목층, 그리고 기존 TTS 레이어에 연결된 잔여 어댑터로 구성됩니다. 우리는 이러한 구성 요소의 다양한 설정의 성능을 비교하고 다국어 간 평균 의견 점수(MOS)와 스피커 유사성을 보고합니다. 각 화자 당 단일 영어 참조 음성을 사용하여, 우리는 9개의 대상 언어 간에 73%의 평균 음성 전이 유사성 점수를 달성했습니다. 음성 특성은 개인 신원의 형성과 인식에 상당한 영향을 미칩니다. 신체적이거나 신경학적인 상태로 인해 자신의 음성을 잃는 것은 핵심적인 신원에 깊은 감정 손실을 초래할 수 있습니다. 사례 연구로, 우리의 접근 방식이 전형적인 음성 뿐만 아니라 이상 발음 환자의 음성을 복원할 수 있음을 보여줍니다. 심지어 전형적인 음성이 없거나 음성을 보관하지 않은 사람들에게 유용한 기능입니다. 다국어 전형적인 오디오 샘플 및 이상 발음 환자의 음성 복원을 보여주는 비디오는 여기에서 확인할 수 있습니다 (google.github.io/tacotron/publications/zero_shot_voice_transfer).
다양한 시나리오에서 상호 작용하는 캐릭터에 생명을 불어 넣을 수 있는 단일하고 다재다능한 물리학 기반 컨트롤러를 개발하는 것은 캐릭터 애니메이션 분야에서 흥미로운 새로운 영역을 제시한다. 이상적인 컨트롤러는 희소한 목표 키프레임, 텍스트 지시사항 및 장면 정보와 같은 다양한 제어 모달리티를 지원해야 한다. 이전 연구들은 물리적으로 시뮬레이션된 장면을 인식하는 제어 모델을 제안해왔지만, 이러한 시스템들은 주로 특정 작업 및 제어 모달리티에 특화된 컨트롤러를 개발하는 데 초점을 맞추었다. 본 연구는 일반적인 모션 인페인팅 문제로 물리학 기반 캐릭터 컨트롤을 제시하는 MaskedMimic을 제안한다. 핵심 아이디어는 마스크된 키프레임, 객체, 텍스트 설명 또는 이들의 조합과 같은 부분적인 (마스크된) 모션 설명으로부터 모션을 합성하기 위해 단일 통합 모델을 훈련시키는 것이다. 이는 모션 추적 데이터를 활용하고 다양한 모션 설명을 효과적으로 활용하여 일관된 애니메이션을 생성할 수 있는 확장 가능한 훈련 방법을 설계함으로써 달성된다. 이 과정을 통해 저희 방법은 관심 있는 모든 행동에 대해 지루한 보상 엔지니어링을 요구하지 않는 직관적인 제어 인터페이스를 제공하는 물리학 기반 컨트롤러를 학습한다. 결과적으로, 이 컨트롤러는 다양한 제어 모달리티를 지원하며 이질적인 작업 간의 원활한 전환을 가능하게 한다. 모션 인페인팅을 통해 캐릭터 컨트롤을 통합함으로써 MaskedMimic은 다재다능한 가상 캐릭터를 만들어낸다. 이러한 캐릭터들은 복잡한 장면에 동적으로 적응하고 요구에 따라 다양한 동작을 구성하여 더 많은 상호 작용 및 몰입형 경험을 가능하게 한다.
당뇨병은 중대한 세계적 건강 부담을 안겨주는 만성 질환으로, 당뇨병 관리의 최적화에는 다중 이해관계자 간의 협력이 필요합니다. 대형 언어 모델(Large language models, LLMs)은 다양한 의료 상황에서 유망성을 보여주었지만, 당뇨병 작업의 다양한 범위에서의 효과는 아직 입증되지 않았습니다. 본 연구에서는 당뇨병 특화 LLMs를 훈련하고 검증하기 위한 프레임워크를 소개했습니다. 먼저 데이터 수집, 필터링, 증강 및 정제를 포함하는 포괄적인 데이터 처리 파이프라인을 개발했습니다. 이 접근 방식은 고품질의 당뇨병 특화 데이터셋 및 여러 평가 기준을 완전히 새롭게 만드는 데 기여합니다. 수집한 훈련 데이터셋을 활용하여 다른 LLMs와 비교했을 때 다양한 당뇨병 작업을 이해하고 처리하는 데 최신 기술을 보여준 당뇨병 특화 LLMs 패밀리를 세밀하게 조정했습니다. 더 나아가 임상 연구에서는 우리 모델들이 개인 맞춤형 의료, 의학 교육 지원, 임상 작업 간소화 등 당뇨병 관리에 대한 잠재적인 응용 가능성을 보여주었습니다. 결론적으로 본 연구는 당뇨병 특화 LLMs 패밀리를 개발하고 평가하기 위한 프레임워크를 소개하며, 다양한 최종 사용자들에게 직면했을 때 임상 실무를 향상시키고 데이터 기반의 개인 맞춤형 당뇨병 지원을 제공하는 잠재력을 강조했습니다. 코드는 https://github.com/waltonfuture/Diabetica에서 제공됩니다.
최근에는 가상 현실 (VR) 애플리케이션을 위해 생성적 AI를 사용하여 3D 공간을 만드는 데 관심이 높아지고 있습니다. 그러나 오늘날의 모델은 협업 작업을 지원하는 데 부족한 인공 환경을 생성합니다. 사용자의 물리적 맥락을 통합하는 데 이점을 얻는 협업 작업을 지원하는 환경을 생성하기 위해 VR 원격 참여를 지원하는 환경을 생성하기 위해 SpaceBlender를 소개합니다. SpaceBlender는 사용자의 물리적 환경을 가상 공간으로 통합하기 위해 생성적 AI 기술을 활용하는 혁신적인 파이프라인입니다. 이 파이프라인은 깊이 추정, 메시 정렬 및 기하학적 사전 및 적응형 텍스트 프롬프트에 의해 안내되는 확산 기반 공간 완성으로 구성된 반복적 과정을 통해 사용자가 제공한 2D 이미지를 맥락 풍부한 3D 환경으로 변환합니다. 20명의 참가자가 짝을 이루어 협업 VR 친화도 다이어그래밍 작업을 수행한 예비 실험에서 SpaceBlender를 일반적인 가상 환경 및 최신 장면 생성 프레임워크와 비교하여 협업에 적합한 가상 공간을 만드는 능력을 평가했습니다. 참가자들은 SpaceBlender가 제공하는 향상된 익숙함과 맥락을 평가했지만 작업 집중을 방해할 수 있는 생성적 환경의 복잡성도 언급했습니다. 참가자 피드백을 바탕으로 파이프라인을 개선하기 위한 방향을 제안하고 다양한 시나리오에 대한 혼합된 공간의 가치와 설계에 대해 논의합니다.
본 논문은 OpenAI의 최신 추론 모델인 o1-preview 및 o1-mini가 다른 선두 모델과 비교하여 코딩 작업의 사례 연구를 제시한다. o1 모델은 단일 작업 벤치마크인 WebApp1K에 대한 SOTA 결과를 제공한다. 이를 위해, 우리는 작업 및 테스트 케이스 수를 두 배로 하는 더 어려운 벤치마크인 WebApp1K-Duo를 소개한다. 새로운 벤치마크는 o1 모델의 성능을 크게 저하시키며, Claude 3.5를 뒤쳐지게 한다. 게다가, 그들은 종종 피하는 비전이 없는 모델들이 가끔 마주치는 비표준적이지만 올바른 테스트 케이스에 직면할 때 일관되게 실패한다. 우리는 성능 변동성이 지시 이해력 때문이라고 가설을 세운다. 구체적으로, 모든 기대가 포착될 때 추론 메커니즘이 성능을 향상시키지만, 주요 기대가 누락될 때 오류를 악화시키며, 입력 길이에 영향을 받을 수 있다고 추측한다. 이에 따라, 우리는 추론 모델의 코딩 성공이 첫째로 최고 수준의 기본 모델과 SFT에 달려 있어야 하며, 지시 사항에 대한 면밀한 준수를 보장해야 한다고 주장한다.
음성은 장면에 대한 많은 정보를 전달하여, 반향에서 추가적인 주변 소리까지 다양한 효과를 초래합니다. 본 논문에서는 오디오-비주얼 조건부 예제로부터 녹음된 것처럼 들리는 입력 음성을 다른 장면 내에서 녹음된 것으로 조작합니다. 우리의 모델은 자기 감독을 통해 학습하며, 자연 비디오에는 반복되는 소리 이벤트와 질감이 포함되어 있음을 활용합니다. 우리는 비디오에서 오디오 클립을 추출하고 음성 향상을 적용합니다. 그런 다음 잠재 확산 모델을 훈련하여 다른 비디오 내의 다른 오디오-비주얼 클립을 조건부 힌트로 사용하여 원래의 음성을 복원합니다. 이 과정을 통해 모델은 입력 음성에 조건부 예제의 소리 특성을 전달하는 방법을 학습합니다. 우리의 모델이 라벨이 없는 야외 비디오를 사용하여 성공적으로 훈련될 수 있으며, 추가적인 비주얼 신호가 그 소리 예측 능력을 향상시킬 수 있음을 보여줍니다. 비디오 결과에 대한 자세한 내용은 아래 프로젝트 웹페이지를 참조하십시오: https://tinglok.netlify.app/files/avsoundscape/