번역이 포함된 일일 선별된 AI 연구 논문
Stable Diffusion을 포함한 대규모 텍스트-이미지 모델은 고해상도의 사실적인 초상화 이미지를 생성할 수 있습니다. 이러한 모델을 개인화하여 특정 주제나 스타일을 참조 이미지 세트를 사용해 합성하려는 연구가 활발히 진행되고 있습니다. 그러나 이러한 개인화 방법이 그럴듯한 결과를 내놓음에도 불구하고, 생성된 이미지는 종종 사실성을 충분히 달성하지 못하며 상업적으로 활용 가능한 수준에 이르지 못합니다. 이는 특히 초상화 이미지 생성에서 두드러지는데, 인간의 얼굴에 나타나는 부자연스러운 결함은 우리의 본능적인 편향 때문에 쉽게 식별됩니다. 이를 해결하기 위해, 우리는 MagiCapture를 소개합니다. 이는 소수의 주제 및 스타일 참조만을 사용하여 고해상도 초상화 이미지를 생성하기 위해 주제와 스타일 개념을 통합하는 개인화 방법입니다. 예를 들어, 몇 장의 무작위 셀카를 제공하면, 우리의 미세 조정된 모델은 여권 사진이나 프로필 사진과 같은 특정 스타일의 고품질 초상화 이미지를 생성할 수 있습니다. 이 작업의 주요 어려움은 구성된 개념에 대한 실측 데이터가 없어 최종 출력의 품질이 저하되고 원본 주제의 정체성이 변할 수 있다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 새로운 Attention Refocusing 손실 함수와 보조 사전 정보를 제안하며, 이 둘 모두 약한 감독 학습 환경 내에서 강력한 학습을 가능하게 합니다. 또한, 우리의 파이프라인은 고도로 사실적인 출력물을 보장하기 위한 추가적인 후처리 단계를 포함합니다. MagiCapture는 양적 및 질적 평가 모두에서 다른 기준 모델들을 능가하며, 비인간 객체에도 일반화될 수 있습니다.
우리는 대규모 언어 모델(Large Language Models)을 코드 최적화에 적용하는 새로운 접근 방식을 탐구합니다. 본 연구에서는 코드 크기를 최적화하기 위해 LLVM 어셈블리를 대상으로 처음부터 학습된 70억 파라미터 규모의 트랜스포머 모델을 제시합니다. 이 모델은 최적화되지 않은 어셈블리를 입력으로 받아 프로그램을 최적으로 최적화하기 위한 컴파일러 옵션 목록을 출력합니다. 특히, 학습 과정에서 모델은 최적화 전후의 명령어 수와 최적화된 코드 자체를 예측하도록 요구받습니다. 이러한 보조 학습 작업은 모델의 최적화 성능을 크게 향상시키고, 모델의 이해 깊이를 높이는 데 기여합니다. 우리는 다양한 테스트 프로그램을 대상으로 모델을 평가했습니다. 우리의 접근 방식은 컴파일러 대비 명령어 수를 3.0% 더 줄이는 성과를 달성했으며, 수천 번의 컴파일이 필요한 두 개의 최신 베이스라인을 능가했습니다. 더욱이, 이 모델은 놀라울 정도로 강력한 코드 추론 능력을 보여주며, 91%의 경우 컴파일 가능한 코드를 생성하고 70%의 경우 컴파일러의 출력을 완벽하게 모방했습니다.
새로운 시점 합성의 오랜 문제는 특히 스포츠 방송 분야에서 많은 응용 분야를 가지고 있습니다. 특히 축구 동작의 사실적인 새로운 시점 합성은 방송 산업에서 매우 큰 관심을 받고 있습니다. 그러나 현재까지 제안된 산업적 솔루션은 소수에 불과하며, 합성된 리플레이가 방송 수준의 품질에 근접한 경우는 더욱 적습니다. 최고의 독점 시스템들은 경기장 주변에 여러 대의 고정 카메라를 설치하는 것 외에는 그 내부 작동 방식에 대해 거의 정보를 공개하지 않습니다. 이러한 작업을 위해 여러 대의 고정 카메라를 활용하는 것은 공개 데이터셋의 부족으로 인해 문헌에서 거의 다루어지지 않은 도전 과제입니다. 즉, 대규모의 주로 정적인 환경에서 작고 빠르게 움직이는 요소들을 재구성하는 문제입니다. 최근 신경 방사 필드(NeRF)의 등장은 가장 어려운 설정에서도 사실적인 결과를 생성하기 위해 딥러닝 원리를 활용하여 다양한 새로운 시점 합성 응용 분야에서 놀라운 진전을 이루었습니다. 본 연구에서는 일반적인 동적 콘텐츠를 재구성하기 위해 설계된 신경 모델인 동적 NeRF를 기반으로 이 작업에 대한 솔루션의 가능성을 탐구합니다. 우리는 합성 축구 환경을 구성하고 이를 사용하여 여러 실험을 수행하며, 동적 NeRF를 사용하여 축구 장면을 재구성하는 데 도움이 되는 주요 구성 요소를 식별합니다. 이 접근 방식이 목표 응용 분야의 품질 요구 사항을 완전히 충족시키지는 못하지만, 비용 효율적이고 자동화된 솔루션을 향한 유망한 방향을 제시한다는 것을 보여줍니다. 또한, 우리는 연구 커뮤니티가 동적 축구 장면에 대한 새로운 시점 합성 작업에 더 많은 노력을 기울이도록 장려하기 위해 작업 데이터셋과 코드를 공개합니다. 코드, 데이터 및 비디오 결과는 https://soccernerfs.isach.be에서 확인할 수 있습니다.
언어 모델의 인간 선호도와의 정렬을 개선하는 것은 여전히 활발한 연구 과제로 남아 있습니다. 기존의 접근 방식은 주로 Proximal Policy Optimization (PPO)와 같은 온라인 강화 학습(RL) 방법을 통해 인간 피드백으로부터의 강화 학습(RLHF)을 활용해 왔습니다. 최근에는 Sequence Likelihood Calibration (SLiC) 및 Direct Preference Optimization (DPO)와 같은 오프라인 방법이 대안으로 부상하며, 안정성과 확장성을 개선하면서도 경쟁력 있는 성능을 유지하고 있습니다. SLiC는 지도 미세 조정(SFT) 정책에서 샘플링된 시퀀스 쌍을 사용하여 손실 함수를 개선하는 반면, DPO는 별도의 보상 모델 없이 선호 데이터를 기반으로 언어 모델을 직접 최적화합니다. 그러나 목표 최적 정책의 최대 가능도 추정량(MLE)은 해당 정책에서 샘플링된 레이블된 선호 쌍을 필요로 합니다. DPO는 보상 모델이 없기 때문에 최적 정책에서 선호 쌍을 샘플링하는 능력이 제한되며, SLiC는 SFT 정책에서만 선호 쌍을 샘플링할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 거부 샘플링을 사용하여 목표 최적 정책에서 선호 데이터를 수집함으로써 최적 정책을 더 정확하게 추정하는 새로운 접근 방식인 Statistical Rejection Sampling Optimization (RSO)을 소개합니다. 또한, 선호 모델링 관점에서 SLiC와 DPO에서 사용되는 손실 함수를 개선하는 통합 프레임워크를 제안합니다. 세 가지 다양한 작업에 걸친 광범위한 실험을 통해, RSO가 대형 언어 모델(LLM)과 인간 평가자 모두의 평가에서 SLiC와 DPO를 일관되게 능가함을 입증합니다.
대규모 텍스트-이미지 모델의 최근 발전은 예술 분야에서 다양한 응용을 찾으며 주목할 만한 성과를 거두었다. 그러나 작품의 독특한 특성(예: 붓터치, 색조, 구도)을 텍스트 프롬프트만으로 표현하는 것은 언어적 설명의 본질적 한계로 인해 제약을 받을 수 있다. 이를 위해 우리는 예술적 이미지 합성을 위해 설계된 새로운 프레임워크인 DreamStyler를 소개한다. DreamStyler는 텍스트-이미지 합성과 스타일 전이 모두에 능숙하며, 컨텍스트 인식 텍스트 프롬프트를 통해 다단계 텍스트 임베딩을 최적화하여 뛰어난 이미지 품질을 달성한다. 또한, 콘텐츠와 스타일 가이던스를 통해 DreamStyler는 다양한 스타일 참조를 수용할 수 있는 유연성을 보여준다. 실험 결과는 여러 시나리오에서 DreamStyler의 우수한 성능을 입증하며, 예술적 제품 창작에서의 유망한 잠재력을 시사한다.
우리의 목표는 텍스트 설명만을 사용하여 머리카락과 액세서리가 포함된 사실적인 3D 얼굴 아바타를 생성하는 것입니다. 이 문제는 최근 상당한 관심을 끌고 있지만, 기존 방법들은 사실감이 부족하거나 비현실적인 형태를 생성하거나 헤어스타일 수정과 같은 편집을 지원하지 못하는 한계가 있습니다. 우리는 기존 방법들이 단일 모델링 접근 방식을 사용하여 머리, 얼굴, 머리카락, 액세서리를 하나의 표현으로 처리하기 때문에 이러한 한계가 발생한다고 주장합니다. 우리의 관찰에 따르면, 예를 들어 머리카락과 얼굴은 서로 매우 다른 구조적 특성을 가지고 있어 각기 다른 표현 방식이 필요합니다. 이러한 통찰을 바탕으로, 우리는 구성적 모델을 사용하여 아바타를 생성합니다. 이 모델에서는 머리, 얼굴, 상체는 전통적인 3D 메시로 표현하고, 머리카락, 의류, 액세서리는 신경 방사 필드(NeRF)로 표현합니다. 모델 기반 메시 표현은 얼굴 영역에 강력한 기하학적 사전 정보를 제공하여 사실감을 높이고 개인의 외모 편집을 가능하게 합니다. 나머지 구성 요소를 NeRF로 표현함으로써, 우리의 방법은 곱슬머리나 푹신한 스카프와 같은 복잡한 기하학적 구조와 외관을 가진 부분을 모델링하고 합성할 수 있습니다. 우리의 새로운 시스템은 이러한 고품질의 구성적 아바타를 텍스트 설명에서 합성합니다. 실험 결과는 우리의 방법인 텍스트 기반 구성적 아바타 생성 및 편집(TECA)이 최근의 방법들보다 더 사실적인 아바타를 생성하면서도 구성적 특성 때문에 편집이 가능함을 보여줍니다. 예를 들어, 우리의 TECA는 헤어스타일, 스카프, 기타 액세서리와 같은 구성적 특징을 아바타 간에 원활하게 전송할 수 있습니다. 이 기능은 가상 피팅과 같은 응용 프로그램을 지원합니다.
우리는 단일 이미지에서 물체의 쉐이딩을 위한 트리 구조 표현을 추론하는 방법을 연구합니다. 기존 연구에서는 일반적으로 매개변수화된 표현이나 측정된 표현을 사용하여 쉐이딩을 모델링했는데, 이는 해석하기 어렵고 쉽게 편집할 수 없는 한계가 있었습니다. 우리는 기본 쉐이딩 노드와 합성 방법을 결합하여 물체 표면의 쉐이딩을 분해하는 쉐이드 트리 표현을 제안합니다. 이 쉐이드 트리 표현은 물리적 쉐이딩 과정에 익숙하지 않은 초보 사용자도 효율적이고 직관적인 방식으로 물체 쉐이딩을 편집할 수 있게 합니다. 쉐이드 트리를 추론하는 주요 과제는 이 추론 문제가 이산적인 트리 구조와 트리 노드의 연속적인 매개변수를 모두 포함한다는 점입니다. 우리는 이 문제를 해결하기 위해 하이브리드 접근 방식을 제안합니다. 자동회귀 추론 모델을 도입하여 트리 구조와 노드 매개변수의 대략적인 추정치를 생성한 다음, 최적화 알고리즘을 통해 추론된 쉐이드 트리를 미세 조정합니다. 우리는 합성 이미지, 캡처된 반사율, 실제 이미지, 비사실적 벡터 드로잉에 대한 실험을 보여주며, 이를 통해 재질 편집, 벡터화된 쉐이딩, 재조명과 같은 다운스트림 애플리케이션을 가능하게 합니다. 프로젝트 웹사이트: https://chen-geng.com/inv-shade-trees