번역이 포함된 일일 선별된 AI 연구 논문
현대 트랜스포머(Transformer)의 비용이 많이 드는 self-attention 레이어는 시퀀스 길이에 대해 메모리와 계산이 2차적으로 증가합니다. 기존의 근사 방법들은 일반적으로 성능이 떨어지고 실제로 상당한 속도 향상을 얻지 못합니다. 여기서 우리는 SwitchHead라는 새로운 방법을 제시합니다. 이 방법은 계산 및 메모리 요구 사항을 줄이고, 벽시계 속도 향상을 달성하면서 동일한 파라미터 예산을 가진 기준 트랜스포머의 언어 모델링 성능을 유지합니다. SwitchHead는 값(value) 및 출력(output) 투영에 Mixture-of-Experts(MoE) 레이어를 사용하며, 표준 트랜스포머보다 4~8배 적은 attention 행렬을 필요로 합니다. 우리의 새로운 attention은 MoE MLP 레이어와도 결합될 수 있어, 효율적인 완전 MoE "SwitchAll" 트랜스포머 모델을 만들어냅니다. 우리의 코드는 공개되어 있습니다.
확산 기반 비디오 생성이 빠르게 발전하고 있음에도 불구하고, 기존 모델들의 추론 결과는 여전히 만족스럽지 않은 시간적 일관성과 부자연스러운 동역학을 보여줍니다. 본 논문에서는 비디오 확산 모델의 노이즈 초기화를 깊이 있게 탐구하며, 추론 품질이 만족스럽지 못한 원인으로 작용하는 암묵적인 훈련-추론 간극을 발견했습니다. 우리의 주요 발견은 다음과 같습니다: 1) 추론 시 초기 잠재 변수의 공간-시간 주파수 분포는 훈련 시와 본질적으로 다르며, 2) 노이즈 제거 과정은 초기 노이즈의 저주파 성분에 의해 크게 영향을 받습니다. 이러한 관찰을 바탕으로, 우리는 간결하면서도 효과적인 추론 샘플링 전략인 FreeInit을 제안합니다. 이는 확산 모델에 의해 생성된 비디오의 시간적 일관성을 크게 향상시킵니다. FreeInit은 추론 과정에서 초기 잠재 변수의 공간-시간 저주파 성분을 반복적으로 개선함으로써, 훈련과 추론 간의 초기화 간극을 보상하고, 생성 결과의 대상 외관과 시간적 일관성을 효과적으로 개선합니다. 광범위한 실험을 통해 FreeInit이 추가 훈련 없이도 다양한 텍스트-투-비디오 생성 모델의 생성 결과를 일관되게 향상시킴을 입증했습니다.
대형 언어 모델(LLM)의 최근 성공과 함께 시각 언어 모델(VLM)이 빠르게 발전하고 있습니다. 시각 입력을 통해 LLM을 확장하려는 시각적 명령어 튜닝에 대한 노력이 증가하고 있지만, 모델이 두 모달리티에 대한 결합 모델링을 학습하는 시각 언어 사전 학습 과정에 대한 심층적인 연구는 부족한 상황입니다. 본 연구에서는 단계별로 통제 가능한 비교를 통해 LLM을 VLM으로 확장하는 VLM 사전 학습의 설계 옵션을 검토합니다. 우리는 세 가지 주요 발견을 소개합니다: (1) 사전 학습 중 LLM을 고정하는 것은 괜찮은 제로샷 성능을 달성할 수 있지만, 컨텍스트 내 학습 능력이 부족하며, 이를 위해서는 LLM을 고정 해제해야 합니다; (2) 인터리브된 사전 학습 데이터는 유익한 반면, 이미지-텍스트 쌍만으로는 최적이 아닙니다; (3) 명령어 미세 조정 중 텍스트 전용 명령어 데이터를 이미지-텍스트 데이터에 재혼합하는 것은 텍스트 전용 작업의 성능 저하를 개선할 뿐만 아니라 VLM 작업 정확도도 향상시킵니다. 개선된 사전 학습 레시피를 통해 우리는 VILA라는 시각 언어 모델 패밀리를 구축했으며, 이는 LLaVA-1.5와 같은 최신 모델을 주요 벤치마크에서 일관되게 능가합니다. 다중 모달리티 사전 학습은 또한 VILA의 매력적인 특성, 즉 다중 이미지 추론, 향상된 컨텍스트 내 학습, 더 나은 세계 지식을 드러내는 데 도움을 줍니다.
디퓨전 모델은 이전의 생성 모델을 뛰어넘는 뛰어난 이미지 생성 품질을 달성했습니다. 그러나 GAN과 비교했을 때 디퓨전 모델의 주목할 만한 한계는 고도로 비구조화된 잠재 공간으로 인해 두 이미지 샘플 간의 부드러운 보간이 어렵다는 점입니다. 이러한 부드러운 보간은 이미지 모핑 작업에 대한 자연스러운 해결책으로서 많은 응용 분야에서 흥미로운 주제입니다. 본 연구에서는 디퓨전 모델을 사용하여 부드럽고 자연스러운 이미지 보간을 가능하게 하는 첫 번째 접근법인 DiffMorpher를 제시합니다. 우리의 핵심 아이디어는 두 이미지의 의미를 각각에 맞춰 두 개의 LoRA를 학습시키고, LoRA 매개변수와 잠재 노이즈를 보간하여 부드러운 의미적 전환을 보장하는 것입니다. 이 과정에서 주석 없이도 대응 관계가 자동으로 나타납니다. 또한, 연속된 이미지 간의 부드러움을 더욱 향상시키기 위해 주의(attention) 보간 및 주입 기술과 새로운 샘플링 스케줄을 제안합니다. 광범위한 실험을 통해 DiffMorpher가 다양한 객체 범주에서 이전 방법들보다 월등히 나은 이미지 모핑 효과를 달성함을 입증하며, 이는 디퓨전 모델과 GAN을 구분짓던 중요한 기능적 격차를 메우는 결과를 보여줍니다.
ControlNet과 같은 최근 접근법들은 텍스트-이미지(T2I) 확산 모델에 대한 세밀한 공간적 제어를 사용자에게 제공합니다. 그러나 보조 모듈은 각 유형의 공간적 조건, 모델 아키텍처, 체크포인트마다 별도로 학습되어야 하며, 이는 인간 디자이너가 콘텐츠 생성 과정에서 AI 모델에 전달하고자 하는 다양한 의도와 선호도와 상충됩니다. 본 연구에서는 다중 조건, 아키텍처, 체크포인트를 동시에 지원하는 학습 없이 제어 가능한 T2I 생성을 위한 FreeControl을 제안합니다. FreeControl은 가이던스 이미지와의 구조 정렬을 용이하게 하는 구조 가이던스와 동일한 시드를 사용하여 생성된 이미지 간의 외관 공유를 가능하게 하는 외관 가이던스를 설계합니다. 다양한 사전 학습된 T2I 모델에 걸친 광범위한 정성적 및 정량적 실험을 통해 FreeControl의 우수한 성능을 입증합니다. 특히, FreeControl은 다양한 아키텍처와 체크포인트에 대한 편리한 학습 없는 제어를 가능하게 하며, 대부분의 기존 학습 없는 방법들이 실패하는 어려운 입력 조건을 허용하고, 학습 기반 접근법과 경쟁력 있는 합성 품질을 달성합니다.
대규모 언어 모델(LLM)의 평가는 그 성능을 측정하고 잠재적인 보안 위험을 완화하는 데 매우 중요합니다. 본 논문에서는 LLM을 평가하기 위한 통합 라이브러리인 PromptBench를 소개합니다. 이 라이브러리는 연구자들이 쉽게 사용하고 확장할 수 있는 몇 가지 핵심 구성 요소로 이루어져 있습니다: 프롬프트 구성, 프롬프트 엔지니어링, 데이터셋 및 모델 로딩, 적대적 프롬프트 공격, 동적 평가 프로토콜, 그리고 분석 도구 등이 포함됩니다. PromptBench은 새로운 벤치마크 생성, 다운스트림 애플리케이션 배포, 새로운 평가 프로토콜 설계 등 원천 연구를 촉진할 수 있는 개방적이고 일반적이며 유연한 연구용 코드베이스로 설계되었습니다. 코드는 https://github.com/microsoft/promptbench에서 확인할 수 있으며, 지속적으로 지원될 예정입니다.
로보틱스에서 사전 훈련된 파운데이션 모델의 응용 사례를 조사한다. 전통적인 로보틱스의 딥러닝 모델은 특정 작업에 맞춰 소규모 데이터셋으로 훈련되며, 이는 다양한 응용 분야에서의 적응성을 제한한다. 반면, 인터넷 규모의 데이터로 사전 훈련된 파운데이션 모델은 우수한 일반화 능력을 보이며, 경우에 따라 훈련 데이터에 없는 문제에 대한 제로샷 해결책을 찾는 새로운 능력을 보이기도 한다. 파운데이션 모델은 로봇 자율성 스택의 다양한 구성 요소, 즉 인지부터 의사결정 및 제어에 이르기까지 향상시킬 잠재력을 가지고 있다. 예를 들어, 대형 언어 모델은 코드를 생성하거나 상식적 추론을 제공할 수 있으며, 비전-언어 모델은 개방형 어휘 시각 인식을 가능하게 한다. 그러나 로봇 관련 훈련 데이터의 부족, 안전 보장 및 불확실성 정량화, 실시간 실행과 같은 중요한 연구 과제들이 남아 있다. 본 조사에서는 로보틱스 문제를 해결하기 위해 파운데이션 모델을 사용하거나 구축한 최근 논문들을 연구한다. 파운데이션 모델이 인지, 의사결정, 제어 영역에서 로봇 능력을 향상시키는 방식을 탐구한다. 로봇 자율성에서 파운데이션 모델의 채택을 방해하는 과제들을 논의하고, 향후 발전을 위한 기회와 잠재적 경로를 제공한다. 본 논문에 해당하는 GitHub 프로젝트(초기 릴리스. 품질과 관련성을 보장하기 위해 이 작업을 지속적으로 개선하고 업데이트할 예정임)는 여기에서 확인할 수 있다: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
대규모 언어 모델(LLMs)의 방대한 규모로 인해 기존의 압축 방법론을 직접 적용하는 것은 실용적이지 않습니다. 최소한의 그래디언트 업데이트에도 요구되는 계산 자원은 특히 소비자용 하드웨어에서 큰 도전 과제로 작용합니다. 본 논문은 축소 차원 모델링(reduced order modelling)을 기반으로 LLMs의 파라미터적이고 실용적인 압축을 위한 혁신적인 접근 방식을 소개합니다. 이 방법은 특징 공간에서의 저차원 분해와 가중치 공간에서의 재파라미터화를 포함합니다. 특히, 이 압축 기술은 계층별로 작동하며 GPU 장치가 필요하지 않아, 엄격한 메모리와 시간 제약 하에서도 수십억 규모의 모델을 압축할 수 있습니다. 우리의 방법은 행렬 분해를 활용하여 모델 압축 분야에서 중요한 진전을 이루었으며, 현재 최신 구조적 가지치기(structured pruning) 방법보다 우수한 효율성을 입증했습니다.
최근 연구에서는 인간의 의도에 부합하도록 대형 언어 모델(LLM)의 유용성과 무해성을 강화하기 위해 정렬(alignment) 기술을 적용하는 데 있어 상당한 진전을 이루었습니다. 본 논문에서는 정직성을 위한 정렬의 중요성을 주장하며, LLM이 지식이 부족한 질문에 대해 적극적으로 답변을 거부하면서도 지나치게 보수적이지 않도록 하는 것이 필요하다고 논의합니다. 그러나 정직성을 위한 정렬의 핵심적인 측면은 LLM의 지식 한계를 파악하는 것인데, 이는 결코 간단하지 않은 문제입니다. 이러한 도전은 지표 개발, 벤치마크 생성, 훈련 방법론 등 포괄적인 해결책을 요구합니다. 본 논문에서는 이러한 도전 과제를 해결하기 위해 먼저 정확한 문제 정의를 설정하고, 공자어록에서 영감을 받아 '정직성'을 정의합니다. 이는 정렬 후 LLM의 진전을 정량화하여 정직성을 효과적으로 측정하는 지표 개발의 초석 역할을 합니다. 또한, 다른 작업의 성능을 희생하지 않으면서 정직성을 강조하는 여러 효율적인 미세 조정(fine-tuning) 기법으로 구체화된 유연한 훈련 프레임워크를 소개합니다. 우리의 광범위한 실험은 제안된 지표에 따라 정렬된 모델이 정직성이 크게 증가했음을 보여줍니다. 우리는 https://github.com/GAIR-NLP/alignment-for-honesty에서 정직성 정렬 모델, 정직성 정렬을 위한 훈련 및 평가 데이터셋, 개념 용어집, 그리고 관련 소스 코드를 포함한 풍부한 리소스를 공개하여 향후 연구를 촉진합니다.
우리는 파운데이션 모델의 임베딩을 정렬하기 위한 일반화된 인터페이스인 FIND를 제안합니다. 티저 그림에서 보여지듯이, 파운데이션 모델의 가중치를 튜닝하지 않고도 경량 트랜스포머 인터페이스만으로 통합된 이미지(세분화) 및 데이터셋 수준(검색) 이해가 가능합니다. 제안된 인터페이스는 다음과 같은 유리한 특성을 가지고 있습니다: (1) 일반화 가능성. 동일한 아키텍처와 가중치로 검색, 세분화 등 다양한 작업에 적용 가능합니다. (2) 프로토타이핑 가능성. 다양한 작업은 주의 마스크와 임베딩 유형을 프로토타이핑하여 구현할 수 있습니다. (3) 확장 가능성. 제안된 인터페이스는 새로운 작업과 새로운 모델에 적응 가능합니다. (4) 인터리빙 가능성. 다중 작업 다중 모달 학습의 이점을 통해, 제안된 인터페이스는 인터리빙된 공유 임베딩 공간을 생성합니다. 이 인터리빙된 임베딩 공간을 바탕으로, 우리는 COCO 데이터셋에 인터리브 세분화 및 검색을 위한 새로운 훈련 및 평가 주석을 도입한 FIND-Bench를 소개합니다. 우리의 접근 방식은 FIND-Bench에서 최첨단 성능을 달성하고, 표준 검색 및 세분화 설정에서도 경쟁력 있는 성능을 보입니다. 훈련, 평가, 데모 코드 및 데이터셋은 https://github.com/UX-Decoder/FIND에서 공개되었습니다.
신경 렌더링(neural rendering)은 장면 재구성(scene reconstruction)과 새로운 시점 합성(novel view synthesis)에서 인상적인 발전을 이뤄냈지만, 이는 정확하게 사전 계산된 카메라 포즈(camera poses)에 크게 의존합니다. 이러한 제약을 완화하기 위해, 사전 처리된 카메라 포즈 없이 신경 방사 필드(Neural Radiance Fields, NeRFs)를 학습시키려는 여러 시도가 이루어졌습니다. 그러나 NeRFs의 암묵적 표현(implicit representations)은 3D 구조와 카메라 포즈를 동시에 최적화하는 데 추가적인 어려움을 제공합니다. 반면, 최근 제안된 3D 가우시안 스플래팅(3D Gaussian Splatting)은 명시적인 포인트 클라우드 표현(explicit point cloud representations)을 통해 새로운 기회를 제공합니다. 본 논문은 명시적인 기하학적 표현과 입력 비디오 스트림의 연속성을 활용하여 SfM(SfM preprocessing) 전처리 없이 새로운 시점 합성을 수행합니다. 우리는 입력 프레임을 순차적으로 처리하고, 한 번에 하나의 입력 프레임을 취해 3D 가우시안 집합을 점진적으로 확장하며, 카메라 포즈를 사전 계산할 필요가 없습니다. 우리의 방법은 큰 모션 변화 하에서 시점 합성 및 카메라 포즈 추정에서 이전 접근법들을 크게 개선합니다. 우리의 프로젝트 페이지는 https://oasisyang.github.io/colmap-free-3dgs 입니다.
일관성 모델(Consistency Models, CMs)은 시각적 콘텐츠를 효율적이고 고품질로 생성하는 데 유망한 가능성을 보여주었습니다. 그러나 사전 학습된 CMs에 새로운 조건부 제어를 추가하는 방법은 아직 탐구되지 않았습니다. 본 기술 보고서에서는 CMs에 ControlNet과 유사한 조건부 제어를 추가하기 위한 대안적 전략을 고려하고 세 가지 중요한 발견을 제시합니다. 첫째, 확산 모델(Diffusion Models, DMs)을 위해 훈련된 ControlNet은 고수준의 의미론적 제어에는 CMs에 직접 적용할 수 있지만, 저수준의 세부 사항과 사실감 제어에는 어려움을 겪습니다. 둘째, CMs는 독자적인 생성 모델 클래스로 작동하며, 이를 기반으로 Song 등이 제안한 일관성 훈련(Consistency Training)을 사용하여 ControlNet을 처음부터 훈련시킬 수 있습니다. 셋째, 경량 어댑터는 다중 조건 하에서 일관성 훈련을 통해 공동 최적화될 수 있으며, 이를 통해 DMs 기반 ControlNet을 CMs로 신속하게 전이할 수 있습니다. 우리는 이러한 세 가지 해결책을 에지, 깊이, 인간 포즈, 저해상도 이미지, 텍스트-이미지 잠재 일관성 모델을 사용한 마스크 이미지 등 다양한 조건부 제어에 걸쳐 연구합니다.
우리는 언어 모델의 순방향 전파(forward pass) 과정에서 활성화(activation)를 수정하여 모델을 조종하는 혁신적인 방법인 Contrastive Activation Addition(CAA)을 소개한다. CAA는 사실적 응답과 허구적 응답과 같은 특정 행동의 긍정적 예시와 부정적 예시 간의 잔차 스트림(residual stream) 활성화 차이를 평균화하여 '조종 벡터(steering vector)'를 계산한다. 추론 과정에서, 이러한 조종 벡터는 사용자 프롬프트 이후의 모든 토큰 위치에 긍정적 또는 부정적 계수와 함께 추가되어, 목표 행동의 정도를 정밀하게 제어할 수 있게 한다. 우리는 CAA의 효과를 Llama 2 Chat 모델을 사용하여 객관식 행동 질문 데이터셋과 자유형 생성 과제에서 평가한다. 이를 통해 CAA가 모델 행동을 크게 변화시키고, 파인튜닝(finetuning)이나 퓨샷 프롬프팅(few-shot prompting)과 같은 전통적인 방법을 능가하며, 모델의 능력을 최소한으로 감소시킨다는 것을 입증한다. 또한, 다양한 활성화 공간 해석 방법을 사용함으로써 CAA의 메커니즘에 대한 깊은 통찰을 얻는다. CAA는 모델 출력을 정확하게 조종할 뿐만 아니라, 대규모 언어 모델(LLM)에서 고차원 개념이 어떻게 표현되는지에 대한 이해를 제공한다.
멀티모달 대형 언어 모델(MLLMs)에서 시각적 프로젝터는 사전 훈련된 비전 인코더와 LLMs를 연결하는 데 중요한 역할을 하며, LLMs의 강력한 능력을 활용하면서도 심층적인 시각적 이해를 가능하게 합니다. 시각적 프로젝터의 중요성에도 불구하고, 이는 상대적으로 덜 탐구된 분야입니다. 본 연구에서는 먼저 두 가지 필수적인 프로젝터 특성을 식별합니다: (i) MLLMs의 전반적인 효율성에 중요한 시각적 토큰 수를 관리하는 유연성, 그리고 (ii) 공간적 이해에 필수적인 시각적 특징에서의 지역적 문맥 보존. 이러한 발견을 바탕으로, 우리는 유연성과 지역적 강화를 모두 갖춘 새로운 프로젝터 설계를 제안하며, 이는 두 가지 바람직한 특성을 효과적으로 만족시킵니다. 또한, 다중 및 다면적 명령어 데이터셋을 효과적으로 활용하기 위한 포괄적인 전략을 제시합니다. 광범위한 실험을 통해 개별 설계 선택의 영향을 검토합니다. 마지막으로, 우리가 제안한 MLLM인 Honeybee는 MME, MMBench, SEED-Bench, LLaVA-Bench 등 다양한 벤치마크에서 이전의 최첨단 방법들을 크게 능가하며, 상당히 높은 효율성을 달성합니다. 코드와 모델은 https://github.com/kakaobrain/honeybee에서 확인할 수 있습니다.
최근 텍스트-투-비디오 생성 분야에서 많은 진전이 있었으며, 최첨단 모델들은 고품질의 사실적인 비디오를 생성할 수 있게 되었습니다. 그러나 이러한 모델들은 사용자가 비디오를 상호작용적으로 제어하고 생성할 수 있는 기능이 부족하여, 잠재적으로 새로운 응용 분야를 열 수 있는 가능성이 있습니다. 이 목표를 향한 첫 번째 단계로, 우리는 확산 기반 비디오 생성 모델에 출력에 대한 상호작용적 시공간 제어 기능을 부여하는 문제를 다룹니다. 이를 위해, 우리는 최근의 세그멘테이션 문헌에서의 발전에서 영감을 받아 새로운 시공간 마스크 어텐션 모듈인 Peekaboo를 제안합니다. 이 모듈은 기존의 비디오 생성 모델에 추가할 수 있는 학습이 필요 없고 추론 오버헤드가 없는 방식으로 시공간 제어를 가능하게 합니다. 또한, 우리는 상호작용적 비디오 생성 작업을 위한 평가 벤치마크를 제안합니다. 광범위한 정성적 및 정량적 평가를 통해, Peekaboo가 비디오 생성 제어를 가능하게 하고, 기준 모델 대비 최대 3.8배의 mIoU 향상을 달성함을 입증합니다.
머신러닝에서, 훈련 시나리오와 배포 조건이 달라지는 분포 변화에 대한 일반화는 기후 모델링, 생물의학, 자율 주행과 같은 분야에서 특히 중요합니다. 광범위한 사전 훈련과 작업 다양성으로 구별되는 파운데이션 모델의 등장은 이러한 모델들이 분포 변화에 적응할 수 있는 능력에 대한 관심을 증가시켰습니다. GPT-4V(ision)는 가장 진보된 공개적으로 접근 가능한 멀티모달 파운데이션 모델로, 이상 탐지, 비디오 이해, 이미지 생성, 의료 진단 등 다양한 영역에서 광범위하게 응용되고 있습니다. 그러나 데이터 분포에 대한 강건성은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 본 연구는 GPT-4V의 동적 환경에서의 적응성과 일반화 능력을 엄격히 평가하며, CLIP 및 LLaVA와 같은 주요 모델들과 비교합니다. 우리는 자연, 의료, 분자 영역에 걸친 13개의 다양한 데이터셋에서 GPT-4V의 제로샷 일반화를 심층적으로 탐구합니다. 또한, 통제된 데이터 변동에 대한 적응성을 조사하고, 적응을 강화하기 위한 도구로서의 컨텍스트 내 학습의 효율성을 검토합니다. 우리의 연구 결과는 GPT-4V의 분포 변화에서의 능력 한계를 명확히 하며, 다양한 시나리오에서의 강점과 한계를 밝힙니다. 특히, 이 연구는 AI 파운데이션 모델이 분포 변화에 어떻게 일반화하는지에 대한 이해를 높이고, 그들의 적응성과 강건성에 대한 중요한 통찰을 제공합니다. 코드는 https://github.com/jameszhou-gl/gpt-4v-distribution-shift에서 공개되어 있습니다.
Diffusion Transformer는 최근 고품질 3D 포인트 클라우드 생성에서 뛰어난 효과를 보여주고 있습니다. 그러나 고해상도 3D 복셀을 위한 복셀 기반 diffusion 모델의 학습은 복셀의 추가 차원으로 인해 어텐션 연산자의 3차원 복잡성 때문에 여전히 매우 비용이 많이 듭니다. 3D가 2D에 비해 본질적으로 가지는 중복성에 착안하여, 우리는 효율적인 3D 포인트 클라우드 생성을 위해 맞춤화된 새로운 마스크 diffusion transformer인 FastDiT-3D를 제안하며, 이를 통해 학습 비용을 크게 절감합니다. 구체적으로, 우리는 마스크된 복셀화된 포인트 클라우드에서 디노이징 프로세스를 동적으로 수행하기 위해 마스크 오토인코더에서 영감을 얻었습니다. 또한, 복셀화된 포인트 클라우드에서 배경/전경 정보를 적응적으로 집계하기 위한 새로운 복셀 인식 마스킹 전략을 제안합니다. 우리의 방법은 거의 99%의 극단적인 마스킹 비율로도 최첨단 성능을 달성합니다. 더 나아가, 다중 카테고리 3D 생성을 개선하기 위해 3D diffusion 모델에 Mixture-of-Expert(MoE)를 도입했습니다. 각 카테고리는 서로 다른 전문가들과 함께 독자적인 diffusion 경로를 학습할 수 있어, 그래디언트 충돌을 완화합니다. ShapeNet 데이터셋에 대한 실험 결과는 우리의 방법이 최첨단의 고품질 및 다양한 3D 포인트 클라우드 생성 성능을 달성함을 보여줍니다. 우리의 FastDiT-3D는 원래 학습 비용의 6.5%만 사용하여 128 해상도의 복셀 포인트 클라우드를 생성할 때 1-Nearest Neighbor Accuracy와 Coverage 메트릭을 개선합니다.
의사결정 지원 시스템의 성공에 있어 중요한 요소는 사용자 선호도의 정확한 모델링입니다. 심리학 연구에 따르면, 사용자들은 선호도 조사 과정에서 자신의 선호도를 형성하는 경우가 많으며, 이는 개인화된 시스템 개발에 있어 시스템과 사용자 간 상호작용의 중요성을 강조합니다. 본 논문은 대규모 언어 모델(LLMs)과 제약 프로그래밍을 결합한 새로운 접근 방식을 소개하여 상호작용적 의사결정 지원을 용이하게 합니다. 우리는 이 하이브리드 프레임워크를 정보 작업자들이 매일 직면하는 시간 소모적인 활동인 회의 일정 관리라는 관점에서 연구합니다. 이 프레임워크를 평가하기 위해 세 가지 연구를 진행했는데, 이는 상황별 일정 선호도를 특성화하기 위한 일기 연구(n=64), 시스템 성능에 대한 정량적 평가, 그리고 프로토타입 시스템을 사용한 사용자 연구(n=10)를 포함합니다. 우리의 연구는 반복적 선호도 조사를 위한 하이브리드 LLM과 최적화 접근법의 잠재력과 인간-시스템 협업 의사결정 프로세스를 지원하는 시스템 구축을 위한 설계 고려 사항을 강조합니다.