번역이 포함된 일일 선별된 AI 연구 논문
생성형 인공지능(GenAI) 시스템은 산업 및 연구 분야 전반에 걸쳐 점점 더 많이 배포되고 있습니다. 개발자와 최종 사용자는 프롬프트 또는 프롬프트 엔지니어링을 통해 이러한 시스템과 상호작용합니다. 프롬프트는 널리 사용되고 활발히 연구되는 개념이지만, 이 분야가 초기 단계에 있기 때문에 프롬프트를 구성하는 요소에 대한 용어의 혼란과 온톨로지적 이해가 부족한 상황입니다. 본 논문은 프롬프트에 대한 구조화된 이해를 확립하기 위해 프롬프트 기법의 분류 체계를 구성하고 그 사용을 분석합니다. 우리는 33개의 용어로 구성된 포괄적인 어휘집, 58개의 텍스트 전용 프롬프트 기법 분류 체계, 그리고 40개의 다른 모달리티를 위한 기법을 제시합니다. 또한, 자연어 접두사 프롬프팅에 관한 전체 문헌에 대한 메타 분석을 제시합니다.
최근 생성 모델의 발전은 고해상도 이미지의 효율적인 합성에서 이미지 토큰화의 중요한 역할을 부각시켰습니다. 이미지를 잠재 표현으로 변환하는 토큰화는 픽셀을 직접 처리하는 것에 비해 계산 요구량을 줄이고 생성 과정의 효과성과 효율성을 향상시킵니다. VQGAN과 같은 기존 방법들은 일반적으로 고정된 다운샘플링 비율을 가진 2D 잠재 그리드를 사용합니다. 그러나 이러한 2D 토큰화는 인접한 영역이 자주 유사성을 보이는 이미지의 내재적 중복성을 관리하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 이미지를 1D 잠재 시퀀스로 토큰화하는 혁신적인 접근 방식인 Transformer 기반 1차원 토큰화기(TiTok)를 소개합니다. TiTok은 더 컴팩트한 잠재 표현을 제공하여 기존 기술보다 훨씬 더 효율적이고 효과적인 표현을 가능하게 합니다. 예를 들어, 256 x 256 x 3 이미지는 기존 방법에서 얻은 256 또는 1024 토큰에서 단 32개의 이산 토큰으로 크게 줄어듭니다. TiTok은 컴팩트한 특성에도 불구하고 최신 기술과 경쟁력 있는 성능을 달성합니다. 특히, 동일한 생성기 프레임워크를 사용하여 TiTok은 ImageNet 256 x 256 벤치마크에서 1.97 gFID를 달성하며 MaskGIT 기준선을 4.21만큼 크게 앞섭니다. TiTok의 장점은 더 높은 해상도에서 더욱 두드러집니다. ImageNet 512 x 512 벤치마크에서 TiTok은 최신 확산 모델인 DiT-XL/2(gFID 2.74 대 3.04)를 능가할 뿐만 아니라 이미지 토큰을 64배 줄여 410배 더 빠른 생성 과정을 이끌어냅니다. 우리의 최고 성능 변형은 DiT-XL/2(gFID 2.13 대 3.04)를 크게 능가하면서도 여전히 고품질 샘플을 74배 더 빠르게 생성합니다.
코드 대형 언어 모델(LLMs)은 코드 이해, 완성 및 생성 작업에서 놀라운 발전을 보여주고 있습니다. 프로그래밍 벤치마크는 다양한 코드 문제와 해당 테스트 케이스로 구성되어 있으며, 이러한 작업에서 서로 다른 LLMs의 능력을 평가하는 표준으로 사용됩니다. 그러나 대부분의 기존 벤치마크는 주로 Python에 초점을 맞추고 있으며 여전히 제한된 수의 언어로 구성되어 있어, 다른 언어들은 Python 샘플에서 번역된 경우(예: MultiPL-E)가 많아 데이터 다양성이 저하되고 있습니다. 코드 LLMs 연구를 더욱 촉진하기 위해, 우리는 40개의 프로그래밍 언어를 포함한 대규모 다국어 코드 벤치마크(McEval)를 제안하며, 이는 16K 테스트 샘플로 구성되어 코드 LLMs의 다국어 시나리오에서의 한계를 크게 확장합니다. 이 벤치마크는 도전적인 코드 완성, 이해 및 생성 평가 작업을 포함하며, 정교하게 구성된 대규모 다국어 명령어 코퍼스인 McEval-Instruct를 제공합니다. 또한, 우리는 McEval-Instruct를 기반으로 훈련된 효과적인 다국어 코더 mCoder를 소개하여 다국어 프로그래밍 언어 생성을 지원합니다. McEval에 대한 광범위한 실험 결과는 오픈소스 모델과 폐쇄형 LLMs(예: GPT 시리즈 모델) 사이에 여전히 많은 언어에서 어려운 여정이 있음을 보여줍니다. 명령어 코퍼스, 평가 벤치마크 및 리더보드는 https://mceval.github.io/에서 확인할 수 있습니다.
이미지 편집은 사용자들의 다양한 요구를 고려할 때 실용적이면서도 도전적인 작업으로, 가장 어려운 부분 중 하나는 편집된 이미지가 어떻게 보여야 하는지를 정확히 설명하는 것입니다. 본 연구에서는 사용자가 더 편리하게 창의력을 발휘할 수 있도록 돕기 위해 모방 편집(imitative editing)이라는 새로운 형태의 편집 방식을 제안합니다. 구체적으로, 관심 있는 이미지 영역을 편집하기 위해 사용자는 온라인에서 마주친 관련 사진과 같은 실제 참조 자료로부터 직접 영감을 얻을 수 있으며, 참조 자료와 원본 간의 적합성을 고민할 필요가 없습니다. 이러한 설계를 통해 시스템은 참조 자료로부터 무엇을 기대해야 하는지를 자동으로 파악하여 편집을 수행할 수 있습니다. 이를 위해, 우리는 MimicBrush라는 생성적 훈련 프레임워크를 제안합니다. 이 프레임워크는 비디오 클립에서 두 프레임을 무작위로 선택하고, 한 프레임의 일부 영역을 마스킹한 후, 다른 프레임의 정보를 사용하여 마스킹된 영역을 복원하는 방법을 학습합니다. 이를 통해, 확산 모델(diffusion prior)에서 개발된 우리의 모델은 별도의 이미지 간의 의미적 대응 관계를 자기 지도 방식으로 포착할 수 있습니다. 우리는 다양한 테스트 케이스에서 우리의 방법의 효과를 실험적으로 보여주고, 기존 대안들에 비해 우수성을 입증합니다. 또한, 추가 연구를 촉진하기 위한 벤치마크를 구축합니다.
AI는 다중 대형 언어 모델(LLM)과 기타 복잡한 구성 요소들을 조율하는 시스템에 의해 획기적인 발전을 이루며 패러다임 전환을 겪고 있습니다. 그 결과, 복합 AI 시스템을 위한 원칙적이고 자동화된 최적화 방법을 개발하는 것이 가장 중요한 새로운 과제 중 하나가 되었습니다. 신경망도 초기에는 유사한 도전에 직면했으나, 역전파와 자동 미분이 최적화를 손쉽게 만들어 필드를 혁신했습니다. 이를 영감으로 삼아, 우리는 텍스트를 통한 자동 "미분"을 수행하는 강력한 프레임워크인 TextGrad를 소개합니다. TextGrad는 LLM이 제공하는 텍스트 피드백을 역전파하여 복합 AI 시스템의 개별 구성 요소를 개선합니다. 우리의 프레임워크에서 LLM은 코드 조각부터 분자 구조에 이르기까지 계산 그래프의 변수를 최적화하기 위해 풍부하고 일반적이며 자연어로 된 제안을 제공합니다. TextGrad는 PyTorch의 구문과 추상화를 따르며 유연하고 사용하기 쉽습니다. 이 프레임워크는 다양한 작업에서 즉시 사용 가능하며, 사용자는 프레임워크의 구성 요소나 프롬프트를 조정하지 않고도 목적 함수만 제공하면 됩니다. 우리는 질문 응답, 분자 최적화, 방사선 치료 계획 설계 등 다양한 응용 분야에서 TextGrad의 효과성과 일반성을 입증했습니다. 프레임워크를 수정하지 않고도 TextGrad는 GPT-4o의 Google-Proof 질문 응답에서 제로샷 정확도를 51%에서 55%로 향상시키고, LeetCode-Hard 코딩 문제 해결 최적화에서 20%의 상대적 성능 향상을 이끌어내며, 추론을 위한 프롬프트를 개선하고, 원하는 in silico 결합 특성을 가진 새로운 약물 유사 소분자를 설계하며, 높은 특이성을 가진 방사선 종양학 치료 계획을 설계합니다. TextGrad는 차세대 AI 시스템 개발을 가속화하기 위한 기반을 마련합니다.
복잡한 다단계 추론 작업, 예를 들어 수학 문제 해결이나 코드 생성은 가장 발전된 대형 언어 모델(LLMs)에게도 여전히 큰 도전 과제로 남아 있습니다. 결과 보상 모델(ORM)을 사용하여 LLM 출력을 검증하는 것은 LLM의 추론 성능을 향상시키기 위한 표준 추론 시점 기법입니다. 그러나 이 방법은 여전히 길거나 다중 단계 추론 체인이 필요한 작업에서는 충분하지 않으며, 중간 결과가 적절히 보상되거나 처벌되지 않습니다. 프로세스 감독은 이러한 한계를 해결하기 위해 추론 과정 중에 중간 보상을 부여합니다. 현재까지 프로세스 감독 데이터를 수집하는 방법은 인간 주석이나 단계별 몬테카를로 추정에 의존해 왔으며, 이 둘 모두 확장하기에는 비용이 너무 많이 들어 이 기술의 광범위한 적용을 방해해 왔습니다. 이러한 문제에 대응하여, 우리는 고품질 프로세스 감독 데이터를 효율적으로 수집하기 위해 오메가PRM이라는 새로운 분할 정복 스타일의 몬테카를로 트리 탐색(MCTS) 알고리즘을 제안합니다. 이 알고리즘은 이진 탐색을 통해 사고의 연쇄(CoT)에서 첫 번째 오류를 신속하게 식별하고 양성 및 음성 예제를 균형 있게 조정하여 효율성과 품질을 모두 보장합니다. 그 결과, 우리는 프로세스 보상 모델(PRM)을 훈련시키기 위해 150만 개 이상의 프로세스 감독 주석을 수집할 수 있었습니다. 이 완전 자동화된 프로세스 감독과 가중 자기 일관성 알고리즘을 활용하여, 우리는 지시 튜닝된 Gemini Pro 모델의 수학 추론 성능을 향상시켜 MATH 벤치마크에서 69.4%의 성공률을 달성했으며, 이는 기본 모델 성능인 51%에서 36%의 상대적 개선을 나타냅니다. 또한, 전체 과정이 인간 개입 없이 진행되므로, 우리의 방법은 기존 방법에 비해 재정적 및 계산적 비용 측면에서 매우 효율적입니다.
본 논문은 복잡한 수학적 추론 과제에서의 성능 향상을 위해 설계된, 대규모 언어 모델(LLM)과 몬테카를로 트리 탐색(MCTS)을 혁신적으로 통합한 MCT Self-Refine(MCTSr) 알고리즘을 소개한다. 특히 전략적 및 수학적 추론에서의 정확성과 신뢰성 문제를 해결하기 위해, MCTSr는 체계적인 탐색과 휴리스틱 자기 개선 메커니즘을 활용하여 LLM 내의 의사결정 프레임워크를 개선한다. 이 알고리즘은 선택, 자기 개선, 자기 평가, 역전파의 반복적 과정을 통해 몬테카를로 탐색 트리를 구축하며, 개선된 상한 신뢰 구간(UCB) 공식을 사용하여 탐색과 활용 간의 균형을 최적화한다. 광범위한 실험을 통해 MCTSr는 GSM8K, GSM Hard, MATH 및 Math Odyssey, AIME, OlympiadBench와 같은 올림피아드 수준 벤치마크를 포함한 여러 데이터셋에서 올림피아드 수준의 수학 문제를 해결하는 데 있어 뛰어난 효율성을 보여주며, 성공률을 크게 향상시킨다. 이 연구는 복잡한 추론 과제에서의 LLM 적용을 발전시키고, LLM 기반 애플리케이션에서의 의사결정 정확성과 신뢰성을 향상시켜 미래의 AI 통합을 위한 기반을 마련한다.
본 기술 보고서에서는 1460억 개의 파라미터와 16개의 전문가(expert)로 구성된 고성능 혼합 전문가(Mixture-of-Experts, MoE) 대규모 언어 모델(Large Language Model, LLM)인 Skywork-MoE의 개발 과정에서 구현된 훈련 방법론을 소개합니다. 이 모델은 기존의 Skywork-13B 모델의 조밀한(dense) 체크포인트를 초기화로 사용합니다. 우리는 초기화 방식으로서 기존 모델의 업사이클링(upcycling)과 처음부터 훈련하는 방식의 비교적 효과를 탐구하였으며, 이 두 접근 방식 사이의 선택은 기존 조밀 체크포인트의 성능과 MoE 훈련 예산을 모두 고려해야 한다는 결론을 도출했습니다. 또한, 우리는 두 가지 혁신적인 기법을 강조합니다: 전문가 다양성 개선을 위한 게이팅 로짓 정규화(gating logit normalization)와 계층별 보조 손실 계수 조정이 가능한 적응형 보조 손실 계수(adaptive auxiliary loss coefficients)입니다. 실험 결과는 이러한 방법들의 효과를 입증하였습니다. 이러한 기법과 통찰을 활용하여, 우리는 SkyPile 코퍼스의 축약된 부분집합을 사용하여 업사이클링된 Skywork-MoE를 훈련시켰습니다. 평가 결과는 우리의 모델이 다양한 벤치마크에서 강력한 성능을 보여줌을 입증합니다.
결합된 시각 및 청각 감각 경험을 생성하는 것은 몰입형 콘텐츠 소비에 있어 매우 중요합니다. 최근 신경망 생성 모델의 발전으로 이미지, 텍스트, 음성, 비디오 등 다양한 모달리티에서 고해상도 콘텐츠를 생성할 수 있게 되었습니다. 그러나 이러한 성과에도 불구하고, 생성된 시각적 콘텐츠를 보완할 수 있는 고품질의 공간 오디오를 생성하는 데는 여전히 상당한 격차가 존재합니다. 더욱이, 현재의 오디오 생성 모델은 자연스러운 오디오나 음성, 음악을 생성하는 데는 뛰어나지만, 몰입형 경험에 필요한 공간 오디오 신호를 통합하는 데는 부족함이 있습니다. 본 연구에서는 이 문제를 해결하기 위해 SEE-2-SOUND라는 제로샷 접근 방식을 소개합니다. 이 접근 방식은 작업을 (1) 시각적 관심 영역 식별, (2) 이 요소들을 3D 공간에 위치시키기, (3) 각각에 대해 모노 오디오 생성, (4) 이를 공간 오디오로 통합하는 단계로 분해합니다. 우리의 프레임워크를 사용하여, 인터넷에서 얻은 고품질 비디오, 이미지, 동적 이미지뿐만 아니라 학습 기반 접근법으로 생성된 미디어에 대한 공간 오디오 생성에서 설득력 있는 결과를 보여줍니다.
기존의 동적 장면 생성 방법들은 대부분 사전 학습된 3D 생성 모델로부터 지식을 추출하는 방식에 의존하며, 이 모델들은 일반적으로 합성 객체 데이터셋에 대해 미세 조정됩니다. 그 결과, 생성된 장면들은 주로 객체 중심적이며 사실감이 부족한 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 사실적인 텍스트-투-4D 장면 생성을 위해 설계된 새로운 파이프라인을 제안합니다. 이 파이프라인은 다중 시점 생성 모델에 대한 의존성을 버리고, 대신 다양한 실제 데이터셋으로 학습된 비디오 생성 모델을 완전히 활용합니다. 우리의 방법은 먼저 비디오 생성 모델을 사용하여 참조 비디오를 생성하는 것으로 시작합니다. 그런 다음, 참조 비디오로부터 세심하게 생성된 고정 시간 비디오를 사용하여 비디오의 정규 3D 표현을 학습합니다. 고정 시간 비디오의 불일치를 처리하기 위해, 우리는 이러한 결함을 모델링하기 위해 프레임별 변형을 공동으로 학습합니다. 그런 다음, 참조 비디오의 동적 상호작용을 포착하기 위해 정규 표현을 기반으로 시간적 변형을 학습합니다. 이 파이프라인은 다중 시점에서 볼 수 있는 향상된 사실감과 구조적 완전성을 가진 동적 장면의 생성을 가능하게 하여, 4D 장면 생성 분야에서 새로운 기준을 제시합니다.
디퓨전 모델은 다양한 응용 분야에서 뛰어난 생성 능력으로 인해 커뮤니티로부터 큰 관심을 받고 있습니다. 그러나 일반적인 다단계 순차적 노이즈 제거 특성으로 인해 누적 지연 시간이 높아져 병렬 계산의 가능성이 제한됩니다. 이를 해결하기 위해, 우리는 AsyncDiff를 소개합니다. 이는 여러 장치 간 모델 병렬화를 가능하게 하는 범용적이고 플러그 앤 플레이 방식의 가속 기법입니다. 우리의 접근 방식은 복잡한 노이즈 예측 모델을 여러 구성 요소로 나누고, 각각을 다른 장치에 할당합니다. 이러한 구성 요소 간의 의존성 체인을 끊기 위해, 연속적인 디퓨전 단계 간의 은닉 상태(hidden state)의 높은 유사성을 활용하여 기존의 순차적 노이즈 제거를 비동기적 프로세스로 변환합니다. 결과적으로, 각 구성 요소는 별도의 장치에서 병렬로 계산할 수 있게 됩니다. 제안된 전략은 생성 품질에 미미한 영향을 미치면서도 추론 지연 시간을 크게 줄입니다. 구체적으로, Stable Diffusion v2.1의 경우, AsyncDiff는 4개의 NVIDIA A5000 GPU에서 2.7배의 속도 향상을 달성하면서도 성능 저하가 거의 없었고, CLIP Score에서 단 0.38의 미미한 감소로 4.0배의 속도 향상을 보였습니다. 우리의 실험은 또한 AsyncDiff가 비디오 디퓨전 모델에 쉽게 적용될 수 있으며, 고무적인 성능을 보인다는 것을 입증했습니다. 코드는 https://github.com/czg1225/AsyncDiff에서 확인할 수 있습니다.
확산 모델(diffusion model)은 고품질 이미지 생성에서 뛰어난 성능을 보이지만, 기존 연구에서는 언어 모델링에서 확산 모델과 자기회귀(autoregressive, AR) 방식 간에 상당한 성능 차이가 보고되었습니다. 본 연구에서는 간단한 마스킹된 이산 확산(masked discrete diffusion)이 이전에 생각했던 것보다 더 우수한 성능을 보인다는 것을 입증합니다. 우리는 마스킹된 확산 모델의 성능을 향상시키는 효과적인 학습 방법을 적용하고, 추가적인 개선을 가져오는 단순화된 Rao-Blackwellized 목적 함수를 도출했습니다. 우리의 목적 함수는 고전적인 마스킹된 언어 모델링 손실(masked language modeling loss)의 혼합 형태를 가지며, 효율적인 샘플러를 허용하는 인코더 전용(encoder-only) 언어 모델을 학습하는 데 사용될 수 있습니다. 이는 전통적인 언어 모델처럼 반-자기회귀(semi-autoregressive) 방식으로 임의 길이의 텍스트를 생성할 수 있는 모델을 포함합니다. 언어 모델링 벤치마크에서 현대적인 엔지니어링 기법으로 학습된 다양한 마스킹된 확산 모델은 확산 모델 중 새로운 최첨단(state-of-the-art) 성능을 달성했으며, AR 모델의 복잡도(perplexity)에 근접했습니다. 우리는 코드를 다음 링크에서 공개합니다: https://github.com/kuleshov-group/mdlm
대형 언어 모델(LLM)은 의학 질의응답 벤치마크에서 인상적인 성능을 달성했습니다. 그러나 높은 벤치마크 정확도가 실제 임상 환경에서의 성능으로 일반화된다는 것을 의미하지는 않습니다. 의학 질의응답 벤치마크는 LLM 성능을 정량화하는 데 일관된 가정에 의존하지만, 이러한 가정은 임상 현장의 개방된 세계에서는 성립하지 않을 수 있습니다. 그럼에도 불구하고 LLM은 광범위한 지식을 학습하여, 유명 벤치마크의 비현실적인 가정과 상관없이 실용적인 조건에 일반화할 수 있는 능력을 갖추고 있습니다. 우리는 벤치마크 가정이 위반될 때 LLM 의학 질의응답 벤치마크 성능이 얼마나 잘 일반화되는지 정량화하고자 합니다. 구체적으로, 우리는 'MedFuzz'(의학 퍼징)라고 부르는 적대적 방법을 제시합니다. MedFuzz는 LLM을 혼란스럽게 하기 위해 벤치마크 질문을 수정하는 방법을 시도합니다. 우리는 MedQA 벤치마크에서 제시된 환자 특성에 대한 강력한 가정을 대상으로 이 접근 방식을 시연합니다. 성공적인 "공격"은 의학 전문가를 속이기 어려운 방식으로 벤치마크 항목을 수정하지만, LLM이 정답에서 오답으로 바뀌도록 "속이는" 경우입니다. 더 나아가, 우리는 성공적인 공격이 통계적으로 유의미한지 확인할 수 있는 순열 검정 기법을 제시합니다. 우리는 "MedFuzzed" 벤치마크에서의 성능과 개별적인 성공적인 공격을 활용하는 방법을 보여줍니다. 이러한 방법들은 LLM이 더 현실적인 환경에서 견고하게 작동할 수 있는 능력에 대한 통찰력을 제공할 가능성이 있습니다.
우리는 비디오 시청만을 통해 고해상도, 의미론적으로 의미 있으며 오디오-비주얼로 정렬된 특징을 학습하는 새로운 듀얼 인코더 그라운딩 아키텍처인 DenseAV를 소개합니다. DenseAV가 명시적 위치 감독 없이도 단어의 "의미"와 소리의 "위치"를 발견할 수 있음을 보여줍니다. 더 나아가, 이는 감독 없이도 이러한 두 유형의 연관성을 자동으로 발견하고 구분합니다. DenseAV의 위치 파악 능력은 대조 학습을 위해 밀집된 이미지와 오디오 표현을 직접 비교하는 새로운 멀티헤드 특징 집계 연산자에서 비롯됨을 보여줍니다. 반면, "글로벌" 오디오 및 비디오 표현을 학습하는 많은 다른 시스템은 단어와 소리의 위치를 파악할 수 없습니다. 마지막으로, 우리는 음성 및 소리 프롬프트 의미론적 분할을 통해 AV 표현의 평가를 개선하기 위해 두 개의 새로운 데이터셋을 제공합니다. 이러한 데이터셋과 다른 데이터셋에서 DenseAV가 음성 및 소리 프롬프트 의미론적 분할에서 기존 기술을 크게 능가함을 보여줍니다. DenseAV는 매개변수의 절반 미만을 사용하여 크로스 모달 검색에서 이전 최첨단 기술인 ImageBind을 능가합니다. 프로젝트 페이지: https://aka.ms/denseav{https://aka.ms/denseav}
단일 이미지 재조명은 기하학, 재질, 조명 간의 복잡한 상호작용을 추론해야 하는 어려운 작업입니다. 기존의 많은 방법들은 초상화와 같은 특정 카테고리의 이미지만 지원하거나, 플래시 사용과 같은 특수한 촬영 조건을 요구합니다. 또는 일부 방법들은 장면을 법선(normals)과 BRDFs와 같은 내재적 요소로 명시적으로 분해하는데, 이는 부정확하거나 표현력이 부족할 수 있습니다. 본 연구에서는 'Neural Gaffer'라는 새로운 종단 간(end-to-end) 2D 재조명 확산 모델을 제안합니다. 이 모델은 어떤 물체의 단일 이미지를 입력받아, 명시적인 장면 분해 없이도 목표 환경 맵(environment map)을 조건으로 하여 어떤 새로운 환경 조명 조건에서도 정확하고 고품질의 재조명된 이미지를 합성할 수 있습니다. 우리의 방법은 사전 훈련된 확산 모델을 기반으로 하며, 합성 재조명 데이터셋에서 미세 조정(fine-tuning)을 통해 확산 모델 내에 내재된 조명 이해를 드러내고 활용합니다. 우리는 모델을 합성 데이터와 실제 인터넷 이미지에서 평가하며, 일반화와 정확성 측면에서의 장점을 입증합니다. 더 나아가, 다른 생성 방법과 결합함으로써 우리의 모델은 텍스트 기반 재조명 및 객체 삽입과 같은 다양한 하위 2D 작업을 가능하게 합니다. 또한, 우리의 모델은 방사 필드(radiance field) 재조명과 같은 3D 작업을 위한 강력한 재조명 사전 지식(prior)으로도 작동할 수 있습니다.
대규모 언어 모델(LLM)의 견고성, 특히 탈옥 공격(jailbreak attack)과 같은 적대적 조작에 대한 저항력은 여전히 중요한 과제로 남아 있습니다. 본 연구에서는 LLM의 자기 비판(self-critique) 능력을 강화하고, 정제된 합성 데이터를 통해 추가적으로 미세 조정(fine-tuning)하는 접근 방식을 제안합니다. 이를 위해 외부 비평가 모델(critic model)을 추가하여 원본 모델과 통합함으로써 자기 비판 능력을 강화하고, 적대적 프롬프트에 대한 LLM의 견고성을 개선합니다. 우리의 실험 결과는 통합(merging)과 자기 비판의 조합이 공격자의 성공률을 크게 감소시킬 수 있음을 보여주며, 이는 탈옥 공격에 대한 유망한 방어 메커니즘을 제공합니다. 코드, 데이터 및 모델은 https://github.com/vicgalle/merging-self-critique-jailbreaks 에 공개되었습니다.