번역이 포함된 일일 선별된 AI 연구 논문
최근 대형 언어 모델(LLMs)이 놀라운 성과를 거두고 있지만, 특정 jailbreaking 공격에 취약하여 부적절하거나 유해한 콘텐츠를 생성할 수 있다. 수동적인 red-teaming은 이러한 jailbreaking을 유발하는 적대적 프롬프트를 찾는 것을 요구하는데, 예를 들어 주어진 지시에 접미사를 추가하는 방식으로 이루어지며, 이는 비효율적이고 시간이 많이 소요된다. 반면, 자동적인 적대적 프롬프트 생성은 종종 의미론적으로 무의미한 공격을 초래하며, 이는 perplexity 기반 필터에 의해 쉽게 탐지될 수 있고, TargetLLM의 그래디언트 정보를 필요로 하거나, 토큰 공간에서의 시간 소모적인 이산 최적화 과정으로 인해 확장성이 떨어진다. 본 논문에서는 AdvPrompter라는 또 다른 LLM을 사용하여 인간이 읽을 수 있는 적대적 프롬프트를 초 단위로 생성하는 새로운 방법을 제시하며, 이는 기존의 최적화 기반 접근법보다 약 800배 빠르다. 우리는 TargetLLM의 그래디언트에 접근할 필요가 없는 새로운 알고리즘을 사용하여 AdvPrompter를 학습시킨다. 이 과정은 두 단계를 번갈아가며 수행한다: (1) AdvPrompter 예측을 최적화하여 고품질의 목표 적대적 접미사를 생성하고, (2) 생성된 적대적 접미사를 사용하여 AdvPrompter를 저랭크 미세 조정한다. 학습된 AdvPrompter는 입력 지시의 의미를 변경하지 않으면서도 이를 은폐하는 접미사를 생성하여, TargetLLM이 유해한 응답을 하도록 유도한다. 인기 있는 오픈 소스 TargetLLMs에 대한 실험 결과는 AdvBench 데이터셋에서 최첨단 결과를 보여주며, 이는 폐쇄형 블랙박스 LLM API로도 전이된다. 또한, AdvPrompter에 의해 생성된 합성 데이터셋을 미세 조정함으로써 LLMs가 jailbreaking 공격에 대해 더 강력해지면서도 성능(즉, 높은 MMLU 점수)을 유지할 수 있음을 보여준다.
본 논문은 텍스트 설명으로부터 3D 메쉬를 위한 재질을 생성하는 것을 목표로 합니다. 기존의 텍스처 맵을 합성하는 방법과 달리, 우리는 고품질 렌더링을 지원하고 편집에 있어 상당한 유연성을 제공하는 세그먼트 단위의 절차적 재질 그래프를 외관 표현으로 생성하는 방법을 제안합니다. 재질 그래프 생성 모델을 학습시키기 위해 재질 그래프와 텍스트 설명이 함께 제공된 3D 메쉬와 같은 대규모의 짝지어진 데이터에 의존하는 대신, 우리는 텍스트와 재질 그래프를 연결하는 다리 역할로 사전 학습된 2D 확산 모델을 활용할 것을 제안합니다. 구체적으로, 우리의 접근 방식은 형태를 세그먼트 집합으로 분해하고, 메쉬 부위와 정렬된 2D 이미지를 합성하기 위해 세그먼트 제어 확산 모델을 설계합니다. 생성된 이미지를 기반으로, 우리는 재질 그래프의 매개변수를 초기화하고 미분 가능 렌더링 모듈을 통해 이를 미세 조정하여 텍스트 설명에 부합하는 재질을 생성합니다. 광범위한 실험을 통해 우리의 프레임워크가 기존 방법들보다 사실감, 해상도, 편집성 면에서 우수한 성능을 보임을 입증합니다. 프로젝트 페이지: https://zhanghe3z.github.io/MaPa/