ChatPaper.aiChatPaper

안티디스틸레이션 샘플링

Antidistillation Sampling

April 17, 2025
저자: Yash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
cs.AI

초록

확장된 추론 흔적을 생성하는 프론티어 모델들은 의도치 않게 모델 증류를 용이하게 하는 풍부한 토큰 시퀀스를 생성합니다. 이러한 취약성을 인식한 모델 소유자들은 모델 성능을 저해하지 않으면서 증류의 효과를 제한하는 샘플링 전략을 모색할 수 있습니다. 안티-증류 샘플링은 바로 이러한 기능을 제공합니다. 모델의 다음 토큰 확률 분포를 전략적으로 수정함으로써, 안티-증류 샘플링은 추론 흔적을 오염시켜 증류에 훨씬 덜 효과적으로 만들면서도 모델의 실용적 유용성을 보존합니다. 자세한 내용은 https://antidistillation.com을 참조하십시오.
English
Frontier models that generate extended reasoning traces inadvertently produce rich token sequences that can facilitate model distillation. Recognizing this vulnerability, model owners may seek sampling strategies that limit the effectiveness of distillation without compromising model performance. Antidistillation sampling provides exactly this capability. By strategically modifying a model's next-token probability distribution, antidistillation sampling poisons reasoning traces, rendering them significantly less effective for distillation while preserving the model's practical utility. For further details, see https://antidistillation.com.

Summary

AI-Generated Summary

PDF594April 18, 2025