TokBench: 시각적 생성 전 시각적 토크나이저 평가하기
TokBench: Evaluating Your Visual Tokenizer before Visual Generation
May 23, 2025
저자: Junfeng Wu, Dongliang Luo, Weizhi Zhao, Zhihao Xie, Yuanhao Wang, Junyi Li, Xudong Xie, Yuliang Liu, Xiang Bai
cs.AI
초록
본 연구에서는 시각적 토크나이저와 VAE가 세밀한 특징을 보존하는 데 있어 한계를 밝히고, 두 가지 도전적인 시각적 콘텐츠인 텍스트와 얼굴에 대한 재구성 성능을 평가하기 위한 벤치마크를 제안합니다. 시각적 토크나이저와 VAE는 더 효율적인 압축 또는 양자화된 이미지 표현을 제공함으로써 시각적 생성 및 다중모달 모델링을 크게 발전시켰습니다. 그러나 생산 모델이 계산 부담을 줄이는 데 도움을 주는 반면, 이미지 압축으로 인한 정보 손실은 시각적 생성 품질의 상한선을 근본적으로 제한합니다. 이 상한선을 평가하기 위해 우리는 재구성된 텍스트와 얼굴 특징을 평가하는 데 초점을 맞춥니다. 이는 일반적으로 1) 더 작은 규모로 존재하며, 2) 밀도가 높고 풍부한 질감을 포함하며, 3) 붕괴되기 쉽고, 4) 인간 시각에 매우 민감하기 때문입니다. 먼저, 기존 데이터셋에서 다양한 명확한 텍스트와 얼굴 이미지를 수집하고 정제합니다. VLM 모델을 사용하는 접근법과 달리, 우리는 평가를 위해 기존의 OCR 및 얼굴 인식 모델을 사용하여 정확성을 보장하면서도 단 2GB의 메모리와 4분만 소요되는 매우 가벼운 평가 프로세스를 유지합니다. 우리의 벤치마크를 사용하여 다양한 규모에서의 텍스트와 얼굴 재구성 품질을 다양한 이미지 토크나이저와 VAE에 대해 분석합니다. 그 결과, 현대의 시각적 토크나이저가 특히 작은 규모에서 세밀한 특징을 보존하는 데 여전히 어려움을 겪고 있음을 보여줍니다. 또한, 이 평가 프레임워크를 비디오로 확장하여 비디오 토크나이저에 대한 포괄적인 분석을 수행합니다. 추가적으로, 기존의 메트릭이 얼굴과 텍스트에 대한 재구성 성능을 정확히 반영하지 못하는 반면, 우리가 제안한 메트릭이 효과적인 보완 역할을 한다는 것을 입증합니다.
English
In this work, we reveal the limitations of visual tokenizers and VAEs in
preserving fine-grained features, and propose a benchmark to evaluate
reconstruction performance for two challenging visual contents: text and face.
Visual tokenizers and VAEs have significantly advanced visual generation and
multimodal modeling by providing more efficient compressed or quantized image
representations. However, while helping production models reduce computational
burdens, the information loss from image compression fundamentally limits the
upper bound of visual generation quality. To evaluate this upper bound, we
focus on assessing reconstructed text and facial features since they typically:
1) exist at smaller scales, 2) contain dense and rich textures, 3) are prone to
collapse, and 4) are highly sensitive to human vision. We first collect and
curate a diverse set of clear text and face images from existing datasets.
Unlike approaches using VLM models, we employ established OCR and face
recognition models for evaluation, ensuring accuracy while maintaining an
exceptionally lightweight assessment process <span style="font-weight: bold;
color: rgb(214, 21, 21);">requiring just 2GB memory and 4 minutes</span> to
complete. Using our benchmark, we analyze text and face reconstruction quality
across various scales for different image tokenizers and VAEs. Our results show
modern visual tokenizers still struggle to preserve fine-grained features,
especially at smaller scales. We further extend this evaluation framework to
video, conducting comprehensive analysis of video tokenizers. Additionally, we
demonstrate that traditional metrics fail to accurately reflect reconstruction
performance for faces and text, while our proposed metrics serve as an
effective complement.