다양성 사전 학습
Diverse Dictionary Learning
April 19, 2026
저자: Yujia Zheng, Zijian Li, Shunxing Fan, Andrew Gordon Wilson, Kun Zhang
cs.AI
초록
관측 데이터 X = g(Z)만 주어졌을 때, 잠재 변수 Z와 생성 과정 g이 모두 알려지지 않은 상황에서 Z를 복원하는 것은 추가적인 가정 없이는 잘 정의되지 않는 문제입니다. 기존 방법들은 선형성을 가정하거나 보조적인 감독 정보 및 함수적 제약에 의존하는 경우가 많습니다. 그러나 이러한 가정들은 실제로 검증하기 어렵고, 대부분의 이론적 보장은 약간의 위반만으로도 무너지기 때문에, 숨겨진 세계를 어떻게 신뢰할 수 있게 이해할지에 대한 불확실성이 남습니다. 실제 시나리오에서 식별 가능성을 실행 가능하게 만들기 위해 우리는 보완적 관점을 취합니다: 완전한 식별이 달성 불가능한 일반적인 설정에서, 어떤 것을 여전히 보장과 함께 복원할 수 있으며, 어떤 편향이 보편적으로 채택될 수 있을까? 우리는 이러한 관점을 형식화하기 위해 다양한 사전 학습 문제를 소개합니다. 구체적으로, 우리는 임의의 관측값과 연결된 잠재 변수들의 교집합, 여집합, 대칭차 및 잠재-관측 의존성 구조가 강한 가정 없이도 적절한 불확정성 범위 내에서 여전히 식별 가능함을 보입니다. 이러한 집합 이론적 결과들은 집합 대수를 사용하여 종차 정의와 같은 숨겨진 세계의 구조적이고 필수적인 관점을 구성하기 위해 결합될 수 있습니다. 충분한 구조적 다양성이 존재할 때, 이들은 더 나아가 모든 잠재 변수의 완전한 식별 가능성을 함의합니다. 주목할 점은, 모든 식별 가능성 이점이 추정 과정에서 대부분의 모델에 쉽게 통합될 수 있는 단순한 귀납적 편향에서 비롯된다는 것입니다. 우리는 이론을 검증하고 합성 및 실제 데이터에 대한 편향의 이점을 입증합니다.
English
Given only observational data X = g(Z), where both the latent variables Z and the generating process g are unknown, recovering Z is ill-posed without additional assumptions. Existing methods often assume linearity or rely on auxiliary supervision and functional constraints. However, such assumptions are rarely verifiable in practice, and most theoretical guarantees break down under even mild violations, leaving uncertainty about how to reliably understand the hidden world. To make identifiability actionable in the real-world scenarios, we take a complementary view: in the general settings where full identifiability is unattainable, what can still be recovered with guarantees, and what biases could be universally adopted? We introduce the problem of diverse dictionary learning to formalize this view. Specifically, we show that intersections, complements, and symmetric differences of latent variables linked to arbitrary observations, along with the latent-to-observed dependency structure, are still identifiable up to appropriate indeterminacies even without strong assumptions. These set-theoretic results can be composed using set algebra to construct structured and essential views of the hidden world, such as genus-differentia definitions. When sufficient structural diversity is present, they further imply full identifiability of all latent variables. Notably, all identifiability benefits follow from a simple inductive bias during estimation that can be readily integrated into most models. We validate the theory and demonstrate the benefits of the bias on both synthetic and real-world data.