Apprentissage de dictionnaire diversifié

Résumé

Étant donné uniquement des données observationnelles X = g(Z), où les variables latentes Z et le processus générateur g sont tous deux inconnus, la récupération de Z est un problème mal posé sans hypothèses supplémentaires. Les méthodes existantes supposent souvent la linéarité ou s'appuient sur une supervision auxiliaire et des contraintes fonctionnelles. Cependant, de telles hypothèses sont rarement vérifiables en pratique, et la plupart des garanties théoriques s'effondrent même en cas de violations mineures, laissant une incertitude quant à la manière de comprendre de façon fiable le monde caché. Pour rendre l'identifiabilité réalisable dans des scénarios réels, nous adoptons un point de vue complémentaire : dans les contextes généraux où l'identifiabilité complète est inatteignable, que peut-on encore récupérer avec des garanties, et quels biais pourraient être universellement adoptés ? Nous introduisons le problème de l'apprentissage de dictionnaire diversifié pour formaliser cette perspective. Plus précisément, nous montrons que les intersections, compléments et différences symétriques des variables latentes liées à des observations arbitraires, ainsi que la structure de dépendance latent-observé, restent identifiables à des indéterminations près, même sans hypothèses fortes. Ces résultats ensemblistes peuvent être composés en utilisant l'algèbre des ensembles pour construire des vues structurées et essentielles du monde caché, telles que les définitions par genre et différence. Lorsqu'une diversité structurelle suffisante est présente, ils impliquent en outre l'identifiabilité complète de toutes les variables latentes. Il est à noter que tous les bénéfices en termes d'identifiabilité découlent d'un simple biais inductif lors de l'estimation, qui peut être facilement intégré dans la plupart des modèles. Nous validons la théorie et démontrons les avantages de ce biais sur des données synthétiques et réelles.

English

Given only observational data X = g(Z), where both the latent variables Z and the generating process g are unknown, recovering Z is ill-posed without additional assumptions. Existing methods often assume linearity or rely on auxiliary supervision and functional constraints. However, such assumptions are rarely verifiable in practice, and most theoretical guarantees break down under even mild violations, leaving uncertainty about how to reliably understand the hidden world. To make identifiability actionable in the real-world scenarios, we take a complementary view: in the general settings where full identifiability is unattainable, what can still be recovered with guarantees, and what biases could be universally adopted? We introduce the problem of diverse dictionary learning to formalize this view. Specifically, we show that intersections, complements, and symmetric differences of latent variables linked to arbitrary observations, along with the latent-to-observed dependency structure, are still identifiable up to appropriate indeterminacies even without strong assumptions. These set-theoretic results can be composed using set algebra to construct structured and essential views of the hidden world, such as genus-differentia definitions. When sufficient structural diversity is present, they further imply full identifiability of all latent variables. Notably, all identifiability benefits follow from a simple inductive bias during estimation that can be readily integrated into most models. We validate the theory and demonstrate the benefits of the bias on both synthetic and real-world data.

Apprentissage de dictionnaire diversifié

Diverse Dictionary Learning

Résumé

Support