Diverse Woordenboekleren

Samenvatting

Gegeven alleen observationele gegevens X = g(Z), waarbij zowel de latente variabelen Z als het genererende proces g onbekend zijn, is het herstellen van Z ill-posed zonder aanvullende aannames. Bestaande methoden veronderstellen vaak lineariteit of steunen op aanvullende supervisie en functionele beperkingen. Dergelijke aannames zijn in de praktijk echter zelden verifieerbaar, en de meeste theoretische garanties vervallen zelfs bij kleine overtredingen, wat onzekerheid creëert over hoe de verborgen wereld betrouwbaar kan worden begrepen. Om identificeerbaarheid bruikbaar te maken in realistische scenario's, nemen we een complementair perspectief in: in de algemene settings waar volledige identificeerbaarheid onhaalbaar is, wat kan er dan nog steeds met garanties worden hersteld, en welke vooroordelen zouden universeel kunnen worden aangenomen? Wij introduceren het probleem van divers dictionary learning om dit perspectief te formaliseren. Concreet tonen we aan dat doorsneden, complementen en symmetrische verschillen van latente variabelen gekoppeld aan willekeurige observaties, samen met de latent-naar-geobserveerde afhankelijkheidsstructuur, nog steeds identificeerbaar zijn tot op geschikte onbepaaldheden, zelfs zonder sterke aannames. Deze verzamelingstheoretische resultaten kunnen worden samengesteld met behulp van verzamelingsalgebra om gestructureerde en essentiële perspectieven op de verborgen wereld te construeren, zoals genus-differentia definities. Wanneer voldoende structurele diversiteit aanwezig is, impliceren ze verder de volledige identificeerbaarheid van alle latente variabelen. Opmerkelijk is dat alle identificeerbaarheidsvoordelen volgen uit een eenvoudige inductieve vooringenomenheid tijdens de schatting, die eenvoudig kan worden geïntegreerd in de meeste modellen. We valideren de theorie en demonstreren de voordelen van de vooringenomenheid op zowel synthetische als real-world gegevens.

English

Given only observational data X = g(Z), where both the latent variables Z and the generating process g are unknown, recovering Z is ill-posed without additional assumptions. Existing methods often assume linearity or rely on auxiliary supervision and functional constraints. However, such assumptions are rarely verifiable in practice, and most theoretical guarantees break down under even mild violations, leaving uncertainty about how to reliably understand the hidden world. To make identifiability actionable in the real-world scenarios, we take a complementary view: in the general settings where full identifiability is unattainable, what can still be recovered with guarantees, and what biases could be universally adopted? We introduce the problem of diverse dictionary learning to formalize this view. Specifically, we show that intersections, complements, and symmetric differences of latent variables linked to arbitrary observations, along with the latent-to-observed dependency structure, are still identifiable up to appropriate indeterminacies even without strong assumptions. These set-theoretic results can be composed using set algebra to construct structured and essential views of the hidden world, such as genus-differentia definitions. When sufficient structural diversity is present, they further imply full identifiability of all latent variables. Notably, all identifiability benefits follow from a simple inductive bias during estimation that can be readily integrated into most models. We validate the theory and demonstrate the benefits of the bias on both synthetic and real-world data.

Diverse Woordenboekleren

Diverse Dictionary Learning

Samenvatting

Support