Vielfältiges Wörterbuchlernen

Zusammenfassung

Bei ausschließlicher Verwendung von Beobachtungsdaten X = g(Z), wobei sowohl die latenten Variablen Z als auch der Erzeugungsprozess g unbekannt sind, ist die Wiederherstellung von Z ohne zusätzliche Annahmen ein schlecht gestelltes Problem. Bestehende Methoden setzen häufig Linearität voraus oder stützen sich auf zusätzliche Supervision und funktionale Einschränkungen. Solche Annahmen sind in der Praxis jedoch selten überprüfbar, und die meisten theoretischen Garantien versagen bereits bei geringfügigen Verletzungen, was Unsicherheit darüber hinterlässt, wie die verborgene Welt zuverlässig verstanden werden kann. Um Identifizierbarkeit in realen Szenarien handhabbar zu machen, nehmen wir eine komplementäre Perspektive ein: In allgemeinen Settings, in denen vollständige Identifizierbarkeit unerreichbar ist, was kann mit Garantien dennoch wiederhergestellt werden, und welche Verzerrungen könnten universell übernommen werden? Wir führen das Problem des diversen Dictionary-Learnings ein, um diese Sichtweise zu formalisieren. Konkret zeigen wir, dass Schnittmengen, Komplemente und symmetrische Differenzen latenter Variablen, die mit beliebigen Beobachtungen verknüpft sind, zusammen mit der latent-beobachteten Abhängigkeitsstruktur auch ohne starke Annahmen bis hin zu angemessenen Unbestimmtheiten identifizierbar bleiben. Diese mengen-theoretischen Ergebnisse können mittels Mengenalgebra kombiniert werden, um strukturierte und essentielle Ansichten der verborgenen Welt zu konstruieren, wie beispielsweise Genus-Differentia-Definitionen. Bei ausreichender struktureller Diversität implizieren sie weiterhin die vollständige Identifizierbarkeit aller latenten Variablen. Bemerkenswerterweise ergeben sich alle Identifizierbarkeitsvorteile aus einer einfachen induktiven Verzerrung während der Schätzung, die problemlos in die meisten Modelle integriert werden kann. Wir validieren die Theorie und demonstrieren die Vorteile der Verzerrung anhand synthetischer und realer Daten.

English

Given only observational data X = g(Z), where both the latent variables Z and the generating process g are unknown, recovering Z is ill-posed without additional assumptions. Existing methods often assume linearity or rely on auxiliary supervision and functional constraints. However, such assumptions are rarely verifiable in practice, and most theoretical guarantees break down under even mild violations, leaving uncertainty about how to reliably understand the hidden world. To make identifiability actionable in the real-world scenarios, we take a complementary view: in the general settings where full identifiability is unattainable, what can still be recovered with guarantees, and what biases could be universally adopted? We introduce the problem of diverse dictionary learning to formalize this view. Specifically, we show that intersections, complements, and symmetric differences of latent variables linked to arbitrary observations, along with the latent-to-observed dependency structure, are still identifiable up to appropriate indeterminacies even without strong assumptions. These set-theoretic results can be composed using set algebra to construct structured and essential views of the hidden world, such as genus-differentia definitions. When sufficient structural diversity is present, they further imply full identifiability of all latent variables. Notably, all identifiability benefits follow from a simple inductive bias during estimation that can be readily integrated into most models. We validate the theory and demonstrate the benefits of the bias on both synthetic and real-world data.

Vielfältiges Wörterbuchlernen

Diverse Dictionary Learning

Zusammenfassung

Support