Aprendizaje de Diccionarios Diversos

Resumen

Dado únicamente datos observacionales X = g(Z), donde tanto las variables latentes Z como el proceso generador g son desconocidos, recuperar Z es un problema mal planteado sin supuestos adicionales. Los métodos existentes a menudo asumen linealidad o dependen de supervisión auxiliar y restricciones funcionales. Sin embargo, tales supuestos rara vez son verificables en la práctica, y la mayoría de las garantías teóricas se desmoronan incluso ante violaciones leves, generando incertidumbre sobre cómo entender de manera confiable el mundo oculto. Para hacer que la identificabilidad sea accionable en escenarios del mundo real, adoptamos una perspectiva complementaria: en entornos generales donde la identificabilidad completa es inalcanzable, ¿qué se puede recuperar con garantías y qué sesgos podrían adoptarse universalmente? Introducimos el problema del aprendizaje de diccionarios diversos para formalizar esta perspectiva. Específicamente, demostramos que las intersecciones, complementos y diferencias simétricas de las variables latentes vinculadas a observaciones arbitrarias, junto con la estructura de dependencia latente-observada, siguen siendo identificables hasta indeterminaciones apropiadas, incluso sin supuestos fuertes. Estos resultados teóricos de conjuntos pueden componerse usando álgebra de conjuntos para construir visiones estructuradas y esenciales del mundo oculto, como las definiciones de género y diferencia. Cuando está presente una diversidad estructural suficiente, implican además la identificabilidad completa de todas las variables latentes. Notablemente, todos los beneficios de identificabilidad se derivan de un simple sesgo inductivo durante la estimación que puede integrarse fácilmente en la mayoría de los modelos. Validamos la teoría y demostramos los beneficios del sesgo tanto en datos sintéticos como del mundo real.

English

Given only observational data X = g(Z), where both the latent variables Z and the generating process g are unknown, recovering Z is ill-posed without additional assumptions. Existing methods often assume linearity or rely on auxiliary supervision and functional constraints. However, such assumptions are rarely verifiable in practice, and most theoretical guarantees break down under even mild violations, leaving uncertainty about how to reliably understand the hidden world. To make identifiability actionable in the real-world scenarios, we take a complementary view: in the general settings where full identifiability is unattainable, what can still be recovered with guarantees, and what biases could be universally adopted? We introduce the problem of diverse dictionary learning to formalize this view. Specifically, we show that intersections, complements, and symmetric differences of latent variables linked to arbitrary observations, along with the latent-to-observed dependency structure, are still identifiable up to appropriate indeterminacies even without strong assumptions. These set-theoretic results can be composed using set algebra to construct structured and essential views of the hidden world, such as genus-differentia definitions. When sufficient structural diversity is present, they further imply full identifiability of all latent variables. Notably, all identifiability benefits follow from a simple inductive bias during estimation that can be readily integrated into most models. We validate the theory and demonstrate the benefits of the bias on both synthetic and real-world data.

Aprendizaje de Diccionarios Diversos

Diverse Dictionary Learning

Resumen

Support