Você não precisa de suposições fortes: Aprendizado de Representação Visual via Diferenças Temporais

Resumo

O progresso em IA tem sido amplamente impulsionado por métodos que assumem menos. À medida que o poder computacional e os dados aumentam, abordagens com vieses indutivos mais fracos geralmente superam aquelas com suposições mais fortes. Isso é particularmente característico da área de Aprendizagem de Representação Visual, onde as abordagens evoluíram de serem dominadas pela Aprendizagem Supervisionada para a Aprendizagem Fracamente Supervisionada, chegando ao agora difundido sucesso da Aprendizagem Autossupervisionada sem rótulos humanos. No entanto, mesmo as abordagens modernas de Aprendizagem Autossupervisionada ainda dependem de vieses indutivos fortes, como aumentos, mascaramento ou recorte. Se essa tendência se mantiver, até mesmo esses vieses residuais devem se tornar gargalos em escala — e nossos experimentos confirmam isso: a força ótima dos vieses indutivos diminui à medida que os dados crescem. Isso motiva a busca por abordagens que dependam de menos suposições. Com esse objetivo, apresentamos a Diferença Temporal em Visão (DTV), um novo paradigma para aprendizado autossupervisionado a partir de vídeo que evita os vieses indutivos existentes, baseando-se, em vez disso, em uma suposição causal de que o passado causa o futuro. A DTV funciona treinando conjuntamente um codificador de imagem e um codificador de movimento, de modo que a representação do quadro atual mais o movimento codificado seja igual à representação do próximo quadro. Apesar de não aproveitar vieses indutivos fortes, a DTV iguala as receitas de ponta em tarefas espaciais densas, lançando as bases para a aprendizagem de representações sem suposições fortes.

English

Progress in AI has largely been driven by methods that assume less. As compute and data increase, approaches with weaker inductive biases generally outperform those with stronger assumptions. This is particularly characteristic of the field of Visual Representation Learning, where approaches have gone from being dominated by Supervised Learning, to Weakly Supervised Learning, to the now widespread success of Self-Supervised Learning without human labels. Yet, even modern Self-Supervised Learning approaches still depend on strong inductive biases such as augmentations, masking, or cropping. If this trend holds, even these remaining biases should become bottlenecks at scale -- and our experiments confirm this: the optimal strength of inductive biases decreases as data grows. This motivates the search for approaches that rely on fewer assumptions. To this end, we introduce Temporal Difference in Vision (TDV), a new paradigm for self-supervised learning from video that avoids existing inductive biases, relying instead on a causal assumption that the past causes the future. TDV functions by jointly training an image encoder and a motion encoder so that the current frame's representation plus the encoded motion equals the next frame's representation. Despite not leveraging any strong inductive biases, TDV matches state-of-the-art recipes on dense spatial tasks, laying the foundation for representation learning without strong assumptions.