Vous n'avez pas besoin d'hypothèses fortes : Apprentissage de représentations visuelles via les différences temporelles

Résumé

Les progrès en intelligence artificielle ont été largement portés par des méthodes qui reposent sur moins d'hypothèses. À mesure que la puissance de calcul et les données augmentent, les approches dotées de biais inductifs plus faibles surpassent généralement celles qui font des hypothèses plus fortes. Cette tendance est particulièrement caractéristique du domaine de l'apprentissage de représentations visuelles, où les approches sont passées d'une domination de l'apprentissage supervisé à celle de l'apprentissage faiblement supervisé, pour aboutir au succès désormais généralisé de l'apprentissage auto-supervisé sans étiquettes humaines. Pourtant, même les méthodes modernes d'apprentissage auto-supervisé dépendent encore de biais inductifs forts tels que les augmentations, le masquage ou le recadrage. Si cette tendance se maintient, ces biais résiduels devraient eux-mêmes devenir des goulots d'étranglement à grande échelle — et nos expériences le confirment : la force optimale des biais inductifs diminue à mesure que les données augmentent. Cela motive la recherche d'approches reposant sur moins d'hypothèses. À cette fin, nous introduisons la Différence Temporelle en Vision (TDV), un nouveau paradigme pour l'apprentissage auto-supervisé à partir de vidéos qui évite les biais inductifs existants, en s'appuyant plutôt sur une hypothèse causale selon laquelle le passé cause le futur. TDV fonctionne en entraînant conjointement un encodeur d'images et un encodeur de mouvement, de sorte que la représentation de l'image courante additionnée au mouvement encodé soit égale à la représentation de l'image suivante. Bien qu'elle n'exploite aucun biais inductif fort, TDV atteint des performances comparables aux méthodes de pointe sur des tâches spatiales denses, jetant ainsi les bases d'un apprentissage de représentations sans hypothèses fortes.

English

Progress in AI has largely been driven by methods that assume less. As compute and data increase, approaches with weaker inductive biases generally outperform those with stronger assumptions. This is particularly characteristic of the field of Visual Representation Learning, where approaches have gone from being dominated by Supervised Learning, to Weakly Supervised Learning, to the now widespread success of Self-Supervised Learning without human labels. Yet, even modern Self-Supervised Learning approaches still depend on strong inductive biases such as augmentations, masking, or cropping. If this trend holds, even these remaining biases should become bottlenecks at scale -- and our experiments confirm this: the optimal strength of inductive biases decreases as data grows. This motivates the search for approaches that rely on fewer assumptions. To this end, we introduce Temporal Difference in Vision (TDV), a new paradigm for self-supervised learning from video that avoids existing inductive biases, relying instead on a causal assumption that the past causes the future. TDV functions by jointly training an image encoder and a motion encoder so that the current frame's representation plus the encoded motion equals the next frame's representation. Despite not leveraging any strong inductive biases, TDV matches state-of-the-art recipes on dense spatial tasks, laying the foundation for representation learning without strong assumptions.