ChatPaper.aiChatPaper

SimpleFold : Le repliement des protéines est plus simple que vous ne le pensez

SimpleFold: Folding Proteins is Simpler than You Think

September 23, 2025
papers.authors: Yuyang Wang, Jiarui Lu, Navdeep Jaitly, Josh Susskind, Miguel Angel Bautista
cs.AI

papers.abstract

Les modèles de repliement des protéines ont obtenu des résultats révolutionnaires, généralement grâce à une combinaison d'intégration de connaissances du domaine dans les blocs architecturaux et les pipelines d'entraînement. Néanmoins, compte tenu du succès des modèles génératifs sur des problèmes différents mais connexes, il est naturel de se demander si ces conceptions architecturales sont une condition nécessaire pour construire des modèles performants. Dans cet article, nous présentons SimpleFold, le premier modèle de repliement des protéines basé sur le flow-matching qui utilise uniquement des blocs transformeurs à usage général. Les modèles de repliement des protéines emploient généralement des modules coûteux en calcul impliquant des mises à jour triangulaires, des représentations explicites de paires ou plusieurs objectifs d'entraînement spécifiquement conçus pour ce domaine. En revanche, SimpleFold utilise des blocs transformeurs standard avec des couches adaptatives et est entraîné via un objectif de flow-matching génératif avec un terme structurel supplémentaire. Nous avons mis à l'échelle SimpleFold à 3 milliards de paramètres et l'avons entraîné sur environ 9 millions de structures protéiques distillées ainsi que sur des données expérimentales PDB. Sur les benchmarks standards de repliement, SimpleFold-3B atteint des performances compétitives par rapport aux modèles de référence les plus récents. De plus, SimpleFold démontre de solides performances en prédiction d'ensemble, ce qui est généralement difficile pour les modèles entraînés via des objectifs de reconstruction déterministes. Grâce à son architecture à usage général, SimpleFold montre une efficacité en déploiement et en inférence sur du matériel grand public. SimpleFold remet en question la dépendance aux conceptions architecturales complexes spécifiques au domaine dans le repliement des protéines, ouvrant ainsi un espace de conception alternatif pour les progrès futurs.
English
Protein folding models have achieved groundbreaking results typically via a combination of integrating domain knowledge into the architectural blocks and training pipelines. Nonetheless, given the success of generative models across different but related problems, it is natural to question whether these architectural designs are a necessary condition to build performant models. In this paper, we introduce SimpleFold, the first flow-matching based protein folding model that solely uses general purpose transformer blocks. Protein folding models typically employ computationally expensive modules involving triangular updates, explicit pair representations or multiple training objectives curated for this specific domain. Instead, SimpleFold employs standard transformer blocks with adaptive layers and is trained via a generative flow-matching objective with an additional structural term. We scale SimpleFold to 3B parameters and train it on approximately 9M distilled protein structures together with experimental PDB data. On standard folding benchmarks, SimpleFold-3B achieves competitive performance compared to state-of-the-art baselines, in addition SimpleFold demonstrates strong performance in ensemble prediction which is typically difficult for models trained via deterministic reconstruction objectives. Due to its general-purpose architecture, SimpleFold shows efficiency in deployment and inference on consumer-level hardware. SimpleFold challenges the reliance on complex domain-specific architectures designs in protein folding, opening up an alternative design space for future progress.
PDF75September 25, 2025