ProteinBench: Eine umfassende Bewertung von Protein-Grundlagenmodellen

papers.abstract

In den letzten Jahren hat es einen Anstieg in der Entwicklung von Protein-Grundlagenmodellen gegeben, der die Leistung bei der Protein-Vorhersage und generativen Aufgaben von der 3D-Strukturvorhersage und Protein-Design bis zur konformationellen Dynamik signifikant verbessert hat. Die Fähigkeiten und Einschränkungen, die mit diesen Modellen verbunden sind, bleiben jedoch aufgrund des Fehlens eines einheitlichen Bewertungsrahmens schlecht verstanden. Um diese Lücke zu schließen, führen wir ProteinBench ein, einen ganzheitlichen Bewertungsrahmen, der darauf abzielt, die Transparenz von Protein-Grundlagenmodellen zu verbessern. Unser Ansatz besteht aus drei Schlüsselelementen: (i) Eine taxonomische Klassifizierung von Aufgaben, die die Hauptprobleme im Proteinbereich umfassen, basierend auf den Beziehungen zwischen verschiedenen Proteinmodalitäten; (ii) Ein multimetrischer Bewertungsansatz, der die Leistung in vier Schlüsseldimensionen bewertet: Qualität, Neuheit, Vielfalt und Robustheit; und (iii) eingehende Analysen aus verschiedenen Benutzerzielen, die einen ganzheitlichen Blick auf die Leistungen des Modells bieten. Unsere umfassende Bewertung von Protein-Grundlagenmodellen enthüllt mehrere wichtige Erkenntnisse, die Einblick in ihre aktuellen Fähigkeiten und Einschränkungen geben. Um die Transparenz zu fördern und weitere Forschung zu erleichtern, veröffentlichen wir den Bewertungsdatensatz, den Code und ein öffentliches Leaderboard öffentlich zur weiteren Analyse sowie ein allgemeines modulares Toolkit. Wir beabsichtigen, dass ProteinBench zu einem lebendigen Benchmark wird, um einen standardisierten, eingehenden Bewertungsrahmen für Protein-Grundlagenmodelle zu etablieren, ihre Entwicklung und Anwendung voranzutreiben und die Zusammenarbeit innerhalb des Fachgebiets zu fördern.

English

Recent years have witnessed a surge in the development of protein foundation models, significantly improving performance in protein prediction and generative tasks ranging from 3D structure prediction and protein design to conformational dynamics. However, the capabilities and limitations associated with these models remain poorly understood due to the absence of a unified evaluation framework. To fill this gap, we introduce ProteinBench, a holistic evaluation framework designed to enhance the transparency of protein foundation models. Our approach consists of three key components: (i) A taxonomic classification of tasks that broadly encompass the main challenges in the protein domain, based on the relationships between different protein modalities; (ii) A multi-metric evaluation approach that assesses performance across four key dimensions: quality, novelty, diversity, and robustness; and (iii) In-depth analyses from various user objectives, providing a holistic view of model performance. Our comprehensive evaluation of protein foundation models reveals several key findings that shed light on their current capabilities and limitations. To promote transparency and facilitate further research, we release the evaluation dataset, code, and a public leaderboard publicly for further analysis and a general modular toolkit. We intend for ProteinBench to be a living benchmark for establishing a standardized, in-depth evaluation framework for protein foundation models, driving their development and application while fostering collaboration within the field.

ProteinBench: Eine umfassende Bewertung von Protein-Grundlagenmodellen

ProteinBench: A Holistic Evaluation of Protein Foundation Models

papers.abstract

Support