化学蛋白组学探针(ChemoproteomicProbes, CPPs)是一种强大的分子工具,已成功应用于医药开发的多个领域,包括鉴定药物的脱靶靶点、早期药物发现中的先导化合物筛选,以及优化已知先导化合物的功效和特异性。然而,CPPs的设计仍然面临着巨大的挑战,而基于大量探针数据进行综合分析将会提供重要的帮助。此外,收集CPPs的大数据对于促进基于人工智能的分子间相互作用模式学习以发现创新靶点和药物至关重要。
目前,已经有多种数据库提供化合物与蛋白质之间的相互作用信息,包括BindingDB、ChEMBL、CovPDB、GtoPdb、KLIFS、ChemicalProbesPortal和CovalentInDB。但是,目前仅有一款名为CysDB的数据库可用于描述CPPs数据,主要关注于提供与1,1621种人类蛋白的半胱氨酸位点共价结合的三种CPP探针。然而,除了半胱氨酸外,还有多种氨基酸可以被共价标记,包括赖氨酸、酪氨酸、天冬氨酸、谷氨酸、组氨酸、色氨酸和甲硫氨酸。此外,光亲和探针是另一类被广泛研究的探针类型。考虑到大多数FDA批准的药物是非共价药物,光亲和探针可以表征化合物-蛋白质的可逆相互作用,因此在近些年得到了广泛关注并取得了显著进展。因此,建立一个探针数据库,能系统地描述标记活细胞中人类蛋白的多种类型CPPs,具有重要的科学意义和应用价值。

图 1. Chem(Pro)² 数据库中三个关键组成部分(CPPs、竞争剂和探针标记靶点)之间的联系。左侧展示了两种与CPP相关的技术:基于活性的蛋白质分析(ABPP)和基于光亲和的蛋白质分析(PAL-AfBPP)。右侧展示了不同Chem(Pro)²页面(探针/竞争剂/靶点页面)中的主要内容。网址为:https://idrblab.org/chemprosquare/。
在此背景下,团队建立了Chem(Pro)2的数据库,该数据库系统地收集了CPPs在人类细胞中的化学蛋白组学数据。目前,数据库涵盖了603种CPPs(其中133种共价探针,470种光亲和探针)、1,016种CPPs的竞争剂以及人类基因组中的14,250个标记蛋白(包括4,649个酶、1,357个通道/转运蛋白和225个GPCR等)。所收集的数据涉及来自22个健康和疾病器官的118种活细胞类型(如HEK293T、HCT-116、PaTu-8988t、MDA-MB-231和HeLa)。特别重要的是,数据库包含了160种CPPs对13,938个人类蛋白的135,486个标记位点数据,以及524种CPPs与863种竞争剂之间的2,118,636条定量结合比例数据。
成果发表于国际学术期刊NAR(傅松森,陈桢,罗志明,聂美云,付婷婷,周莹,杨庆霞*,朱峰*,倪锋*. Chem(Pro)2: the atlas of chemoproteomic probes labelling human proteins. Nucleic Acids Research. 2024, 53 (D1), D1651-D1662. DOI: 10.1093/nar/gkae943)。本研究受国家自然科学基金资助。
附件:
