>1100万条序列!来自最全纳米抗体数据库的网站可以离线下载
纳米抗体的小尺寸具有多种治疗优势(稳定性和肿瘤渗透性)。这些小爱在上面已经介绍了很多次。2018年,纳米抗体首次获得治疗批准,巩固了这种形式的临床可行性。纳米抗体的结构化数据和序列信息将加速基于纳米抗体的治疗的临床发展。尽管纳米抗体序列和结构数据正在加速披露,但来源的异质性和缺乏标准化阻碍了纳米抗体信息的可靠收集。
最近,来自美国和波兰的开发人员创建了一个纳米抗体集成数据库,以有效地整合目前已公开的纳米抗体数据库INDI,INDI基于专利、GenBank、NGS通过四个主要序列渠道收集纳米抗体序列信息:库和结构科学出版物,并配备强大的特定序列和文本搜索纳米抗体。您可以访问超过 1100 万纳米抗体序列,这有助于实现基于纳米抗体形式的药物治疗前景。
设计抗体的计算方法已经足够成熟,可以在单克隆抗体治疗管道中提供价值。相比之下,尽管纳米抗体是在短短30年前发现的,但它们在整理数据和开发这些分子的计算协议方面的关注度较低。纳米抗体计算设计方法的发展取决于对纳米抗体的顺序多样性、结构图像、抗原组合偏好、组合模式的修改以及结合深度学习算法的深入分析和处理。据报道,单域抗体数据库iCAN 和 sdAB-DB 是第一个尝试收集纳米抗体相关数据的网站,专注于手动识别抗体。因此,他们持有的公开纳米抗体数据相对较少,sd-AB 报告1452.iCAN2391。数据收集框架需要跟上公共领域生物序列数据量的增加。为了解决这个问题,来自波兰和美国的科学家创造了免疫信息学INDI 集成纳米抗体数据库是一种新型的纳米抗体数据库,主要从公共领域的所有主要数据存储库中自动分类纳米抗体信息。这些生物序列信息存储库主要有五个来源:NCBI,GenBank,专利,NGS图书馆和结构科学出版物。由于来源的异质性,研究人员将纳米抗体的可变序列作为数据集之间的共同特征。尽管在许多情况下,特别是在科学出版物中,只发表了 CDR-H3但是,但是序列INDI 排除此类数据。这种选择被认为是合理的,因为纳米抗体工程需要建模整个可变区域的背景,例如抗体人源化建模。INDI纳米抗体序列具有所有三个互补决定区(CDR),而且只包含 20 标准氨基酸。序列与源数据集中的特定元数据相关联。截至2021INDI一万个纳米抗体序列包含在1100以上。
INDI数据来源
INDI为了促进和促进,开发人员绘制了最常见的检索任务INDI 在线和离线交互。用户可以根据特定的纳米抗体序列进行搜索和元数据检索。为了便于离线免疫信息学分析,开发人员还提供大量数据下载。
基于序列的搜索
INDI提供了一个特定的序列搜索功能的两个纳米抗体,以促进和INDI数据交互-可变区域搜索和CDRH3搜索。这种划分反映了纳米抗体序列识别的两个常见用例。前者解决了整个可变区域的检索问题,后者针对的是纳米抗体中最可变的区域,产生了大多数抗原接触,即CDRH3具体搜索。
可变区域搜索用于检索与查询最匹配的整个纳米抗体序列。开发人员使用 来反映搜索的纳米抗体的特异性IMGT 方案比较了纳米抗体序列,为抗体/纳米抗体的比较提供了免疫球蛋白特异性框架。查询序列为IMGT编号,然后根据IMGT 位置与 INDI 预先编号的纳米抗体序列对齐。结果按整个可变区域的最高序列身份进行排序,并显示在交互式可排序表中,每次点击时可获得更详细的结果。
CDR3检索示例
考虑到三条重链CDR 中,CDRH3开发团队位于抗体抗原结合部位的中心INDI配备检索 CDRH3不考虑其他可变区域的搜索工具。CDRH3 输入入搜索IMGT 定义的 CDRH3 序列,然后使用分子生物信息算法工具Biopython比较结果。这使得类似cdr3s长度检索可以独立匹配序列。CDRH3结果显示在交互式可排序表中,允许用户浏览结果并跟踪可变序列及其相关元数据的链接。
INDI 中的纳米抗体序列与丰富的文本注释相关联,揭示了生物目标和分子研究的起源和目的。元数据字段在源之间及其内部是异构的。例如,与结构相关的元数据将包含特定的晶体参数,而不存在于其他数据库中。GenBank在 中,关于纳米抗体靶点的信息可以包含在特定的accession在编号或个人翻译的描述中,这是因为没有标准的方法来报告此类信息。早期捕获抗体/纳米抗体靶点信息的努力取决于大规模手动管理。INDI 包含三个自动组件,对所有项目进行常规手动注释是非常具有挑战性的。文本的多样性给文档检索带来了挑战。
为了解决跨五个不同来源的信息检索问题,研究人员实现了在所有数据库中的所有元数据字段上创建文本索引。用户只需输入感兴趣的关键字,INDI 将检索与结果最匹配的项目显示为交互式表,其中列出了项目、源数据库和文本字段。用户可以对结果进行排序,并显示匹配文本条目的详细信息。后者与纳米抗体序列相连accession一起显示。
为了补充基于网络的检索,INDI开发人员还提供离线使用的数据。序列提取物包括开发人员识别的纳米抗体V 区域序列。每个序列都链接到元数据提取中包含的元数据字段。元数据字段也按五个数据库中的一个进行排序。所有数据都可以通过 INDI网站获取。
在临床试验中使用抗体药物需要大量的时间和资源,而且在临床试验中失败的可能性很高。纳米抗体等具有良好生物物理特性的新形式为降低某些药物发现的风险提供了机会。目前,正在积极探索基于纳米抗体的靶向传输疗法的创新方法。除了分子疗法外,纳米抗体还被用于开发各种细胞疗法。简而言之,在推广之前,使用传统的实验室方法开发纳米抗体疗法仍需要多年的实验。计算方法可以加速这一过程,并提供更快的救生疗法。
虽然它仍处于起步阶段,但研究人员正在开发生物信息学方法来解决治疗性纳米抗体的设计问题。纳米抗体的计算方法可以为开发可靠的结构建模方法、噬菌体显示图书馆的设计或新纳米抗体的计算提供见解。在此基础上,开发人员创建了它INDI该网站是一个数据库,将纳米抗体序列、结构和相关元数据集成到公共领域。来自异构源的自动更新可以跟上公共领域的沉积速度。INDI 数据的异质性使纳米抗体研究人员能够准确理解纳米抗体序列、结构和功能的当前状态,加速分析框架、结构建模和从头开始开发纳米抗体药物设计,并为解决纳米抗体设计的深度学习模型提供基础。简而言之,正如开发人员所期望的那样,我们希望 INDI 将形成一个坚实的数据基础,开发一种特定的纳米抗体计算方法,从而加速基于纳米抗体的新疗法的发展。
参考资料:
INDI—integrated nanobody database for immunoinformatics