写在开头上期推文整理了蛋白互作网络分析(PPI)相关背景知识,里面提到了几个常用的数据库
图片小洁老师课上用到的是STRING数据库,所以这期我们一起来看一下如何使用STRING网站,得到蛋白互作分析结果
生信漫漫学
,赞7
STRING网站进行PPI分析的基本步骤基于Kimi及数据挖掘课程PPT整理
图片差异基因整理及导出从芯片或转录组数据中筛选出差异表达基因(DEGs),设定阈值如|log2(fold change)|>1且P<0.05,进行差异上下调基因的判断。图片制作STRING网站的输入数据:从差异基因列表里面整理获取我们需要的上下调基因名,然后导出为文本文件图片加载差异分析结果,并且根据标识提取得到需要的差异基因列表代码语言:javascript复制
load("step4output.Rdata")
gene_up= deg[deg$change == 'up','symbol']
gene_down=deg[deg$change == 'down','symbol']
gene_diff = c(gene_up,gene_down)
图片导出保存为STRING网站需要的文件代码语言:javascript复制#制作string的输入数据
write.table(gene_diff,
file="diffgene.txt",
row.names = F,
col.names = F,
quote = F)
图片输入差异基因到STRING访问STRING网站(https://string-db.org/),点击SEARCH进入搜索页面。图片选择搜索方式 STRING提供了多种搜索方式,常用的有:Protein by name:输入单个蛋白的名称或ID(如UniProt ID或基因名)。Multiple proteins:输入多个蛋白的名称或ID,用于分析多个蛋白之间的相互作用。Proteins with Values/Ranks:输入带有附加值(如差异倍数、显著性p值等)的蛋白列表。选择“Multiple proteins”选项,输入或上传差异基因列表。图片指定物种(如人类、小鼠等),点击“SEARCH”。图片确认基因与蛋白的对应关系STRING会返回基因对应的蛋白名称,确认这些对应关系是否正确,通常默认选择第一个蛋白。图片确认无误之后,选择continue,继续分析
图片构建蛋白互作网络设置互作得分阈值,如combined score≥0.4,以筛选高置信度的互作关系。图片点击“Continue”生成蛋白互作网络图。图片网络图调整与分析Viewers中不同的选项是不同的视图,它们可以不同的方式查看和分析蛋白质相互作用网络。图片Legend选项中,提供了关于网络节点(Nodes)和边(Edges)的详细信息,以及如何解释这些元素在蛋白质相互作用网络中的含义图片Nodes(节点):
代表蛋白质:网络中的节点代表蛋白质。节点颜色:彩色节点:表示查询的蛋白质和第一层相互作用的蛋白质。白色节点:表示第二层相互作用的蛋白质。节点内容:空节点:表示未知三维结构的蛋白质。填充节点:表示已知或预测的三维结构的蛋白质。Edges(边):
代表蛋白质-蛋白质关联:边表示蛋白质之间的相互作用,这些相互作用是特定和有意义的,即蛋白质共同贡献于一个共享功能;这并不一定意味着它们物理上相互结合。边的置信度:低(0.150):表示相互作用的置信度较低。中(0.400):表示相互作用的置信度中等。高(0.700):表示相互作用的置信度较高。最高(0.900):表示相互作用的置信度最高。在“Settings”中调整网络图的显示参数,如隐藏孤立节点、选择互作类型(如物理互作、共表达等)。图片使用“Analysis”功能进行GO富集分析或KEGG通路分析,以了解网络中蛋白的功能和参与的生物学过程。图片图片图片导出结果点击“Exports”,选择导出网络图的格式(如PNG、SVG)或互作关系表,在这里我们选择导出 as short tabular text output: download TSV: tab separated values - can be opened in Excel and Cytoscape (lists only one-way edges: A-B)。
图片导出的结果内容导出的结果内容
在STRING数据库的“Exports”选项中,提供了多种格式的文件导出选项,以便用户可以根据自己的需求下载和使用蛋白质相互作用网络的数据。
图片作为位图图像(bitmap image): 导出为PNG格式:便携式网络图形;导出为高分辨率位图:相同PNG格式,但分辨率更高。作为矢量图形(vector graphic):导出为SVG格式:可缩放矢量图形,可在Illustrator、CorelDraw等软件中打开和编辑。作为简短的表格文本输出(short tabular text output):导出为TSV格式:制表符分隔的值,可在Excel和Cytoscape中打开(仅列出单向边:A-B)。作为表格文本输出(tabular text output):导出为TSV格式:制表符分隔的值,可在Excel中打开(列出互惠边:A-B;B-A)。作为XML摘要(XML summary): 导出为XML格式:包含XML交互数据,符合‘PSI-MI’数据标准。蛋白质节点度数(protein node degrees):导出网络中蛋白质的节点度数(根据当前得分截止值)。网络坐标(network coordinates):导出为平面文件格式:描述网络中节点的坐标和颜色。蛋白质序列(protein sequences):导出为MFA/multi-fasta格式:包含网络中氨基酸序列。蛋白质注释(protein annotations):导出为制表符分隔的文件:描述网络中蛋白质的名称、结构域和描述。功能注释(functional annotations): 导出为制表符分隔的文件:包含网络中所有已知功能术语的蛋白质。导入Cytoscape进一步分析将STRING生成的网络图导入Cytoscape软件进行可视化优化和更深入的分析,如筛选关键基因(hub genes)。图片使用Cytoscape中的CytoHubba插件,通过Degree算法等筛选出网络中的关键节点。使用Cytoscape中的Mcode插件,找子网络图片具体如何使用Cytoscape进一步分析,我们下期推文再整理叭!
学习资料💾:
生新技能树数据挖掘课程——生信入门&数据挖掘线上直播课6月班参考书籍📚——《R语言数据可视化与统计基础》