基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

“973计划”(No.2007CB707804)和福建省自然科学基金资助项目(No.2007J0360)资助项目。


Random Forest for Classification of Thermophilic and Psychrophilic Proteins Based on Amino Acid Composition Distribution
Author:
Affiliation:

Fund Project:

the National “973” Project (No. 2007CB707804) and the natural science foundation of Fujian province (No. 2007J0360).

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    文献报道采用氨基酸组成分布提取特征值能有效提高预测分类精度, 本文采用该方法提取特征值, 使用一种新的组合分类器——随机森林, 从蛋白质一级结构对嗜热和嗜冷蛋白进行分类。通过10倍交叉验证和独立样本测试两种方法检测, 结果表明:当分段数量为1时, 其精度最优, 分别为92.9%和90.2%, 暗示使用基于氨基酸组成分布提取特征值在该算法中并不能有效提高识别精度, 这与报道结果不符, 而该提取方法在SVM中却能适当提高识别精度; 当引入6个新变量后, 其精度分别提高到93.2%和92.2%, ROC曲线下面积分别为0.9771和0.9696, 优于其它组合分类器。

    Abstract:

    We used amino acid composition distribution (AACD) to discriminate thermophilic and psychrophilic proteins. We used 10-fold cross-validation and independent testing with other dataset to evaluate the models. The results showed that when the segment was 1, the overall accuracy reached 92.9% and 90.2%, respectively. The AACD method improved the prediction accuracy when support vector machine was used as the classifier. When six new features were introduced, the overall accuracy of random forest improved to 93.2% and 92.2%, the areas under the receiver operation characteristic curve were 0.9771 and 0.9696, which was better than other ensemble classifiers and comparable with that of SVM.

    参考文献
    相似文献
    引证文献
引用本文

张光亚,方柏山. 基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型[J]. 生物工程学报, 2008, 24(2): 302-308

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2007-05-28
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
生物工程学报 ® 2024 版权所有

通信地址:中国科学院微生物研究所    邮编:100101

电话:010-64807509   E-mail:cjb@im.ac.cn

技术支持:北京勤云科技发展有限公司