全部

不同机器算法在乳腺癌发病风险预测模型中使用效果的评估

信息工程

不同机器算法在乳腺癌发病风险预测模型中使用效果的评估

凌嘉
丽芳
黎昕
中医药信息第40卷, 第8期pp.23-28纸质出版 2023-08
83801

目的:

使用不同机器学习算法开发乳腺癌发病风险预测模型。

方法:

采用湖南中医药大学第一附属医院乳腺科患者数据库作为数据来源;根据乳腺癌相关风险因素,选取数据库中的初潮时间、流产次数、生育情况、月经及母乳喂养情况、乳腺癌家族史、作息时间、饮食习惯及中医证候特征等作为建模候选变量,提取其人口学特征、生命体征、病理检查等数据;使用6种机器算法开发模型,并对不同机器学习算法在预测模型中使用的效果进行评估。

结果:

综合两种计算方法对两种建模算法的特征重要度预测结果,可以得出年龄、燥热、流产次数、是否曾患乳腺炎、生活中是否经常锻炼、第一次月经时间等变量对乳腺癌的预测可能有重要作用。随机森林算法的预测结果最好,准确率为0.86,AUC值达0.89,XGboost和GBDT算法的准确率都为0.85,AUC值也同为0.85,其次是逻辑回归算法的准确率和AUC值都为0.84,SVC和DT算法的预测准确率分别为0.83、0.79,AUC值分别为0.82、0.71。从各算法的建模结果可以看出,随机森林算法由于集成学习的特性,本身的精度比一般单个算法的要好,预测结果的准确性也高。

结论:

基于森林算法的乳腺癌患者发病风险预测模型对辅助临床医生指导患者乳腺癌发病风险预防有重要意义。

机器算法逻辑回归随机森林DTGBDTXGboostSVC乳腺癌风险预测