应用分类树模型构建缺血性脑卒中发病风险的预测模型研究

期刊: 健康文摘 2024年第3期 DOI: PDF下载

夏松云1，张玲玲2，于利娇3，王英1

1.中国人民解放军陆军第八十二集团军医院，河北保定，071000

摘要

目的：构建分类树模型，预测缺血性脑卒中发病风险。方法：选取年龄、性别无差异的100例缺血性脑卒中患者和100例健康人群。收集两组人群的各项资料，基于分类树模型进行比对分析。结果：存在高血压史和糖尿病史、低密度脂蛋白和总胆固醇水平较高、有吸烟史的人群，缺血性脑卒中发病率更高。结论：基于分类树模型，能够较为精准地预测缺血性脑卒中的发病率。

关键词

分类树模型；缺血性脑卒中；发病风险预测

正文

0.引言

随着生活方式的改变，越来越多的人不注意控制饮食，放任体重增长，缺乏体育运动，导致血压、血脂、血糖水平长期脱离健康范围。受此影响，人们患心脑血管疾病的概率正在逐渐增加。其中，缺血性脑卒中是最为常见的脑血管疾病。一旦发病，轻则导致患者的生活质量降低（如出现偏瘫、失语、吞咽困难等后遗症），重则直接致死。基于此，越来越多的人希望能够对自身情况进行评估，从而精准地预测缺血性脑卒中的发病率。分类树模型（classification tree model）作为一种非参数监督学习方法，因其结构简单、解释性强、对数据分布无严格假设等优点，已被广泛用于医学诊断和风险评估领域。然而，基于分类树模型构建缺血性脑卒中发病风险的预测模型的研究仍处于起步阶段。本研究旨在比对分析该模型用于预测缺血性脑卒中发病风险的效果，现围绕研究过程及结果作如下报告。

1.资料与方法

1.1一般资料综述

从本院2022年5月～2023年4月收治的缺血性脑卒中患者中选取100例，以此作为主要观察对象。另外从同期在本院体检的健康人群（无任何疾病）中选取100例，作为对照对象。

患者纳入标准：（1）确诊为缺血性脑卒中的患者；（2）能够提供完整资料的患者；

排除标准：（1）合并其他心脑血管疾病的患者；（2）已经明确具体病因的患者。

两组人群的基本情况如下：

（1）观察组患者。100例，男女比55∶45，年龄区间49～72岁，平均（61.34±2.29）岁；

（2）对照组健康人群。100例，男女比54∶46，年龄区间50～73岁，平均（61.28±2.31）岁。

两组人群的基础资料差异性并不明显，P＞0.05。

1.2研究方法简析

1.2.1资料收集

（1）病史。①是否有高血压史。②是否有糖尿病史。

（2）生活方式。①是否有吸烟史。②是否有饮酒史。③是否有锻炼习惯。④是否有良好的睡眠习惯。⑤是否有大鱼大肉饮食史。

（3）生物标志物。①血脂水平（包括总胆固醇、低密度脂蛋白、高密度脂蛋白、甘油三酯）。②血糖水平（空腹血糖、糖化血红蛋白）。

1.2.2数据预处理

（1）处理缺失值。①均值填补。对于少量缺失值，使用均值填补，如用组内数据的均值填补缺失的数值。②插值法。对于时间序列数据，使用插值法填补缺失值。③多重插补。对于较多的缺失值，使用多重插补法（如MICE）来生成多组可能的填补值，然后取其均值或使用其他聚合方法。

（2）异常值检测。①使用箱线图识别异常值，观察四分位范围（IQR）以外的数据点。②计算每个变量的Z分数（标准化值），若Z分数大于3或小于-3，可以视为异常值。

（3）分类树模型构建。将清洗和标准化后的数据集划分为训练集和测试集。 ①划分比例：按70%训练集，30%测试集的比例划分。可以使用Python的train_test_split函数进行数据划分。

from sklearn.model_selection import train_test_split

X = data.drop('target', axis=1) # 特征数据

y = data['target'] # 标签数据

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

②模型训练。选择CART（Classification And Regression Tree）或C4.5分类树算法。

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=42) # 选择CART算法

clf.fit(X_train, y_train)

③参数调整。通过交叉验证调整模型参数，如树的深度（max_depth）、最小样本分割数（min_samples_split）等。

④特征选择。计算特征重要性评分，筛选出对预测结果影响最大的特征。

1.3观察指标界定

具体的观察指标即为本文1.2.1资料收集部分提到的内容（观察指标可以更多，但本文受篇幅所限，只给出少部分指标）。

2.结果

模型分析结果显示：①高血压史和糖尿病史是最重要的预测指标，表明这些慢性病与缺血性脑卒中有显著关联。②低密度脂蛋白和总胆固醇水平较高的个体更容易患缺血性脑卒中。③吸烟史同样是一个重要的风险因素。

3.综合讨论

综上所述，分类树模型作为一种直观且解释性强的机器学习方法，其优势在于能够清晰展示决策过程和各个特征的重要性。在本次分析中，模型识别出了高血压史、糖尿病史、低密度脂蛋白（LDL）水平、总胆固醇水平和吸烟史等关键特征，这些特征在临床上常被认为是影响缺血性脑卒中风险的重要因素^[1]。基于分类树模型预测缺血性脑卒中的发病风险时，通过树状结构的可视化，医务人员可以直观地了解不同特征在预测中的作用和分裂点，有助于在临床实践中制定个性化的干预措施。例如，本研究中发现高血压史和糖尿病史是最重要的预测指标，这与现有医学文献相一致，进一步验证了模型的有效性^[2]。总体来说，分类树模型在缺血性脑卒中风险预测中展示了其独特的优势和较高的精准度，为临床预防和干预提供了有力支持。通过合理应用此类模型，可以提高早期识别和干预的效果，最终达到降低缺血性脑卒中的发病率和死亡率的目的。

参考文献：

[1]杨胜男.Framingham卒中风险评估与颅内动脉粥样硬化性狭窄发生风险的关联性分析[D].青岛大学,2022.

[2]黄艳红,周亮,陈虹汝,等.中国高血压患者并发脑卒中风险的Rothman-Keller模型研究[J].第三军医大学学报,2017,39(20):2042-2050.

...

阅读全文