文章快速检索 高级检索
  中国感染控制杂志  2024, Vol. 23 Issue (7): 787-797   DOI: 10.12138/j.issn.1671-9638.20244826
0

基金项目

国家自然科学基金面上项目(42071273)

引用本文 [复制中英文]

杨光飞, 邬水, 钱翔宇, 等. 基于GBDT模型的医院室内空气微生物浓度预测[J]. 中国感染控制杂志, 2024, 23(7): 787-797. DOI: 10.12138/j.issn.1671-9638.20244826.
[复制中文]
YANG Guang-fei, WU Shui, QIAN Xiang-yu, et al. Prediction of microbial concentration in hospital indoor air based on gra-dient boosting decision tree model[J]. Chin J Infect Control, 2024, 23(7): 787-797. DOI: 10.12138/j.issn.1671-9638.20244826.
[复制英文]

作者简介

杨光飞(1981-),男(汉族),江苏省南京市人,教授,主要从事大数据与智能决策相关研究

通信作者

杨宇红  E-mail: 1770517747@qq.com

文章历史

收稿日期:2023-08-09
基于GBDT模型的医院室内空气微生物浓度预测
杨光飞1,2 , 邬水3 , 钱翔宇2 , 杨宇红4 , 孙野5 , 邹韵6 , 庚俐莉7 , 刘媛8     
1. 大连理工大学附属中心医院,辽宁 大连 116000;
2. 大连理工大学系统工程研究所,辽宁 大连 116024;
3. 大连理工大学环境学院,辽宁 大连 116024;
4. 大连理工大学附属肿瘤医院离退休工作部,辽宁 沈阳 110042;
5. 大连理工大学附属肿瘤医院疾病预防与感染控制办公室,辽宁 沈阳 110042;
6. 大连理工大学附属肿瘤医院教学与学生工作部,辽宁 沈阳 110042;
7. 大连理工大学附属中心医院感染性疾病科,辽宁 大连 116000;
8. 大连理工大学附属中心医院呼吸与危重症科,辽宁 大连 116000
摘要目的 探究基于实时室内空气环境监测数据与机器学习算法的医院室内空气微生物浓度预测。方法 选取2022年5月23日—6月5日某院四个位置为监测采样点,采用物联网传感器实时监测多种空气环境数据,匹配各点位采集的空气微生物浓度数据,使用梯度提升树算法(GBDT)对医院室内空气微生物浓度进行实时预测,并选取其他五种常见的机器学习模型进行比较,对比模型包括随机森林(RF)、决策树(DT)、最近邻(KNN)、线性回归(LR)和人工神经网络(ANN)。最后通过平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)三个指标验证模型的有效性。结果 GBDT模型在门诊电梯间(A点)、支气管镜诊间(B点)、CT候诊区(C点)和供应室护士站(D点)的MAPE值分别为22.49%、36.28%、29.34%、26.43%,GBDT模型在三个采样点的平均性能高于其他机器学习模型,仅在一个采样点略低于ANN模型。GBDT模型在四个点位的平均MAPE值为28.64%,即预测值偏离实际值28.64%,说明GBDT模型预测结果较好,预测值在可用范围内。结论 基于实时室内空气环境监测数据的GBDT机器学习模型能够提高医院室内空气微生物浓度预测精度。
关键词微生物浓度    室内环境    GBDT模型    空气微生物浓度    
Prediction of microbial concentration in hospital indoor air based on gra-dient boosting decision tree model
YANG Guang-fei1,2 , WU Shui3 , QIAN Xiang-yu2 , YANG Yu-hong4 , SUN Ye5 , ZOU Yun6 , GENG Li-li7 , LIU Yuan8     
1. Central Hospital of Dalian University of Technology, Dalian 116000, China;
2. Institute of Systems Engineering, Dalian University of Technology, Dalian 116024, China;
3. School of Environmental Science and Technology, Dalian University of Technology, Dalian 116024, China;
4. The Retired-serving Department, Cancer Hospital of Dalian University of Technology, Shenyang 110042, China;
5. Office of Disease Prevention and Infection Control, Cancer Hospital of Dalian University of Technology, Shenyang 110042, China;
6. Teaching and Student Affairs Department, Cancer Hospital of Dalian University of Technology, Shenyang 110042, China;
7. Department of Infectious Diseases, Central Hospital of Dalian University of Technology, Dalian 116000, China;
8. Department of Pulmonary and Critical Medicine, Central Hospital of Dalian University of Technology, Dalian 116000, China
Abstract: Objective To explore the prediction of hospital indoor microbial concentration in air based on real-time indoor air environment monitoring data and machine learning algorithms. Methods Four locations in a hospital were selected as monitoring sampling points from May 23 to June 5, 2022. The "internet of things" sensor was used to monitor a variety of real-time air environment data. Air microbial concentration data collected at each point were matched, and the gradient boosting decision tree (GBDT) was used to predict real-time indoor microbial concentration in air. Five other common machine learning models were selected for comparison, including random forest (RF), decision tree (DT), k-nearest neighbor (KNN), linear regression (LR) and artificial neural network (ANN). The validity of the model was verified by the mean absolute error (MAE), root mean square error (RMSE) and mean absolute percentage error (MAPE). Results The MAPE value of GBDT model in the outpatient elevator room (point A), bronchoscopy room (point B), CT waiting area (point C), and nurses' station in the supply room (point D) were 22.49%, 36.28%, 29.34%, and 26.43%, respectively. The mean performance of the GBDT model was higher than that of other machine learning models at three sampling points and slightly lower than that of the ANN model at only one sampling point. The mean MAPE value of GBDT model at four sampling points was 28.64%, that is, the predicted value deviated from the actual value by 28.64%, indicating that GBDT model has good prediction results and the predicted value was within the available range. Conclusion The GBDT machine learning model based on real-time indoor air environment monitoring data can improve the prediction accuracy of indoor air microbial concentration in hospitals.
Key words: microbial concentration    indoor environment    GBDT model    air microbial concentration    

空气污染不仅存在于室外,室内的空气污染更值得关注[1]。随着社会模式和生活方式的改变,人们90%的时间都在室内度过[2],因此人们对室内空气质量的研究兴趣日益高涨。长期暴露在通风条件差或空气质量差的室内环境中会引发一系列健康问题,如室内可吸入颗粒物PM2.5或PM10可能会引发心血管和呼吸系统等疾病[3],挥发性有机化合物(VOCs)会对肝、肾、中枢神经系统和上呼吸道等产生毒性或致癌的作用[4],二氧化碳(CO2)浓度高时也可能会不同程度地影响人们的大脑认知功能[5]。除无机污染物外,室内空气中的生物气溶胶也是不可忽视的污染物。生物气溶胶是由微生物或生物衍生材料组成的悬浮生物颗粒,来自人体、空调系统、室外空气等多种污染源[6-7],可能会导致过敏、感染传染病、真菌中毒等疾病[8-9]。当聚焦于医院这个特殊的公共场所时,生物气溶胶成为重点关注对象。研究[10]表明,空气中的微生物传播是医院感染的主要传播途径之一。已知的主要致病菌如化脓性链球菌、结核分枝杆菌和白喉棒状杆菌等,可以通过感染者的空气飞沫传播引起医院感染[11-12],这可能会增加医院内的工作人员、探视人员,尤其是敏感群体及病患的感染风险。据估计,空气传播的细菌引起10%~20%的医院感染[13],因此对医院的空气微生物监测和预防是医院感染防控的工作重点。

室内空气微生物浓度可以较直观地反映感染风险,然而传统的空气微生物监测存在许多弊端。根据国家规范《医院空气净化管理规范》规定,医院只在空气消毒后采样,不能反映日常情况下真实的就医环境;规范只要求对感染高风险部门如手术部(室)、重症监护病房等的空气净化与消毒质量进行监测,对其他部门没有明确规定;如果在医院感染暴发等特殊情况出现时再进行微生物采样监测,会错过最佳的溯因时间和防控机会窗口。医院感染的预防与管理严重缺乏依据,对普通病区存在消毒与监测过度与不足并存的现象[14]。传统的空气微生物采样是一项消耗人力与物力的试验,需要专门的人员在特定采样点对空气中的微生物进行采样,然后经过培养、计数等一系列操作才能获得采样点的空气微生物浓度水平,不具备实时的特点,也就不能及时反映感染风险[15]

当前许多研究[16-19]表明,空气中微生物浓度与PM2.5、CO2、温度等环境变量存在显著相关性,但很少研究利用该相关性来实现微生物浓度预测。张铭健等[20]回顾室内微生物污染水平预测关键技术,发现一些研究使用多元线性回归的方法评估颗粒物浓度预测空气微生物浓度水平的可行性,但此类研究使用模型重复单一、相关环境变量选择有限,预测精度不能保证。本研究利用多种环境变量评估微生物(空气中的细菌)浓度的可预测性,分析空气中细菌总数,以及不同粒径范围的细菌浓度与多种环境变量、人流量之间的相关性,并使用梯度提升树(gradient boosting decision tree, GBDT)算法预测各点位的空气微生物浓度。采用物联网传感器实时监测的环境变量评估医院空气质量及其变化规律,为医院感染防控提供直接的判断依据。1材料与方法

1.1 材料来源

数据来自我国东北地区某三甲医院,监测时间2022年5月23日—6月5日,共14 d。空气微生物监测选取该院的4个地点,分别是门诊电梯间(A)、支气管镜诊间(B)、CT候诊区(C)和供应室护士站(D),监测采样地点的特征见表 1

表 1 空气微生物监测4个采样点的特征 Table 1 Characteristics of the four sampling points of indoor air microbial concentration monitoring
1.1.1 微生物监测数据

采用六级撞击式空气微生物采样器(苏州宏瑞净化科技有限公司,FSC-A6型)对空气中浮游的微生物气溶胶采样。采样目标是细菌,培养基为大豆酪蛋白琼脂(TSA)培养基。在4个采样点,每日进行3次采样,每个点位共计采样42次,每次采样时间为5 min,流量为28.3 L/min,高度为1.3 m。所有标本做好标记后在3 h内放入恒温培养箱,35℃培养48 h后取出计菌落数,计算公式如下:

$ \begin{array}{*{20}{c}} {{\rm{空气中细菌总数}}\left( {{\rm{CFU/}}{{\rm{m}}^3}} \right) = }\\ {\frac{{{\rm{所有平皿菌落数}}\left( {{\rm{CFU}}} \right)}}{{{\rm{采样时间}}\left( {\min } \right) \times 28.3\left( {{\rm{L}}/\min } \right)}} \times 1\;000} \end{array} $
1.1.2 环境变量监测数据

环境变量数据由部署在医院的物联网传感器(上海蓝居智能科技有限公司,U-MINI208室内环境监测终端)监测,传感器集成了几个模块,可以同时监测细颗粒物(PM2.5)、可吸入颗粒物(PM10)、CO2、温度、相对湿度、甲醛(CH2O)和VOCs,传感器的测量参数细节见表 2。此外,试验人员在现场记录采样时间段内采样点的人数作为人流量数据。

表 2 环境监测传感器的测量参数 Table 2 Measurement parameters of the environment monitoring sensor
1.2 机器学习模型构建 1.2.1 数据准备

图 1所示,本研究数据准备分两个阶段。第一阶段:按照微生物采样时间,将空气微生物数据与环境监测数据匹配。本研究中微生物采样时间为5 min,传感器检测频率为1 min/次,将环境监测数据均值与对应点位的空气微生物浓度数据匹配。第二阶段:利用Prophet时间序列预测模型[21]对缺失的环境监测数据进行填补,Prophet算法可拟合时间序列的增长趋势、季节趋势、节假日效应及误差项获得时间序列的预测值,具有良好的预测效果。

图 1 数据预处理 Figure 1 Data preprocessing

由于空气质量传感器在研究期间存在暂时的离线情况,丢失了5月29—31日3 d的环境监测数据,无法匹配此3 d内每个采样点位的9条细菌浓度数据。因此研究者分别提取了3月1日—5月28日3个月内匹配采样时间的环境数据作为源序列,基于Prophet算法预测每个环境变量在未来3 d内对应采样时间的9个目标序列。将预测结果按照第一阶段方法与空气微生物数据匹配,构建4个监测点位的4×42×9维矩阵数据集,其中输入特征共8个,包括表 2所示的7个环境变量和人流量变量,输出变量为空气微生物浓度。

为验证Prophet算法预测空气变量作为模型输入的可行性,本研究做出如下验证试验。基于2022年7月1日—2023年7月1日4个采样点(A、B、C、D)一年的环境监测数据,提取每个采样点9:00共4×365条数据进行验证。具体做法如下:为保证与源试验数据口径对齐,验证试验基于每个点位365 d的环境数据,使用90 d的数据作为源数据,使用Prophet算法预测未来3 d的目标序列,每次预测时间间隔为30 d,共预测26 d的环境数据。将预测值与真实值进行对比,使用相对误差指标进行精度检验,试验结果如图 2表 3所示。由于篇幅限制,图 2仅展示了A点位CO2预测结果。可以看出,CO2的预测的上下界基本涵盖真实值,且预测值与真实值保持较高一致性。各个环境变量的平均预测误差率较低,在5.99%~34.43%,属于可用范围。见表 3

图 2 A点位CO2预测结果 Figure 2 CO2 prediction results at point A

表 3 各点位环境变量预测值相对误差(%) Table 3 Relative error of predicted variables of environment at each point (%)
1.2.2 GBDT模型

GBDT是一种基于集成学习的机器学习算法,该算法采用损失函数的负梯度作为残差近似,并通过逐渐减小残差值最小化损失函数。与现有研究[15, 22-24]中常用的回归模型相比,GBDT可以更灵活地在输入特征上实现非线性和交叉变换,以捕获空气微生物与环境变量之间不连续、非线性的关系,并且该算法无需严格的数据分布假设,对异常值具有鲁棒性和可拓展性,能够自然地对非线性决策边界进行建模[25]。GBDT算法的学习过程和伪代码见图 34。(1)初始化一颗决策树来拟合输入数据。(2)在每次迭代中,计算损失函数的负梯度在当前模型的值,将其作为残差的估计;然后估计决策树叶节点区域,以拟合残差的近似值,最后利用线性搜索估计叶节点区域的值,使损失函数最小化,生成一个新的决策树。(3)通过将每一步的决策树加入到原始模型中,得到一个强学习器。

图 3 GBDT算法的学习过程 Figure 3 Learing process of GBDT algorithm

图 4 GBDT算法的伪代码 Figure 4 Pseudocode of GBDT algorithm
1.3 模型的验证

为评估所提出方法的有效性,通过测试集验证和平均绝对误差(mean absolute error, MAE)、均方根误差(root mean square error, RMSE)和平均绝对百分比误差(mean absolute percentage error, MAPE),计算评估模型的预测能力。本研究数据集涉及4个采样点,每个采样点的面积大小、通风情况及人流量等外界因素不同,所以空气微生物浓度高低及其分布也不相同。使用MAE和RMSE评估不同模型在同一采样点的预测误差,使用MAPE评估同一模型在不同采样点的预测误差。指标的计算方式如式(1)-(3)所示:

$ MAE=\frac{1}{n} \sum\limits_{i=1}^n\left|y_i-\overset\frown{{y}}_i\right| $ (1)
$ R M S E=\sqrt{\frac{1}{n} \sum\limits_{i=1}^n\left(y_i-\overset\frown{{y}}_i\right)^2} $ (2)
$ M A P E=\frac{1}{n} \sum\limits_{i=1}^n \frac{\left|y_i-\overset\frown{{y}}_i\right|}{y_i} \times 100 \% $ (3)
1.4 统计分析

应用SPSS 25.0软件进行统计分析。由于各采样点数据有限,不能保证数据都呈正态分布,斯皮尔曼相关系数不易受离群值影响,适用于非线性相关关系的探究,故选用斯皮尔曼相关系数探究空气微生物浓度与环境变量之间的关系。

2 结果 2.1 描述性统计 2.1.1 采样点环境变量分布特征

监测时间段内4个点位平均气温25~27℃,符合国家现行的GB/T 18883—2022《室内空气标准》中对夏季温度的要求(22~28℃),但B点的最高温度达28.96℃,超出标准,原因可能是支气管镜诊间的面积小、通风不及时。相对湿度为27.20%~50.76%,而夏季相对湿度的标准是40%~80%,所以存在相对湿度过低的情况。室内CO2最高浓度达918.4 mg/L,平均浓度在500~600 mg/L。采样点VOCs浓度最高可达1.2 mg/m3,CH2O平均浓度在0.15 mg/m3左右,装修材料和清洁剂可能是主要来源。见表 4

表 4 采样点环境变量描述性统计表 Table 4 Descriptive statistical table of environment variables at sampling points

各采样点的颗粒物平均浓度均符合标准(24 h平均值PM10 ≤0.1 mg/m3,PM2.5≤0.05 mg/m3),但浓度波动很大且表现出一定的规律。见图 5。不同位点的PM浓度水平不同,但波动规律整体表现一致。PM值通常会受到开窗通风和人群搅动的影响,如PM值在零点时处于一天中的较低水平,早晨7:00~8:00上班后会持续波动上升,中午左右达到最高水平,之后持续波动下降,下班后快速下降直到第二天0:00。周末和节假日基本会出现浓度水平明显降低的情况,而节假日过后的第一天往往是医院接诊的高峰期,支气管镜诊间和CT候诊区可能会有特殊的就诊情况使得周末特征不明显,这都符合被监测医院的工作时间及节假日特点。A点电梯间PM值的波动幅度较大,浓度忽高忽低,可能是因为电梯间的人群流动往往呈现出间歇性聚集的状态,如聚集在一起等电梯或者集中出电梯,符合实际情况。CH2O、CO2与PM序列趋势相似,都在中午达到高峰,凌晨降至低峰。除装修情况外,白天的CH2O还可能来自于消毒剂的挥发,而CO2则与人的呼吸密切相关。

图 5 采样点环境变量时间序列趋势图 Figure 5 Time series trend of environmental variables at sampling points
2.1.2 采样点细菌浓度分布特征

监测医院4个点位的细菌浓度水平差异较大,14~2 466 CFU/m3,其中,A点浓度为49~876 CFU/m3,B点为21~580 CFU/m3,C点为42~2 466 CFU/m3,D点为14~1 682 CFU/m3。小提琴图见图 6。4个采样点细菌浓度分布不相同,与采样位置的特点有密切联系。A点和C点细菌浓度值分散且整体水平较高,B点和D点细菌浓度值则更集中于较低水平。直观原因是门诊电梯间和CT候诊区属于开放型空间,人流量大,而支气管镜诊间和供应室护士站属于较封闭空间,人员少且活动范围固定。此外,C点和D点存在一些极端的离群值,可能是由于候诊区患者集中就医或护士站集体开会,或是突发情况所导致的,如随患者移动的病床或大型仪器等剧烈移动。

图 6 采样点细菌浓度分布图 Figure 6 Distribution of bacterial concentration at sampling points

细菌采样使用六级空气微生物撞击式采样器,模拟人呼吸道的解剖结构和空气动力学生理特征,采用惯性撞击原理进而将悬浮在空气中的微生物粒子按照微生物粒径大小分等级地收集到无菌平皿1至无菌平皿6上,每个无菌平皿捕获粒子大小分别是第一级≥7.0 μm(皿1)、第二级4.7~<7.0 μm(皿2)、第三级3.3~<4.7 μm(皿3)、第四级2.1~<3.3 μm(皿4)、第五级1.1~<2.1 μm(皿5)、第六级0.65~<1.1 μm(皿6)。皿1~皿6表示第一级到第六级的细菌浓度。

人群活动量更大的A点和C点各粒径细菌浓度均高于B点和D点,其中人流量最高的C点各粒径细菌浓度也最高,见图 7(左)。可能是因为人群的流动带动了空气流动,导致细菌颗粒物难以沉降,并且细菌的主要来源之一就是人体,密集的人群导致了空气中的细菌浓度水平显著提升。图 7(右)反映每个点位各粒径细菌浓度的占比,A、B、D点的皿4、皿5和皿6所占的细菌数量均超过细菌总数的60%,点C也在50%左右,说明空气中的细菌以3.3 μm以下的小粒径为主。这些小粒径细菌更容易附着在PM2.5颗粒物上,通过呼吸道进入人体肺部,相较于大粒径细菌更容易带来感染风险。

图 7 采样点六级细菌浓度及占比对比图 Figure 7 Comparison of concentration and proportion of sixth level bacteria at sampling points
2.2 相关性分析

本研究采用斯皮尔曼系数分析空气微生物浓度与各环境变量之间的相关性,见图 8。除D点外,其他采样点空气中的细菌浓度均与人流量呈弱到中等正相关关系。A点细菌浓度与CO2、CH2O呈中等正相关关系,与相对湿度呈中等负相关关系,与PM2.5和PM10呈弱但正相关关系。在B点,细菌浓度与PM2.5、PM10、CH2O和VOCs呈弱到中等正相关关系,与相对湿度呈弱负相关关系。在C点,细菌浓度与CO2、CH2O、PM2.5、PM10、和VOCs呈弱但正相关关系。D点的细菌浓度与环境变量之间的相关性并不显著,原因是医院对消毒供应室的环境卫生要求非常严格,除定期打扫消毒以外,进入供应室人员必须穿工作服、戴鞋套等以保证无污染源带入,并且工作时间护士站人流量较少,部分采样期间只有采样人员在场,D点的人流量与空气微生物浓度相关性也不显著。

注:*为P<0.05, **为P<0.01。 图 8 微生物浓度与环境变量的斯皮尔曼相关系数矩阵 Figure 8 Spearman correlation coefficient matrix between microbial concentration and environmental variables

各采样点皿1~皿6与环境变量之间相关性分析结果显示,较大粒径的细菌与人流量相关性更强,随着粒径的缩小,细菌浓度与PM2.5和PM10的相关性逐渐增强。尤其是粒径为1.1~2.1 μm的细菌浓度更为明显,也就是粒径小的微生物更多附着在粒径大小相似的颗粒物上生存。

2.3 预测模型结果

为验证GBDT模型在预测空气微生物浓度水平上的性能,本研究选取其他5种常见的机器学习模型进行比较,对比模型包括随机森林(random forest, RF)、决策树(decision tree, DT)、最近邻(k-nearest neighbor, KNN)、线性回归(linear regression, LR)和人工神经网络(artificial neural network, ANN)。模型的输入输出如1.2.1节所述,7个环境变量和人流量变量作为模型的输入,空气微生物浓度作为模型的输出。每个采样点取80%数据作为训练集,20%数据作为测试集,取5次五折交叉验证平均值为模型的最终得分,结果见表 5。经过计算,GBDT模型在A、B、C、D 4个采样点的MAE均值为100.81,RMSE均值为160.65,这些数值优于其他机器学习模型,即GBDT模型的平均性能高于其他机器学习模型,仅在B点略低于ANN模型。同时,GBDT模型在4个点位的MAPE均值为28.64%,即预测值偏离实际值28.64%,说明该模型预测结果较好,预测值在可用范围内。

表 5 不同采样点不同模型平均预测误差 Table 5 Mean prediction errors of different models at different sampling points
2.4 对照试验

为进一步验证Prophet时间序列预测模型的有效性和GBDT模型在解决非线性关系上的优越性,本研究以2.3节中GBDT模型预测结果为对照组,设计了试验组A和试验组B,具体试验设置及结果见表 6

表 6 GBDT模型与两个试验组性能比较 Table 6 Performance comparison between GBDT model and two test groups

试验组A:由于2022年5月29—31日的环境监测数据丢失,导致A、B、C、D 4个点位中,每个点位的9条细菌浓度数据无法匹配到环境数据,无法构建样本。因此实验组A中,删除了该9条样本,使用剩余33条数据对每个点位进行建模,模型选择、模型参数及交叉验证次数与对照组保持一致。在删除了9条样本后,由于数据量的减少,模型无法得到充分训练,4个采样点位的预测结果均出现了不同程度的下降,说明样本量的大小对模型的预测精度有重要作用。如1.2.1节结果所示,Prophet模型的预测在可用范围之内,其带来的样本量增加可以显著提升模型的预测精度。

试验组B:传统的线性回归模型在建模前需要过滤掉非显著线性相关的变量,以减轻模型的参数量和复杂度,获得更好的拟合结果。但GBDT模型不同于传统的线性回归模型,可以拟合变量间复杂的非线性关系,因此本研究未进行特征过滤,将全部特征添加到预测模型中,以获得更好的预测结果。为进一步验证该假设,设置试验组B,以2.2节结果为基准,删除每个点位不显著相关的特征,如点位A删除TEMP、VOCs两个特征。由于点位D的环境对卫生要求严格,经常清洁消毒,导致无环境变量与细菌浓度显著相关,因此试验组B中不计算点D的预测结果。其余试验设置与对照组保持一致。在删除了每个点位中不显著相关的特征后,各个点位的模型预测绝大多数指标呈现显著下降趋势,说明传统线性模型的特征过滤方法并不适用于本研究的GBDT模型,GBDT模型可以拟合不同变量间的复杂非线性关系。

3 讨论

本研究探索利用多种环境变量评估微生物(空气中的细菌)浓度的可行性。医院环境非常复杂,各种因素如医院设计、通风系统、温度、相对湿度、各种污染物、人口密度和消毒方法等,都会影响空气中细菌的浓度[26]。分析空气中细菌总数及不同粒径范围的细菌浓度与多种环境变量(温度、相对湿度、PM2.5、PM10、CH2O、CO2和VOCs)之间的相关性,并采用GBDT算法预测各点位的空气微生物浓度。通过测试集验证,以及MAE、RMSE、MAPE评估模型的预测能力;通过物联网传感器实时监测的环境变量,评估医院空气质量及其变化规律。

在选定的采样点中,细菌浓度水平差异显著。细菌的平均浓度为304 CFU/m3,研究选取的采样点位按医院消毒卫生标准分类是Ⅲ类环境或Ⅳ类环境,只有供应室护士站的细菌浓度可勉强达标,其他三点均超过标准。世界卫生组织认为,空气中的细菌总数超过700 CFU/m3,感染风险很大,小于500 CFU/m3,感染风险较小。可以发现,A点和C点这样的开放空间中细菌浓度超标的可能性更大,感染风险也更大,开放型空间应作为医院感染防控的关键。

当前有研究[15, 22, 27]探究利用颗粒物浓度评估空气中微生物水平的可能性,但也有研究[28]认为用颗粒计数代替空气微生物采样没有足够的理论支撑。我们认为,这种不一致源于不同的研究通过不同的方法探究二者之间的相关性,有时选择的方法对当前的数据分布来说是不适用的。同时以往的研究只考虑颗粒物浓度这个单一特征,其他有关影响因素的贡献被忽略,因此得出无法使用环境变量预测空气微生物浓度的结论。Seo等[22]证明除了不同粒径的颗粒物外,还可以通过考虑温度或相对湿度等气象条件来克服现有预测模型的局限性。本研究利用GBDT模型并纳入多种相关环境变量的实时监测数据,提高了空气微生物浓度预测精度。

本研究选择GBDT模型预测空气中的微生物浓度。一方面,GBDT模型作为一种集成学习算法,在处理数据特征之间的非线性关系上具有优势,不需要数据满足严格的假设分布,对环境数据与空气微生物数据的非线性、非正态分布特点友好。另一方面,由于本研究收集到的空气微生物数据存在一定的离群点,而GBDT模型对异常值具有鲁棒性,能够自然地对非线性决策边界进行建模,进而提升模型的预测精度。最终的试验结果也验证了我们的猜想,GBDT模型的表现整体优于其他机器学习算法。A点(MAPE=22.49%)、B点(MAPE=36.28%)、C点(MAPE=29.34%)和D点(MAPE=26.43%)的平均预测精度为28.64%,表现稳定且在不同点位的预测准确度差异不大。表明利用易监测的环境变量作为替代测量方法来取代基于培养方法的空气微生物浓度水平监测可行。

在不同的采样点,环境变量与微生物浓度之间的相关性存在差异,与过往研究[16-19]所得结论一致。细菌浓度与环境变量之间的关系是复杂而不确定的,因此传统线性回归方法并非最佳建模方法,本文中对比模型结果表明GBDT算法可以自动识别和利用变量之间的复杂关系,并得出更准确的预测结果。

基于传统培养方法的空气微生物浓度监测需要熟练的试验人员和长期的培养过程[29],无法获得实时的空气微生物浓度水平。本研究提出的基于机器学习算法的空气微生物浓度预测模型,通过多种环境变量实时模拟医院环境的空气中微生物浓度,提供了一种快速的空气微生物浓度测量方法,节省了大量的时间、经济和人力成本,为医院感染防控提供了一种实时的反馈机制,有助于解决由医院环境带来的感染问题。

利益冲突:所有作者均声明不存在利益冲突。

参考文献
[1]
González-Martín J, Kraakman NJR, Pérez C, et al. A state-of-the-art review on indoor air pollution and strategies for indoor air pollution control[J]. Chemosphere, 2021, 262: 128376. DOI:10.1016/j.chemosphere.2020.128376
[2]
Klepeis NE, Nelson WC, Ott WR, et al. The national human activity pattern survey (NHAPS): a resource for assessing exposure to environmental pollutants[J]. J Expo Anal Environ Epidemiol, 2001, 11(3): 231-252. DOI:10.1038/sj.jea.7500165
[3]
Orellano P, Reynoso J, Quaranta N, et al. Short-term exposure to particulate matter (PM10 and PM2.5), nitrogen dioxide (NO2), and ozone (O3) and all-cause and cause-specific mortality: systematic review and Meta-analysis[J]. Environ Int, 2020, 142: 105876. DOI:10.1016/j.envint.2020.105876
[4]
Tsai WT. An overview of health hazards of volatile organic compounds regulated as indoor air pollutants[J]. Rev Environ Health, 2019, 34(1): 81-89. DOI:10.1515/reveh-2018-0046
[5]
Du BW, Tandoc MC, Mack ML, et al. Indoor CO2 concentrations and cognitive function: a critical review[J]. Indoor Air, 2020, 30(6): 1067-1082. DOI:10.1111/ina.12706
[6]
Pastuszka JS, Paw UKT, Lis DO, et al. Bacterial and fungal aerosol in indoor environment in Upper Silesia, Poland[J]. Atmos Environ, 2000, 34(22): 3833-3842. DOI:10.1016/S1352-2310(99)00527-0
[7]
Hargreaves M, Parappukkaran S, Morawska L, et al. A pilot investigation into associations between indoor airborne fungal and non-biological particle concentrations in residential houses in Brisbane, Australia[J]. Sci Total Environ, 2003, 312(1-3): 89-101. DOI:10.1016/S0048-9697(03)00169-4
[8]
Douwes J, Thorne P, Pearce N, et al. Bioaerosol health effects and exposure assessment: progress and prospects[J]. Ann Occup Hyg, 2003, 47(3): 187-200.
[9]
Menetrez MY, Foarde KK, Esch RK, et al. An evaluation of indoor and outdoor biological particulate matter[J]. Atmos Environ, 2009, 43(34): 5476-5483. DOI:10.1016/j.atmosenv.2009.07.027
[10]
秦惠, 张怡, 周斌, 等. 医院环境致病气溶胶感染风险及其测量方法综述[J]. 暖通空调, 2017, 47(5): 64-71.
Qin H, Zhang Y, Zhou B, et al. Infection risk and measurement of pathogenic aerosol in hospital environment: A review[J]. Heating Ventilating & Air Conditioning, 2017, 47(5): 64-71.
[11]
Pastuszka JS, Marchwinska-Wyrwal E, Wlazlo A. Bacterial aerosol in Silesian hospitals: preliminary results[J]. Pol J Environ Stud, 2005, 14(6): 883-890.
[12]
Kim KY, Kim YS, Kim D. Distribution characteristics of airborne bacteria and fungi in the general hospitals of Korea[J]. Ind Health, 2010, 48(2): 236-243. DOI:10.2486/indhealth.48.236
[13]
Fernstrom A, Goldblatt M. Aerobiology and its role in the transmission of infectious diseases[J]. J Pathog, 2013, 2013: 493960.
[14]
姚希, 巩玉秀, 张宇, 等. 全国医疗机构病区环境消毒现况调查与分析[J]. 中国感染控制杂志, 2020, 19(6): 553-558.
Yao X, Gong YX, Zhang Y, et al. Current situation of environmental disinfection in medical institutions in China[J]. Chinese Journal of Infection Control, 2020, 19(6): 553-558. DOI:10.12138/j.issn.1671-9638.20205762
[15]
Huang HL, Lee MK, Shih HW. Assessment of indoor bioaerosols in public spaces by real-time measured airborne particles[J]. Aerosol Air Qual Res, 2017, 17(9): 2276-2288. DOI:10.4209/aaqr.2017.02.0089
[16]
Hiwar W, King MF, Shuweihdi F, et al. What is the relationship between indoor air quality parameters and airborne microorganisms in hospital environments? A systematic review and Meta-analysis[J]. Indoor Air, 2021, 31(5): 1308-1322. DOI:10.1111/ina.12846
[17]
Park DU, Yeom JK, Lee WJ, et al. Assessment of the levels of airborne bacteria, Gram-negative bacteria, and fungi in hospital lobbies[J]. Int J Environ Res Public Health, 2013, 10(2): 541-555. DOI:10.3390/ijerph10020541
[18]
Osman ME, Ibrahim HY, Yousef FA, et al. A study on microbiological contamination on air quality in hospitals in Egypt[J]. Indoor Built Environ, 2018, 27(7): 953-968. DOI:10.1177/1420326X17698193
[19]
孙帆, 钱华, 叶瑾, 等. 南京市校园室内空气微生物特征[J]. 中国环境科学, 2019, 39(12): 4982-4988.
Sun F, Qian H, Ye J, et al. Characteristics of airborne microorganisms in school classrooms in Nanjing[J]. China Environmental Science, 2019, 39(12): 4982-4988.
[20]
张铭健, 曹国庆, 冯昕. 室内微生物污染水平预测关键技术研究综述[J]. 中国环境科学, 2018, 38(11): 4040-4049.
Zhang MJ, Cao GQ, Feng X. Review of key technologies for forecast of indoor microbial contamination levels[J]. China Environmental Science, 2018, 38(11): 4040-4049.
[21]
Taylor SJ, Letham B. Forecasting at scale[EB/OL]. (2017-09-27)[2023-06-30]. https://peerj.com/preprints/3190.pdf.
[22]
Seo JH, Jeon HW, Choi JS, et al. Prediction model for airborne microorganisms using particle number concentration as surrogate markers in hospital environment[J]. Int J Environ Res Public Health, 2020, 17(19): 7237. DOI:10.3390/ijerph17197237
[23]
Mousavi MS, Hadei M, Majlesi M, et al. Investigating the effect of several factors on concentrations of bioaerosols in a well-ventilated hospital environment[J]. Environ Monit Assess, 2019, 191(7): 407. DOI:10.1007/s10661-019-7559-0
[24]
Tseng CH, Wang HC, Xiao NY, et al. Examining the feasibility of prediction models by monitoring data and management data for bioaerosols inside office buildings[J]. Build Environ, 2011, 46(12): 2578-2589.
[25]
Zhou F, Zhang Q, Sornette D, et al. Cascading logistic regression onto gradient boosted decision trees for forecasting and trading stock indices[J]. Appl Soft Comput, 2019, 84: 105747.
[26]
Mirhoseini SH, Nikaeen M, Khanahmd H, et al. Monitoring of airborne bacteria and aerosols in different wards of hospitals-particle counting usefulness in investigation of airborne bacteria[J]. Ann Agric Environ Med, 2015, 22(4): 670-673.
[27]
Mirhoseini SH, Nikaeen M, Satoh K, et al. Assessment of airborne particles in indoor environments: applicability of particle counting for prediction of bioaerosol concentrations[J]. Aerosol Air Qual Res, 2016, 16(8): 1903-1910.
[28]
Landrin A, Bissery A, Kac G. Monitoring air sampling in ope-rating theatres: can particle counting replace microbiological sampling?[J]. J Hosp Infect, 2005, 61(1): 27-29.
[29]
Tahir MA, Zhang XL, Cheng HY, et al. Klarite as a label-free SERS-based assay: a promising approach for atmospheric bioaerosol detection[J]. Analyst, 2019, 145(1): 277-285.