2. 北京积水潭医院疾病预防控制处, 北京 100035;
3. 北京大学医学信息学中心, 北京 100191;
4. 北京中医药大学中医学院, 北京 100029;
5. 北京左医科技有限公司, 北京 100044;
6. 赤峰学院附属医院感染管理科, 内蒙古 赤峰 024000;
7. 铜川市妇幼保健院医院感染管理科, 陕西 铜川 727007;
8. 复旦大学附属中山医院感染管理科, 上海 200032
2. Department of Disease Control, Beijing Jishuitan Hospital, Beijing 100035, China;
3. Medical Information Center, Peking University, Beijing 100191, China;
4. School of Traditional Chinese Medicine, Beijing University of Traditional Chinese Medicine, Beijing 100029, China;
5. Beijing Zuoyi Technology Co. Ltd., Beijing 100044, China;
6. Department of Healthcare-associated Infection Management, Affiliated Hospital of Chifeng University, Chifeng 024000, China;
7. Department of Healthcare-associated Infection Management, Tongchuan City Maternal and Child Health Care Hospital, Tongchuan 727007, China;
8. Department of Healthcare-associated Infection Management, Zhongshan Hospital, Fudan University, Shanghai 200032, China
近年来,互联网技术的进步使人们的工作方式逐渐发生改变,人们通过网络平台更便捷的学习到新的知识,发表自己的观点。在医院感染管理领域中,上海国际医院感染控制论坛(Shanghai International Forum for Infection Control, SIFIC)就是一个非常突出的例子,该论坛成立十余年来,越来越多的医院感染控制专(兼)职人员参与到论坛中,与他人互动、分享各种内容。SIFIC论坛给全国医院感染管理人员提供了高效的知识共享和交流平台,同时也吸引了大量的医院感染管理人员参与到相关内容的研究。网络爬虫被广泛用于互联网搜索引擎和其他类似的网站,通过代码可以让程序自动采集所有能够访问到的页面内容,最终获取或更新这些网站的内容和检索方式。近年来人们利用Python对Twitter、Facebook等知名社交平台展开了一系列的分析[1-3], 但是目前尚无利用Python技术对医学相关网站及论坛的研究,因为对不熟悉爬虫技术的医学研究人员而言这无疑是一个极大的挑战。本文基于Python语言的scrapy(爬虫框架)获取SIFIC论坛的各板块数据,并进行分析,以期回顾近十年来我国医院感染控制电子信息服务系统的热点,总结医院感染管理人员关注热点的趋势变化,从而进一步提高对热点问题的关注度,不断提高医院感染控制能力。
1 资料与方法 1.1 数据来源选取SIFIC论坛2007年4月6日—2017年12月31日的数据作为此次数据来源。SIFIC论坛于2007年4月6日创建,论坛会员遍及国内几十个省市,多个专业;现注册会员近13万人,专业版块155个,是目前中国规模最大、原创资料最多、专家队伍最强的医院感染预防与控制论坛。
1.2 数据获取通过Python语言的scrapy获取主题网络,爬虫从论坛某一个页面开始,读取标题内容,找到在网页中的其他链接地址,然后通过链接地址寻找下一个网页,这样一直循环将2007年4月6日—2017年12月31日SIFIC论坛上所有的网页标题进行抓取,将所提取的信息组合成DataFrame格式,自此完成所有数据的采集工作。
1.3 中文分词及词频统计为进行热点词的统计与分析,本研究使用基于Python Jieba (Chinese for “to stutter”,0.38版本)软件包对爬取的发帖标题文本串进行分词,分词时利用停词表对诸如“的、吗、和”非实意词进行剔出,最后利用Python的Collections. Counter功能对分词结果进行词频统计,并在此基础上进行综合分析。
2 结果 2.1 基本概况共爬取SIFIC论坛93个板块共3 112 840条数据,其中主题帖155 576条,平均每个主题回帖19.01次,平均每日新增794帖;累计注册会员共151 471名,其中管理员和超级版主131名,平均每人发帖20.55条。
2.2 年度热点分析按照发帖的时间逐年筛选每一年中出现次数位于前五的高频词频进行分析,见表 1。从年度发帖数量上看,2007—2013年呈逐年递增的趋势,2013年后论坛发帖数量有所下降,这与2013年底SIFIC论坛筹备开通官方微信有着极为密切的关系。从年度高频热词来看,“消毒”、“监测”、“培训”、“手术”、“手卫生”、“耐药”等词是医院感染管理人员关注的永恒主题。2009年全球暴发新甲型H1N1流感,“甲型流感”成为年度第一热词;2017年10个医院感染管理新规范正式施行,“规范”成为年度第二热词。
表 1 2007—2017年SIFIC论坛年度前5位高频热词分析 Table 1 Annual top 5 high frequency words in SIFIC in 2007-2017 |
![]() |
在排除类似于“新手集结号”、“商城”、“休闲时光”等与医院感染管理工作不相关的版块和发帖数较少的冷门版块后,对关注较多的8大重点热门版块中的31个子版块进行高频热词分析。对于每一版块的热词筛选,排除该版块或子版块的题目词及相关词汇,如“重点部位—血流感染BSI”版块,高频词汇则排除“中心”、“静脉”、“导管”、“血流”、“感染”及“BSI”等词,仅对有可能表现版块关注方向的词进行归纳整理,并合并类似于“洗手液”、“手消剂”等词义相近的词汇。从重点版块横向来看,每一专业版块均有自己不同的侧重方向,表现出医院感染管理学科的复杂性与多样性,见表 2。
表 2 2007—2017年SIFIC论坛版块前5位高频热词分析 Table 2 Top 5 high frequency words in each section of SIFIC in 2007-2017 |
![]() |
医院感染与医院的建立相依并存,是当前公共卫生领域的一个重要问题,并直接影响着医疗质量和患者的安全。医院感染管理是一项复杂而庞大的系统工程,政策性、学术性及专业性均较强。专业方面既涉及卫生统计学和流行病学的知识,又涵盖临床医学、微生物学、免疫学、药学和护理学等诸多学科的知识。随着医学科学的进步与发展,尤其是日新月异的治疗方法的开展,抗菌药物的广泛应用,新的演变趋势使医院感染管理变得越来越复杂化与多样化[4],对从事医院感染监控工作的专(兼)职人员知识更新的要求也变得越来越高。目前,医院感染管理专业队伍建设较为薄弱[2],从基层医疗机构到三级医院,医院感染管理人员队伍很不稳定,多以兼职人员为主,工作强度较大,故医院感染管理人员如何在紧张的工作中获取、更新最有价值的知识内容便显得尤为重要。
互联网的持续发展将信息爆炸时代的知识交互带入了一个全新的阶段,使得沟通摆脱了空间的束缚,利用论坛这一渠道进行即时信息的传递与交流,实现高效率协作,强调人与人相互连接。SIFIC为中国医院感染监控工作人员搭建了良好的交流平台,使中国医院感染预防与控制水平与国际接轨,其会员来自医疗领域的各个部门与专业,拥有旺盛的人气、良好的交流氛围及广阔的交流空间。
以2009年为例,全球超过207个国家和地区报告了新甲型H1Nl流感实验室确诊病例,总数超过62万例,包括7 820余例死亡病例,世界卫生组织将预警级别升至最高级别6级[5],2009年SIFIC论坛关注的热点也随之变为了“甲型流感”;而针对全球流感背景下,环境、物体表面如何进行清洁“消毒”;流感的“监测”与上报;医护人员如何在流感大暴发的环境中采取“标准”预防的措施与应对这种紧急情况医院感染专业人员采取什么样的强化“培训”则变为了该年关注频次位于前5位的词汇,较好的体现了论坛紧贴国际热点变化的时效性。
从重点版块横向来看,每一版块均有自己不同的侧重方向,表现出医院感染管理学科的复杂性与多样性。以“重点部位—手术部位感染SSI”中的热点词汇为例,“切口类型”、“目标监测”、“术后预防SSI”、“剖宫产”等为SSI关注的热点,关于手术后切口感染影响因素的研究较多,由于发生切口感染不仅给患者带来身体的痛苦,也会对其心理造成不良影响,对治疗失去信心,降低治疗的依从性,更严重者会出现血液系统感染疾病,甚至增加死亡风险[6-7]。所以,医院感染监控人员的关注点更多在如何预防手术切口感染的发生,对手术部位感染的切口类型和常发生手术部位感染的手术类型进行探讨分析是极为必要的。
本研究将大数据的理念成功应用在爬虫分析中,高效的识别出以往关注的热点,对今后的研究提供了参考性的建议。但同时本研究也存在一定的局限性,由于数据所限,未能考虑使用和未使用本论坛的医院感染管理相关人员的差异,因此分析出的结果可能存在一定的偏倚。此外由于本研究纳入分析的数据量较大,涉及面较广,不能对每一版块的高频词汇逐一进行分析,仅为医院感染管理工作人员描绘近年来国内医院感染监控关注的方向,发现广泛关注点在哪里,为日后研究提供新思路,每一版块相对应的工作人员也可根据本研究所示的热点结果找寻自己的研究方向[8-9]。SIFIC论坛创办至今已十年余,标志着中国医院感染管理已进入科学化、信息化的阶段,本研究以实例说明爬虫数据挖掘的研究意义,今后可以以大数据为基础,探索更多的研究方向。
致谢: 感谢上海国际医院感染控制论坛(SIFIC)提供相关数据。
[1] |
Carlisle JE, Patton RC. Is social media changing how we understand political engagement? An analysis of facebook and the 2008 presidential election[J]. Polit Res Quart, 2013, 66(4): 883-895. DOI:10.1177/1065912913482758 |
[2] |
Strafling N, Kramer NC. Learning together on Facebook et al. The influence of social aspects and personality on the usage of social media for study related exchange[J]. Gruppendynamik und Organisationsberatung, 2013, 44(4): 409-428.
|
[3] |
Sanner MF. Python:a programming language for software integration and development[J]. J Mol Graph Model, 1999, 17(1): 57-61. |
[4] |
李丽华. 新形势下如何做好医院感染管理工作[J]. 中国医药指南, 2013, 11(32): 585-586. |
[5] |
任晓旭, 宋国维. 2009年新甲型H1N1流感[J]. 中国小儿急救医学, 2009, 16(6): 528-532. DOI:10.3760/cma.j.issn.1673-4912.2009.06.006 |
[6] |
张麦玲, 李艳华, 朱小芳, 等. 外科手术患者发生切口感染的手术室相关因素分析及防治策略[J]. 中华医院感染学杂志, 2018, 28(1): 152-155. |
[7] |
戴浩, 戴佩芬, 毛斌存, 等. 外科手术患者术后切口感染相关因素分析[J]. 中华医院感染学杂志, 2018, 28(20): 3101-3103. |
[8] |
王莹, 李源, 金学兰, 等. 基于共现分析的国际医院感染研究热点可视化探析[J]. 中华医院感染学杂志, 2017, 27(18): 4312-4316. |
[9] |
江建忠, 贾素玉, 宋倩. 国际医院感染控制研究热点分析[J]. 中华医院感染学杂志, 2016, 26(24): 5733-5736. |