黑色素瘤是一種極具侵襲性的皮膚癌,其發(fā)病率和死亡率在皮膚惡性腫瘤中均居首位。由于早期黑色素瘤與良性色素痣在組織形態(tài)上極為相似,傳統(tǒng)病理診斷方法常面臨判別困難,導(dǎo)致誤診和漏診風(fēng)險(xiǎn)加大。當(dāng)前常用的HE染色技術(shù)只能提供組織形態(tài)信息,尚缺乏對(duì)病理切片中細(xì)微光譜差異的定量分析手段。而免疫組化等手段盡管可輔助診斷,但其周期長(zhǎng)、成本高,不利于快速篩查。因此,亟需一種能夠在HE染色基礎(chǔ)上提供更多定量、客觀信息的技術(shù)手段,以輔助醫(yī)生提高早期診斷的準(zhǔn)確性與效率。
高光譜成像(HSI)作為一種非接觸、非侵入、無(wú)需染料標(biāo)記的成像技術(shù),可同時(shí)獲取組織在空間與光譜維度上的信息,已被證實(shí)在醫(yī)學(xué)成像中具備巨大潛力。每個(gè)像素點(diǎn)包含數(shù)十至上百個(gè)波段的反射光譜特征,可用于區(qū)分不同生理和病理狀態(tài)下組織的光譜差異,尤其在500–700 nm范圍內(nèi)的差異最為顯著。結(jié)合深度學(xué)習(xí)方法(如遷移學(xué)習(xí)與殘差網(wǎng)絡(luò))的自動(dòng)特征提取與分類能力,有望實(shí)現(xiàn)對(duì)病理切片中黑色素瘤與色素痣的快速、精確、智能輔助診斷,為臨床提供全新的病理影像分析工具。
作者信息: 李瑋,山東大學(xué)控制科學(xué)與工程學(xué)院。
期刊來(lái)源:Photodiagnosis and Photodynamic Therapy
本研究旨在探索將高光譜成像技術(shù)(HSI)與深度學(xué)習(xí)算法相結(jié)合,用于提升黑色素瘤與色素痣之間的早期病理診斷準(zhǔn)確性。本研究構(gòu)建一種高效、非侵入、無(wú)染料標(biāo)記的病理圖像智能識(shí)別方法,解決傳統(tǒng)HE染色切片診斷中“特征相似難區(qū)分、主觀性強(qiáng)、效率低”等突出問(wèn)題。為此,作者采集了100例病理樣本(包括50例黑色素瘤和50例色素痣),通過(guò)顯微高光譜成像系統(tǒng)獲取400–1000 nm范圍內(nèi)的組織光譜圖像,并分別構(gòu)建一維和二維數(shù)據(jù)集,提取其光譜與空間特征。在方法上,采用隨機(jī)森林算法對(duì)一維光譜數(shù)據(jù)進(jìn)行分類,并進(jìn)一步構(gòu)建基于遷移學(xué)習(xí)的50層深度殘差神經(jīng)網(wǎng)絡(luò)模型(ResNet-50)以處理包含光譜與空間結(jié)構(gòu)的二維高光譜圖像,實(shí)現(xiàn)更精確的腫瘤識(shí)別與分類。
實(shí)驗(yàn)數(shù)據(jù)是通過(guò)一臺(tái)江蘇雙利合譜科技有限公司顯微高光譜成像系統(tǒng)(GaiaMicro-G-V10E-AZ4, Dualix Spectral Imaging)采集的。該系統(tǒng)分為兩部分,如圖1(a)所示:一臺(tái)推掃式高光譜相機(jī)和一套顯微鏡系統(tǒng)。推掃式高光譜相機(jī)將分光元件和面陣相機(jī)進(jìn)行組合。分光元件將光分成多個(gè)特定波長(zhǎng)的光線,面陣相機(jī)則以線推掃的方式旋轉(zhuǎn)采集每一條線像素的波長(zhǎng)信息。整個(gè)圖像的采集過(guò)程就是通過(guò)旋轉(zhuǎn)掃描逐行獲取數(shù)據(jù),并將圖像拼接成完整的高光譜圖像。同時(shí),計(jì)算機(jī)配備了圖像采集軟件,這不僅提供了高效的圖像采集功能,還提供了良好的用戶界面。良好的軟硬件條件為微觀高光譜熒光數(shù)據(jù)的采集和分析奠定了堅(jiān)實(shí)的基礎(chǔ)。圖1展示了良性黑色素瘤和惡性黑色素瘤圖像的示例。
研究的大致流程如下:首先,由病理專家對(duì)切片樣本進(jìn)行觀察與標(biāo)注;其次,確定激發(fā)波長(zhǎng)和采集參數(shù)后,利用顯微高光譜成像系統(tǒng)對(duì)樣本切片進(jìn)行掃描成像;第三,將獲得的高光譜圖像根據(jù)模型所需的不同輸入結(jié)構(gòu)進(jìn)行數(shù)據(jù)轉(zhuǎn)換;第四,將處理后的數(shù)據(jù)輸入深度學(xué)習(xí)模型中,輸出最終的準(zhǔn)確率、ROC曲線和混淆矩陣;最后,對(duì)一維與二維數(shù)據(jù)結(jié)果進(jìn)行比較,以確定哪種數(shù)據(jù)更能有效表征兩類組織的狀態(tài)與特征。
圖1. (a) 用于獲取高光譜圖像的設(shè)備。(b) 一些黑色素瘤和色素痣樣本。(c) 在高光譜相機(jī)上的掃描模式。(d) 從黑色素瘤(CMM)患者處獲取的不同波長(zhǎng)的高光譜圖像。(e) 高光譜圖像數(shù)據(jù)立方體。(f) 腫瘤組織樣本(CMM)和色素痣樣本的組織病理學(xué)圖像。(g) 病理高光譜圖像。
本研究所使用的數(shù)據(jù)來(lái)源于山東大學(xué)齊魯醫(yī)院確診的50例惡性黑色素瘤患者的常規(guī)病理與臨床資料,同時(shí)選取同期50例色素痣患者作為對(duì)照組。共納入樣本100份,所有切片均為組織冷凍病理切片,切片選擇與取樣過(guò)程中所選區(qū)域均為隨機(jī),以確保模型訓(xùn)練的準(zhǔn)確性與泛化能力。為盡可能包含更多的病變信息,每張切片選取4–5個(gè)具有代表性的區(qū)域進(jìn)行采集。
在建模過(guò)程中,研究分別使用了隨機(jī)森林算法與殘差網(wǎng)絡(luò)算法。隨機(jī)森林基于一維光譜數(shù)據(jù)構(gòu)建模型,而殘差網(wǎng)絡(luò)則處理二維圖像數(shù)據(jù)。一維數(shù)據(jù)通過(guò)每8個(gè)采樣點(diǎn)計(jì)算平均光譜以降低噪聲與冗余;二維數(shù)據(jù)則選取感興趣區(qū)域的125個(gè)像素,重組為二維圖像,用于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
隨機(jī)森林屬于一種Bagging方法。圖2展示了其訓(xùn)練流程。如圖所示,對(duì)于給定的訓(xùn)練樣本集 S,每一輪迭代采用自助采樣從 S中隨機(jī)抽取M個(gè)樣本,重復(fù)進(jìn)行n輪,從而獲得n個(gè)彼此獨(dú)立的訓(xùn)練子集。隨后,針對(duì)每一個(gè)訓(xùn)練子集分別建立一個(gè)預(yù)測(cè)模型,最終得到n個(gè)獨(dú)立的模型。在分類任務(wù)中,通過(guò)對(duì)這n個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行投票表決,得到最終的分類結(jié)果。
圖2. Bagging 方法的訓(xùn)練過(guò)程。
遷移學(xué)習(xí)(Transfer Learning, TL)是指將已訓(xùn)練好的網(wǎng)絡(luò)的低層結(jié)構(gòu)和參數(shù)遷移到一個(gè)新的分類模型中,并通過(guò)調(diào)整高層模型的參數(shù)來(lái)完成特定的分類任務(wù)。殘差網(wǎng)絡(luò)(ResNet-50)基于深度卷積神經(jīng)網(wǎng)絡(luò)框架,引入殘差模塊以緩解深層網(wǎng)絡(luò)的梯度消失問(wèn)題,并通過(guò)遷移學(xué)習(xí)策略提升模型對(duì)小樣本數(shù)據(jù)的泛化能力。圖3展示了遷移學(xué)習(xí)的方法。
圖3. 卷積神經(jīng)網(wǎng)絡(luò)(CNN)的遷移學(xué)習(xí)。
為了全面衡量所提出分類模型的性能,研究采用了準(zhǔn)確率、ROC曲線、混淆矩陣來(lái)全面衡量所提分類模型的性能。準(zhǔn)確率用于反映模型對(duì)整體樣本的分類正確程度;ROC曲線通過(guò)繪制不同閾值下的真陽(yáng)性率(TPR)與假陽(yáng)性率(FPR)關(guān)系,評(píng)估模型的分類能力與魯棒性;混淆矩陣則具體展示了模型對(duì)不同類別(黑色素瘤與色素痣)樣本的識(shí)別情況,包括真正例、假正例、真負(fù)例和假負(fù)例的數(shù)量,從而進(jìn)一步分析模型在哪些類別上存在誤判或漏判現(xiàn)象。
隨機(jī)森林模型在黑色素瘤和痣的分類中,訓(xùn)練集的準(zhǔn)確率為0.96,測(cè)試集的準(zhǔn)確率為0.89。圖4描繪了隨機(jī)森林模型的ROC曲線和混淆矩陣結(jié)果。隨機(jī)森林模型的ROC曲線下面積(AUC)為0.89;圖4結(jié)果表明用于區(qū)分良性黑色素瘤和惡性黑色素瘤的隨機(jī)森林模型雖然能夠產(chǎn)生一定的分類效果,但其分類準(zhǔn)確率并不理想。根據(jù)混淆矩陣,該模型在惡性樣本的一維數(shù)據(jù)分類上存在較高的錯(cuò)誤率,整體分類準(zhǔn)確率較低,且分類結(jié)果的可靠性欠佳。
圖4. 隨機(jī)森林分類結(jié)果:(a) ROC曲線和AUC曲線;(b) 混淆矩陣。
對(duì)比使用了深度殘差網(wǎng)絡(luò)來(lái)進(jìn)行黑色素瘤和色素痣的分類。50層網(wǎng)絡(luò)的訓(xùn)練集準(zhǔn)確率為0.99,測(cè)試集準(zhǔn)確率為0.98。圖5展示了殘差模型的ROC曲線、AUC面積以及混淆矩陣。殘差網(wǎng)絡(luò)模型的訓(xùn)練準(zhǔn)確率相對(duì)較高,在測(cè)試集上的分類準(zhǔn)確率達(dá)到了0.98。圖5表明,深度模型的AUC面積大于隨機(jī)森林模型。50層殘差網(wǎng)絡(luò)模型表現(xiàn)更佳,其AUC值達(dá)到了0.98。根據(jù)混淆矩陣,殘差網(wǎng)絡(luò)模型在黑色素瘤惡性樣本的分類上更為準(zhǔn)確??傮w而言,兩種模型的分類性能均在可接受的誤差范圍內(nèi),而50層殘差網(wǎng)絡(luò)模型的分類結(jié)果相對(duì)更為可靠。
圖5. 深度殘差網(wǎng)絡(luò)的分類結(jié)果:(a) ROC曲線和AUC曲線;(b) 混淆矩陣。
如圖6所示,我們?cè)诓煌S度的數(shù)據(jù)上對(duì)比了多種模型的表現(xiàn),結(jié)果發(fā)現(xiàn):隨機(jī)森林模型在一維數(shù)據(jù)上表現(xiàn)更優(yōu)。這可能是由于隨機(jī)森林屬于Bagging類型的集成學(xué)習(xí)方法,通過(guò)多棵弱分類樹(shù)的投票或平均操作,可以獲得較高的準(zhǔn)確性與較強(qiáng)的泛化能力。而深度神經(jīng)網(wǎng)絡(luò)能夠從二維數(shù)據(jù)中提取更豐富的特征,因此其結(jié)果優(yōu)于基于一維數(shù)據(jù)的模型。在各模型性能對(duì)比中,結(jié)合遷移學(xué)習(xí)的殘差網(wǎng)絡(luò)表現(xiàn)最佳。盡管用于二維建模的訓(xùn)練數(shù)據(jù)量較少,但遷移學(xué)習(xí)在此過(guò)程中發(fā)揮了顯著作用,有效提升了模型的分類能力。
?圖6. 不同模型的比較結(jié)果:(a) 一維數(shù)據(jù)上不同模型結(jié)果的比較;(b) 二維數(shù)據(jù)上不同模型結(jié)果的比較。
本文旨在探究利用高光譜熒光數(shù)據(jù),通過(guò)深度學(xué)習(xí)方法對(duì)黑色素瘤和痣進(jìn)行分類的可能性。研究結(jié)果顯示,采用遷移學(xué)習(xí)的50層殘差網(wǎng)絡(luò)的整體性能優(yōu)于隨機(jī)森林模型。隨機(jī)森林和殘差網(wǎng)絡(luò)模型的性能表明,高光譜熒光數(shù)據(jù)能夠更好地展現(xiàn)黑色素瘤與色素痣之間的特征差異,這種差異在一定程度上提高了分類模型的準(zhǔn)確率。殘差網(wǎng)絡(luò)模型的分類準(zhǔn)確率較為理想,其可靠的分類表現(xiàn)可助力醫(yī)生的臨床診斷。高光譜技術(shù)簡(jiǎn)化了樣本處理流程,消除了因醫(yī)生水平差異導(dǎo)致的診斷錯(cuò)誤,提升了診斷的及時(shí)性與普及度,并為其他皮膚色素性疾病診斷與鑒別診斷提供了良好的思路。
地址:無(wú)錫市梁溪區(qū)南湖大道飛宏路58-1-108
電話:13810664973
郵箱:info@dualix.com.cn
地址:北京市海淀區(qū)中關(guān)村大街19號(hào)
電話:13810664973
郵箱:info@dualix.com.cn
地址:陜西省西安市高新區(qū)科技一路40號(hào)盛方科技園B座三層?xùn)|區(qū)
電話:13810664973
郵箱:info@dualix.com.cn
地址:成都市青羊區(qū)順城大街206號(hào)四川國(guó)際大廈七樓G座
電話:13810664973
郵箱:info@dualix.com.cn