
分享:基于Apriori算法的失效分析案例文本挖掘方法
失效分析是對(duì)產(chǎn)品故障進(jìn)行系統(tǒng)化分析和研究的過程,涉及工程學(xué)、材料科學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域[1]。失效分析工程師通過對(duì)失效部件的服役環(huán)境、工藝類型及斷口特征等多種關(guān)鍵因素進(jìn)行綜合分析,找到失效的根本原因,并制定有效的預(yù)防和改進(jìn)措施[2]。有效的失效分析對(duì)提高產(chǎn)品的可靠性和安全性具有重要意義,其廣泛應(yīng)用于航空、航天、航海、汽車制造、電子設(shè)備和醫(yī)療器械等多個(gè)領(lǐng)域。近年來,對(duì)產(chǎn)品的可靠性要求日益提高,同時(shí)產(chǎn)品的功能、結(jié)構(gòu)、受力、服役環(huán)境等越來越復(fù)雜,傳統(tǒng)的人工失效分析方法難以從大量數(shù)據(jù)中找到失效的關(guān)鍵因素,以及因素間的耦合關(guān)系,且人工法受專家經(jīng)驗(yàn)的影響較大[3],分析過程須耗費(fèi)大量精力。
為了應(yīng)對(duì)失效分析不斷增大的復(fù)雜性,自然語言處理和數(shù)據(jù)挖掘等技術(shù)成為提高失效原因診斷效率的有效手段,近年來該技術(shù)在失效分析領(lǐng)域得到廣泛應(yīng)用。隨著失效分析工作的逐年開展,失效分析案例逐漸增多,蘊(yùn)含的數(shù)據(jù)價(jià)值不斷顯現(xiàn)。應(yīng)用自然語言處理技術(shù)對(duì)大量失效分析文檔進(jìn)行文本挖掘,提取文本特征,并結(jié)合各類數(shù)據(jù)挖掘方法對(duì)文本特征進(jìn)行分析,對(duì)識(shí)別失效模式和潛在失效風(fēng)險(xiǎn)等極具應(yīng)用價(jià)值[4]。LIU等[5]應(yīng)用自然語言處理技術(shù)對(duì)管道事故敘述文本數(shù)據(jù)進(jìn)行文本挖掘,并結(jié)合K-means聚類分析方法,識(shí)別造成管道事故的影響因素,為管道系統(tǒng)的維護(hù)和安全管理提供了科學(xué)依據(jù)。HALIM等[6]綜合分析了多個(gè)管道事故數(shù)據(jù)庫,開發(fā)了一種基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的因果模型,揭示了不同因素之間的復(fù)雜關(guān)系,研究成果在提高管道事故風(fēng)險(xiǎn)預(yù)測(cè)準(zhǔn)確性等方面具有重要作用。CHOKOR等[7]對(duì)建筑領(lǐng)域大量事故報(bào)告進(jìn)行文本挖掘,采用聚類分析方法對(duì)建筑事故報(bào)告類別進(jìn)行劃分,提高了事故報(bào)告的處理效率。楊曉等[8]設(shè)計(jì)并建立了船舶系統(tǒng)典型材料失效分析案例數(shù)據(jù)庫,通過對(duì)船舶系統(tǒng)失效案例的多層級(jí)分類,提高了失效分析工程師獲取信息的效率。
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中的重要研究課題之一,其在發(fā)現(xiàn)事物間隱藏關(guān)聯(lián)關(guān)系的數(shù)據(jù)挖掘場(chǎng)景下具有良好的表現(xiàn)。失效原因排查及診斷過程涉及的失效因素種類多,各因素間相互影響[9]。應(yīng)用關(guān)聯(lián)規(guī)則對(duì)失效分析案例數(shù)據(jù)進(jìn)行分析、挖掘,形成失效分析關(guān)聯(lián)知識(shí)并保存,對(duì)產(chǎn)品失效原因的推理具有重要意義。
然而,自然語言處理和數(shù)據(jù)挖掘等技術(shù)在失效分析領(lǐng)域起步較晚,且聚焦在具體的領(lǐng)域,如管道事故、換流站故障[10],以及軌道電路故障等,缺少可以覆蓋不同類型應(yīng)用場(chǎng)景的統(tǒng)一模型框架,且現(xiàn)有研究對(duì)失效文本的挖掘方法通常為聚類分析、神經(jīng)網(wǎng)絡(luò)等,這些方法對(duì)分析結(jié)果的可解釋性較差,不利于對(duì)產(chǎn)品失效原因進(jìn)行推理[11]。與此同時(shí),現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘研究大多與算法效率提升有關(guān),較少研究失效案例分析與應(yīng)用的改進(jìn)方法[12]。因此,在失效分析領(lǐng)域,如何根據(jù)失效案例數(shù)據(jù)的實(shí)際特點(diǎn)及結(jié)構(gòu),結(jié)合自然語言處理技術(shù),應(yīng)用關(guān)聯(lián)規(guī)則挖掘方法實(shí)現(xiàn)失效分析案例的分析挖掘,建立失效因素關(guān)聯(lián)路徑,輔助提高失效原因排查的效率、準(zhǔn)確性,成為亟待解決的問題。
針對(duì)在復(fù)雜應(yīng)用場(chǎng)景下,傳統(tǒng)失效分析技術(shù)難以在大量數(shù)據(jù)中發(fā)現(xiàn)失效因素和失效原因間潛在關(guān)系的問題,筆者提出了一種結(jié)合自然語言處理技術(shù)、關(guān)聯(lián)規(guī)則挖掘算法的失效分析案例文本挖掘方法,同時(shí)發(fā)明了基于Apriori算法的兩階段失效分析案例文本關(guān)聯(lián)規(guī)則挖掘方法,建立了失效分析案例文本挖掘方法框架;對(duì)某船舶單位的失效案例文本進(jìn)行了有效驗(yàn)證,研究結(jié)果對(duì)產(chǎn)品失效原因診斷和故障作用機(jī)制解釋方面具有重要的輔助借鑒作用。
1. 基于Apriori算法的失效分析案例文本挖掘方法框架設(shè)計(jì)
結(jié)合失效分析工程師的實(shí)際工作過程、失效分析案例的數(shù)據(jù)特征及其結(jié)構(gòu),提出失效分析案例挖掘方法(見圖1)。該方法用于提取失效因素、失效模式,以及失效原因間的關(guān)聯(lián)規(guī)則,挖掘失效因素至失效原因間的傳播路徑,可為現(xiàn)場(chǎng)設(shè)備失效分析輔助診斷及預(yù)防提供決策支持。
首先,對(duì)失效分析案例文本數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)合構(gòu)建的失效分析行業(yè)領(lǐng)域的專業(yè)詞典,采用分詞處理方法初步去除無意義詞項(xiàng),得到分詞處理后的失效分析案例文本數(shù)據(jù)。其次,對(duì)于分詞處理后的失效分析案例文本數(shù)據(jù),基于TF(詞頻)-IDF(逆文檔頻率)算法進(jìn)行文本特征提取,轉(zhuǎn)換為詞項(xiàng)文本矩陣,獲取案例文本的關(guān)鍵詞及其對(duì)應(yīng)的權(quán)重。然后,基于Apriori算法分兩個(gè)階段對(duì)詞項(xiàng)文本矩陣進(jìn)行關(guān)聯(lián)分析,挖掘頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則。最后,基于失效分析案例文本關(guān)聯(lián)分析結(jié)果,建立失效因素及失效原因間的傳播路徑,輔助失效分析人員現(xiàn)場(chǎng)診斷。
1.1 失效分析案例數(shù)據(jù)特征
構(gòu)件的失效是多種因素共同或耦合作用的結(jié)果[13],因此案例中對(duì)失效原因的描述涉及多種類型的因素,且不同案例中同一類型失效原因相關(guān)聯(lián)的因素特征不盡相同。
結(jié)合失效分析領(lǐng)域?qū)I(yè)知識(shí)及失效原因排查分析邏輯,對(duì)失效分析案例的知識(shí)結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化,建立“失效因素-失效模式-失效原因”三級(jí)知識(shí)結(jié)構(gòu)(見圖2)。其中,失效模式可由一組失效因素確定,基于確定的失效模式,結(jié)合其他失效因素的特征,可推斷出構(gòu)件的失效原因。不同失效案例涉及的失效因素、失效模式、失效原因不同。
為了減小失效案例文本記錄不規(guī)范及同義詞對(duì)特征提取的影響,降低文本表示后的特征向量維度,提高關(guān)聯(lián)規(guī)則挖掘質(zhì)量,筆者結(jié)合各類構(gòu)件的失效案例,對(duì)其失效因素、失效模式、失效原因3個(gè)類別下的具體特征進(jìn)行標(biāo)準(zhǔn)化特征分類,結(jié)果如表1所示。
類型 | 變量 | 標(biāo)準(zhǔn)化特征分類 |
---|---|---|
失效因素 | waj | 組織特征、斷口特征、材料類型、使用工況、失效位置、設(shè)備功能類型、零件名稱、所屬行業(yè)等 |
失效模式 | wbj | 變形失效、磨損失效、腐蝕失效、斷裂失效等 |
失效原因 | wcj | 設(shè)計(jì)原因、制造原因、使用原因、材料原因、工況原因、環(huán)境原因、維護(hù)原因、裝配原因等 |
以失效因素為例,部分標(biāo)準(zhǔn)化的特征名稱如表2所示。
分類 | 變量 | 標(biāo)準(zhǔn)化名稱 |
---|---|---|
組織特征 | wa11 | 雜質(zhì)相 |
wa12 | 馬氏體 | |
wa1j | 內(nèi)氧化 | |
使用工況 | wa31 | 酸堿介質(zhì) |
wa32 | 高溫 | |
wa3j | 高壓 | |
斷口特征 | wa21 | 貝紋線 |
wa22 | 人字紋 | |
wa2j | 泥瓦狀 | |
零件名稱 | wa41 | 萬向節(jié) |
wa42 | 螺栓 | |
wa4j | 受電弓 |
1.2 失效分析案例文本預(yù)處理
針對(duì)失效分析案例文本特點(diǎn),主要進(jìn)行以下預(yù)處理工作。
(1)文本清洗。通過分析失效分析案例文本結(jié)構(gòu),發(fā)現(xiàn)案例一般由前言、背景、來樣情況、試驗(yàn)儀器、試驗(yàn)結(jié)果(宏觀分析、微觀分析、化學(xué)成分分析及力學(xué)性能測(cè)試等)、分析與討論、結(jié)論等部分組成,各部分內(nèi)容具有半結(jié)構(gòu)化的特點(diǎn),人工編寫正則表達(dá)式,對(duì)其進(jìn)行清理,例如來樣情況的提取,范式為:\n\d{0,1}.{0,3}( :來樣|前言|背景).+\n2.{0,4}\n。
(2)文本分詞及去停用詞??紤]到失效分析案例文本包含大量專業(yè)詞匯,為避免專業(yè)詞匯無法被準(zhǔn)確識(shí)別導(dǎo)致的分詞結(jié)果不滿足后續(xù)文本挖掘需求情況,構(gòu)建失效分析專業(yè)詞庫及停用詞詞庫(見圖3)。其中失效分析專業(yè)詞庫主要包含各專業(yè)部門設(shè)備名稱及專業(yè)術(shù)語,通用詞庫包含了用于去除文本中無意義項(xiàng)的停用詞庫及語義詞庫。
1.3 失效分析案例特征表示與提取
基于失效分析案例文本的分詞結(jié)果,應(yīng)用TF-IDF算法進(jìn)行文本特征提取,建立失效分析案例文本特征向量。
1.3.1 案例文本特征表示
失效分析案例可被表示為一個(gè)規(guī)范化的特征向量,該特征向量由特征項(xiàng)及其對(duì)應(yīng)的權(quán)重構(gòu)成,其計(jì)算方法如式(1)所示。
(1) |
式中:wi為文檔d的特征項(xiàng),i=1,2,3,…;n為特征項(xiàng)的數(shù)量;αi為特征項(xiàng)wi在文檔d中的權(quán)重。
其中需要注意的是,對(duì)于失效案例文本,特征項(xiàng)wi由失效因素集A、失效模式集B、失效原因集C構(gòu)成,其計(jì)算方法如式(2)所示。
(2) |
式中:waj∈A,wbj∈B,wcj∈C,j=1,2,3,…;m為常量;k為常量。
對(duì)于構(gòu)成失效分析案例文本特征向量的特征項(xiàng),關(guān)注失效因素、失效模式與失效原因在每篇文檔中的權(quán)重表現(xiàn),其中失效原因和失效模式在每篇案例中是二值變量,權(quán)值為{0,1},即當(dāng)該案例的失效原因?yàn)?/span>wcq時(shí),該特征項(xiàng)對(duì)應(yīng)的權(quán)值計(jì)算方法如式(3)所示。
(3) |
式中:q為常量。
失效模式集B中的特征項(xiàng)權(quán)值取值原則與失效原因相同。
1.3.2 案例文本特征提取
對(duì)于構(gòu)成失效分析案例特征項(xiàng)的失效因素集,其對(duì)應(yīng)的權(quán)值可采用TF-IDF方法獲得。傳統(tǒng)TF-IDF包含詞頻和逆文檔頻率兩部分,該方法得到的TI值越大,說明詞項(xiàng)攜帶的信息量越大,對(duì)于所在文本可認(rèn)為該詞項(xiàng)越關(guān)鍵,因此所有詞項(xiàng)及其TI值可構(gòu)成所在文檔特征向量。
傳統(tǒng)TF-IDF方法是以所有案例文本為基數(shù)計(jì)算逆文檔頻率I,然而對(duì)于不同失效模式,各失效因素對(duì)其影響的程度不同,以所有案例文本為基數(shù)計(jì)算各失效因素的I值無法體現(xiàn)其在某種失效模式下的重要性。因此對(duì)于失效分析案例,首先按失效模式對(duì)文檔進(jìn)行分類,分別計(jì)算在不同失效模式下失效因素的TI值,將其作為其在每篇文檔中的權(quán)值,計(jì)算方法如式(4)所示。
(4) |
式中:T(i,j)為文本j中第i個(gè)詞的詞頻,反映詞語在某文檔中的出現(xiàn)頻率,出現(xiàn)頻率越高,其值越大;I(ib)為第i個(gè)詞在失效模式為b的案例集中的逆文檔頻率,反映是否對(duì)文檔具有區(qū)分性,詞語在不同文檔中出現(xiàn)的次數(shù)越多,I值越小。
I值的計(jì)算方法如式(5)所示。
(5) |
式中:nb為失效模式b的案例集中文本總數(shù);D(ib)為失效模式b的案例集中包含詞i的文本數(shù)。
1.4 關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘最為關(guān)鍵的分支之一,關(guān)聯(lián)規(guī)則挖掘是指在大量的數(shù)據(jù)集中識(shí)別和挖掘出事物間隱含的關(guān)聯(lián)關(guān)系及依存規(guī)律[14]。通過對(duì)歷史失效分析案例的挖掘,可以進(jìn)一步發(fā)現(xiàn)失效因素、失效模式,以及失效原因之間的關(guān)聯(lián)關(guān)系,輔助分析失效因素與失效原因之間的傳播路徑,實(shí)現(xiàn)產(chǎn)品失效原因推理的解耦。
常見的關(guān)聯(lián)規(guī)則挖掘算法包括Apriori、FP-Growth及Eclat等。其中,Apriori算法是最常見的基于頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘算法,其遞歸地生成候選項(xiàng)集,并利用剪枝策略來減少計(jì)算量[15]。相較于其他關(guān)聯(lián)規(guī)則算法,Apriori算法簡(jiǎn)單易懂,且適合于中小型數(shù)據(jù)集或?qū)山忉屝砸筝^高的應(yīng)用場(chǎng)景。因此,考慮到失效分析案例挖掘數(shù)據(jù)規(guī)模和關(guān)聯(lián)路徑解耦的應(yīng)用需求,筆者采用Apriori算法實(shí)現(xiàn)對(duì)失效分析案例的分析挖掘。
2. 基于Apriori算法的失效分析案例文本挖掘方法優(yōu)化與工程應(yīng)用
基于失效分析案例文本挖掘方法框架,結(jié)合失效分析實(shí)際應(yīng)用場(chǎng)景,提出了基于Apriori算法的兩階段失效分析文本關(guān)聯(lián)規(guī)則挖掘方法,并以某船舶單位的失效分析案例為應(yīng)用場(chǎng)景,對(duì)該方法進(jìn)行了應(yīng)用驗(yàn)證。
2.1 兩階段失效分析文本關(guān)聯(lián)規(guī)則挖掘方法
由失效原因、失效模式、失效因素及其對(duì)應(yīng)權(quán)重構(gòu)成的失效分析案例特征矩陣具有高維、稀疏的數(shù)據(jù)特征,直接應(yīng)用Apriori算法對(duì)其進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘出的關(guān)聯(lián)規(guī)則多為本身即具有強(qiáng)關(guān)聯(lián)特性的失效分析領(lǐng)域知識(shí),如關(guān)聯(lián)規(guī)則“疲勞裂紋→疲勞斷裂”,不能挖掘出更多潛在的關(guān)聯(lián)關(guān)系。因此,結(jié)合實(shí)際的失效分析問題排查邏輯,基于“失效因素-失效模式-失效原因”三級(jí)的知識(shí)結(jié)構(gòu),可以分兩個(gè)階段對(duì)失效分析詞項(xiàng)文本矩陣進(jìn)行頻繁集檢索,實(shí)現(xiàn)降低每個(gè)階段特征維度,提高挖掘效果。
建立了兩階段失效分析文本關(guān)聯(lián)規(guī)則挖掘方法,通過“失效因素→失效模式”關(guān)聯(lián)規(guī)則挖掘、“失效模式+失效因素→失效原因”關(guān)聯(lián)規(guī)則挖掘兩個(gè)階段,對(duì)失效分析文本特征矩陣進(jìn)行關(guān)聯(lián)規(guī)則分析,輔助挖掘建立失效因素和失效原因間的傳播路徑。
2.1.1 “失效因素→失效模式”關(guān)聯(lián)規(guī)則挖掘
步驟1:按失效模式對(duì)失效分析文本進(jìn)行分組,分別計(jì)算各失效因素在不同分組下的I值,以及各失效因素在不同文本中的I值,得到不同失效模式下各失效文本中失效因素的TI值,將其作為各文本的特征向量。
步驟2:對(duì)于獲得的不同失效模式下各文本的失效因素特征值矩陣,對(duì)其進(jìn)行二值化處理,即設(shè)定特征閾值αmin,當(dāng)失效因素特征值αi>αmin時(shí),特征值α1取為1;當(dāng)失效因素特征值αi<αmin時(shí),特征值α1取為0。
步驟3:設(shè)定支持度閾值Smin,應(yīng)用Apriori算法分別挖掘各失效模式下頻繁項(xiàng)集及其支持度。其中,頻繁項(xiàng)集是失效因素集合的子集。
步驟4:對(duì)于步驟3生成的頻繁失效因素集,計(jì)算各失效模式下,頻繁失效因素集的置信度,即失效因素集中所有失效因素發(fā)生時(shí),該失效模式發(fā)生的概率。設(shè)定置信度閾值Cmin,置信度大于Cmin的失效因素集與失效模式構(gòu)成一組強(qiáng)關(guān)聯(lián)規(guī)則,即關(guān)聯(lián)規(guī)則為失效因素集→失效模式。
2.1.2 “失效模式+失效因素→失效原因”關(guān)聯(lián)規(guī)則挖掘
步驟1:對(duì)于各失效模式,建立剩余失效分析特征矩陣,該矩陣元素由剩余失效因素集、失效原因集及對(duì)應(yīng)權(quán)重構(gòu)成。其中,剩余失效因素集為失效因素全集與該失效模式的頻繁失效因素集的差集。
步驟2:設(shè)定支持度閾值Smin,應(yīng)用Apriori算法分別挖掘剩余失效分析特征矩陣中的頻繁項(xiàng)集及其支持度。其中,頻繁項(xiàng)集由3個(gè)部分組成,即{失效模式wa,剩余失效因素集Bothers,失效原因wc}。
步驟3:對(duì)于步驟2生成的頻繁項(xiàng)集,計(jì)算失效模式與剩余失效因素集對(duì)于失效原因的置信度,即在失效模式wa下,特定剩余失效因素Bothers發(fā)生時(shí),構(gòu)件的失效原因是wc的概率。設(shè)定置信度閾值Cmin,置信度大于Cmin的失效因素集與失效模式構(gòu)成一組強(qiáng)關(guān)聯(lián)規(guī)則,即關(guān)聯(lián)規(guī)則為{失效模式wa,剩余失效因素集Bothers}→失效原因wc。
基于“失效因素→失效模式”關(guān)聯(lián)規(guī)則挖掘、“失效模式+失效因素→失效原因”關(guān)聯(lián)規(guī)則挖掘兩個(gè)階段生成的關(guān)聯(lián)規(guī)則,可繪制失效因素-失效模式-失效原因影響路徑及權(quán)重的可視化圖,輔助進(jìn)行失效原因診斷。
2.2 工業(yè)應(yīng)用場(chǎng)景
分析數(shù)據(jù)來源于某船舶公司2016—2024年的失效案例文本。由于失效原因、失效模式及失效元素涉及范圍較廣,筆者僅以失效模式為疲勞斷裂的554個(gè)失效分析案例為例,進(jìn)行關(guān)聯(lián)規(guī)則挖掘。試驗(yàn)?zāi)P筒捎肞ython3.2語言及scikit-learn庫實(shí)現(xiàn)。
首先,對(duì)失效分析案例數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,建立包含表1和表2內(nèi)容的失效分析特征分類和特征標(biāo)準(zhǔn)化的專業(yè)詞庫,詞庫包含16個(gè)特征分類,以及184個(gè)標(biāo)準(zhǔn)化特征,結(jié)果如表3所示。
類型 | 特征分類 | 特征數(shù)量/個(gè) | 類型 | 特征分類 | 特征數(shù)量/個(gè) |
---|---|---|---|---|---|
失效因素 | 組織特征 | 13 | 失效模式 | 變形失效 | 3 |
斷口特征 | 27 | 磨損失效 | 7 | ||
材料類型 | 8 | 腐蝕失效 | 13 | ||
使用工況 | 9 | 斷裂失效 | 6 | ||
失效位置 | 7 | 失效原因 | 設(shè)計(jì)原因 | 3 | |
設(shè)備功能類型 | 6 | 制造原因 | 6 | ||
零件名稱 | 45 | 使用原因 | 8 | ||
所屬行業(yè) | 13 | 其他原因 | 10 |
基于以上標(biāo)準(zhǔn)化詞庫,使用正則表達(dá)式對(duì)失效分析案例文本進(jìn)行提取、分詞,并對(duì)分詞后的失效分析案例文本數(shù)據(jù),應(yīng)用TF-IDF算法進(jìn)行文本特征提取,獲得疲勞斷裂失效模式下各案例文本的詞項(xiàng)文本矩陣,獲取各失效因素在不同案例文本中的特征權(quán)重。
基于權(quán)重矩陣,使用前述基于Apriori算法的兩階段失效分析文本關(guān)聯(lián)規(guī)則挖掘方法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。進(jìn)行挖掘前,需要設(shè)定合適的最小支持度,其設(shè)定值關(guān)系到挖掘得到的關(guān)聯(lián)規(guī)則是否具有實(shí)際意義和應(yīng)用效果。選擇最小支持度有多種方法,采用以項(xiàng)集平均支持度為基準(zhǔn),在支持度標(biāo)準(zhǔn)偏差允許的范圍內(nèi),通過若干次最小值支持度閾值調(diào)整的方法,選擇能得到適中頻繁項(xiàng)集的結(jié)果[16]。
對(duì)于第一階段“失效因素→失效模式”關(guān)聯(lián)規(guī)則挖掘,在本算例中首先將特征閾值αmin設(shè)定為0.01,對(duì)特征矩陣進(jìn)行二值化處理,并將最小支持度Smin設(shè)定為0.025,最小置信度Cmin設(shè)定為0.35,對(duì)二值化處理后的特征矩陣進(jìn)行關(guān)聯(lián)規(guī)則挖掘,并篩選出后項(xiàng)中各個(gè)狀態(tài)置信度最高的“失效因素-失效模式”強(qiáng)關(guān)聯(lián)規(guī)則,結(jié)果如表4所示。
規(guī)則 | 前項(xiàng) | 后項(xiàng) | 支持度 | 置信度 | 規(guī)則 | 前項(xiàng) | 后項(xiàng) | 支持度 | 置信度 |
---|---|---|---|---|---|---|---|---|---|
1 | 疲勞裂紋 | 疲勞斷裂 | 0.169 6 | 0.691 1 | 13 | 螺紋 | 疲勞斷裂 | 0.052 3 | 0.475 4 |
2 | 夾雜物 | 0.135 3 | 0.348 8 | 14 | 氧化 | 0.052 3 | 0.625 0 | ||
3 | 疲勞輝紋 | 0.131 7 | 0.708 7 | 15 | 二次裂紋 | 0.054 1 | 0.468 7 | ||
4 | 貝紋線 | 0.122 7 | 0.723 4 | 16 | 鐵素體 | 0.046 9 | 0.424 2 | ||
5 | 柴油機(jī) | 0.115 5 | 0.551 7 | 17 | 機(jī)械損傷 | 0.043 3 | 0.545 4 | ||
6 | 多源特征 | 0.110 1 | 0.762 5 | 18 | 回火索氏體 | 0.035 4 | 0.321 4 | ||
7 | 塑性變形 | 0.077 6 | 0.333 3 | 19 | R角 | 0.035 1 | 0.533 3 | ||
8 | 韌窩 | 0.077 6 | 0.346 7 | 20 | 根部,螺紋 | 0.169 6 | 0.894 7 | ||
9 | 螺栓 | 0.064 9 | 0.455 6 | 21 | 合金,疲勞裂紋 | 0.032 4 | 0.857 1 | ||
10 | 彎曲 | 0.063 2 | 0.564 5 | 22 | 合金,貝紋線 | 0.028 8 | 0.888 8 | ||
11 | 線源 | 0.059 5 | 0.647 0 | 23 | 彎曲,疲勞裂紋 | 0.043 3 | 0.705 8 | ||
12 | 磨損 | 0.059 5 | 0.423 0 | 24 | 二次裂紋,疲勞裂紋 | 0.028 8 | 0.739 1 |
對(duì)于得到的“失效因素-失效模式”強(qiáng)關(guān)聯(lián)規(guī)則,以“失效因素-確定-失效模式”三元組為基本組成單位,建立失效分析知識(shí)圖譜。“失效因素-確定-失效模式”知識(shí)圖譜如圖4所示,其中淺色圓形實(shí)體為失效因素,深色圓形實(shí)體為失效模式,箭頭方向及對(duì)應(yīng)權(quán)重代表失效因素發(fā)生時(shí),其對(duì)所指向的失效模式發(fā)生的支持度和置信度。
對(duì)于第二階段“失效模式+失效因素→失效原因”關(guān)聯(lián)規(guī)則挖掘,在本算例中將最小支持度Smin設(shè)定為0.025,最小置信度Cmin設(shè)定為0.35,對(duì)特征矩陣進(jìn)行關(guān)聯(lián)規(guī)則挖掘,并篩選出后項(xiàng)中各個(gè)狀態(tài)置信度最高的“失效模式+失效因素→失效原因”強(qiáng)關(guān)聯(lián)規(guī)則,結(jié)果如表5所示。
規(guī)則 | 前項(xiàng) | 后項(xiàng) | 支持度 | 置信度 |
---|---|---|---|---|
1 | 交變載荷、疲勞斷裂 | 工況原因 | 0.093 8 | 0.753 6 |
2 | 刀痕、疲勞斷裂 | 加工原因 | 0.054 1 | 0.576 9 |
3 | 應(yīng)力集中、疲勞斷裂 | 焊接原因 | 0.060 7 | 0.432 7 |
4 | 應(yīng)力集中、疲勞斷裂 | 結(jié)構(gòu)設(shè)計(jì)原因 | 0.082 4 | 0.325 4 |
5 | 高溫、疲勞斷裂 | 工況原因 | 0.037 9 | 0.656 2 |
6 | 疏松、疲勞斷裂 | 冶金原因 | 0.0703 | 0.371 4 |
7 | 滲碳、疲勞斷裂 | 加工原因 | 0.025 2 | 0.368 4 |
8 | 調(diào)質(zhì)、疲勞斷裂 | 加工原因 | 0.037 9 | 0.353 5 |
9 | 機(jī)械損傷、振動(dòng)、疲勞斷裂 | 工況原因 | 0.035 3 | 0.780 4 |
對(duì)于得到的“失效模式+失效因素→失效原因”強(qiáng)關(guān)聯(lián)規(guī)則,以“失效模式+失效因素-推斷-失效模式”三元組為基本組成單位,在已建立的失效分析知識(shí)圖譜中引入新數(shù)據(jù)、補(bǔ)充實(shí)體關(guān)系和屬性。“失效模式+失效因素-推斷-失效模式”知識(shí)圖譜如圖5所示,其中淺色小圓形實(shí)體為失效因素,深色大圓形實(shí)體為失效模式,深色小圓形代表箭頭關(guān)聯(lián)的失效因素、失效模式的組合;淺色大圓形為失效原因,深色小圓形箭頭方向及對(duì)應(yīng)權(quán)重代表其對(duì)應(yīng)失效因素、失效模式同時(shí)發(fā)生時(shí),對(duì)所指向失效原因發(fā)生的支持度和置信度。
通過上述試驗(yàn),獲得了疲勞斷裂模式下由失效因素、失效模式、失效原因構(gòu)成的頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則,并采用知識(shí)圖譜的方式,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行存儲(chǔ),建立了失效因素及失效原因間的可視化傳播路徑。將失效分析知識(shí)圖譜應(yīng)用于失效原因輔助診斷場(chǎng)景,可輔助產(chǎn)品失效原因推理的解耦,提高診斷效率。
3. 結(jié)論與展望
針對(duì)產(chǎn)品失效分析復(fù)雜性高、分析效率低且過于依賴專家經(jīng)驗(yàn)的問題,應(yīng)用自然語言處理及數(shù)據(jù)挖掘等技術(shù),提出了一種基于Apriori算法的失效分析案例文本挖掘方法,該方法中包含失效分析案例文本預(yù)處理方法、基于TF-IDF算法的失效分析案例文本特征表示模型,以及基于Apriori算法的兩階段失效案例關(guān)聯(lián)分析方法3個(gè)主要部分。該方案通過對(duì)失效案例數(shù)據(jù)的實(shí)際特點(diǎn)及結(jié)構(gòu)進(jìn)行深度分析,并應(yīng)用關(guān)聯(lián)規(guī)則挖掘方法,分兩個(gè)階段實(shí)現(xiàn)了失效因素、失效模式、失效原因間的關(guān)聯(lián)路徑挖掘,建立了一種產(chǎn)品失效原因診斷和故障作用機(jī)制解釋的方法,該方法在輔助提高失效原因排查效率、準(zhǔn)確性方面具有重要作用。
應(yīng)用該方法對(duì)某船舶單位2016—2024年失效分析案例進(jìn)行關(guān)聯(lián)規(guī)則挖掘,建立了失效分析領(lǐng)域標(biāo)準(zhǔn)化特征及疲勞斷裂失效模式下各特征在不同案例下的特征矩陣,并應(yīng)用Apriori算法分兩個(gè)階段挖掘獲得疲勞斷裂模式下由失效因素、失效模式、失效原因構(gòu)成的頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則。將挖掘獲得的關(guān)聯(lián)規(guī)則存儲(chǔ)在知識(shí)圖譜中,建立了失效因素及失效原因間的可視化傳播路徑。該方法對(duì)輔助產(chǎn)品失效原因推理的解耦、提高診斷效率具有良好的技術(shù)支撐作用。
關(guān)聯(lián)規(guī)則挖掘在發(fā)現(xiàn)數(shù)據(jù)中的模式方面具有強(qiáng)大的能力,但存在計(jì)算復(fù)雜度高,不適合處理高維、稀疏數(shù)據(jù)的問題。隨著失效分析案例的逐年增多,為了克服這些缺點(diǎn),未來將結(jié)合神經(jīng)網(wǎng)絡(luò)等方法來提高其效果和效率。
文章來源——材料與測(cè)試網(wǎng)
“推薦閱讀”
【責(zé)任編輯】:國(guó)檢檢測(cè)版權(quán)所有:轉(zhuǎn)載請(qǐng)注明出處