0 引言
中國(guó)是一個(gè)制造大國(guó),每天都要生產(chǎn)大量的工業(yè)產(chǎn)品。用戶和生產(chǎn)企業(yè)對(duì)產(chǎn)品質(zhì)量的要求越來越高,除要求滿足使用性能外,還要有良好的外觀,即良好的表面質(zhì)量。但是,在制造產(chǎn)品的過程中,表面缺陷的產(chǎn)生往往是不可避免的。不同產(chǎn)品的表面缺陷有著不同的定義和類型,一般而言表面缺陷是產(chǎn)品表面局部物理或化學(xué)性質(zhì)不均勻的區(qū)域,如金屬表面的劃痕、斑點(diǎn)、孔洞,紙張表面的色差、壓痕,玻璃等非金屬表面的夾雜、破損、污點(diǎn),等等。表面缺陷不僅影響產(chǎn)品的美觀和舒適度,而且一般也會(huì)對(duì)其使用性能帶來不良影響,所以生產(chǎn)企業(yè)對(duì)產(chǎn)品的表面缺陷檢測(cè)非常重視,以便及時(shí)發(fā)現(xiàn),從而有效控制產(chǎn)品質(zhì)量,還可以根據(jù)檢測(cè)結(jié)果分析生產(chǎn)工藝中存在的某些問題,從而杜絕或減少缺陷品的產(chǎn)生,同時(shí)防止?jié)撛诘馁Q(mào)易糾份,維護(hù)企業(yè)榮譽(yù)。
人工檢測(cè)是產(chǎn)品表面缺陷的傳統(tǒng)檢測(cè)方法,該方法抽檢率低、準(zhǔn)確性不高、實(shí)時(shí)性差、效率低、勞動(dòng)強(qiáng)度大、受人工經(jīng)驗(yàn)和主觀因素的影響大,而基于機(jī)器視覺的檢測(cè)方法可以很大程度上克服上述弊端。
美國(guó)機(jī)器人工業(yè)協(xié)會(huì)(RIA)對(duì)機(jī)器視覺下的定義為:“機(jī)器視覺是通過光學(xué)的裝置和非接觸的傳感器自動(dòng)地接收和處理一個(gè)真實(shí)物體的圖像,以獲得所需信息或用于控制機(jī)器人運(yùn)動(dòng)的裝置”[1]。
機(jī)器視覺是一種無接觸、無損傷的自動(dòng)檢測(cè)技術(shù),是實(shí)現(xiàn)設(shè)備自動(dòng)化、智能化和精密控制的有效手段,具有安全可靠、光譜響應(yīng)范圍寬、可在惡劣環(huán)境下長(zhǎng)時(shí)間工作和生產(chǎn)效率高等突出優(yōu)點(diǎn)。機(jī)器視覺檢測(cè)系統(tǒng)通過適當(dāng)?shù)墓庠春蛨D像傳感器(CCD攝像機(jī))獲取產(chǎn)品的表面圖像,利用相應(yīng)的圖像處理算法提取圖像的特征信息,然后根據(jù)特征信息進(jìn)行表面缺陷的定位、識(shí)別、分級(jí)等判別和統(tǒng)計(jì)、存儲(chǔ)、查詢等操作;
視覺表面缺陷檢測(cè)系統(tǒng)基本組成主要包括圖像獲取模塊、圖像處理模塊、圖像分析模塊、數(shù)據(jù)管理及人機(jī)接口模塊。
圖像獲取模塊由CCD攝像機(jī)、光學(xué)鏡頭、光源及其夾持裝置等組成,其功能是完成產(chǎn)品表面圖像的采集。在光源的照明下,通過光學(xué)鏡頭將產(chǎn)品表面成像于相機(jī)傳感器上,光信號(hào)先轉(zhuǎn)換成電信號(hào),進(jìn)而轉(zhuǎn)換成計(jì)算機(jī)能處理的數(shù)字信號(hào)。目前工業(yè)用相機(jī)主要基于CCD或CMOS(complementary metal oxide semiconductor)芯片的相機(jī)。CCD是目前機(jī)器視覺最為常用的圖像傳感器。
光源直接影響到圖像的質(zhì)量,其作用是克服環(huán)境光干擾,保證圖像的穩(wěn)定性,獲得對(duì)比度盡可能高的圖像。目前常用的光源有鹵素?zé)?、熒光燈和發(fā)光二級(jí)管(LED)。LED光源以體積小、功耗低、響應(yīng)速度快、發(fā)光單色性好、可靠性高、光均勻穩(wěn)定、易集成等優(yōu)點(diǎn)獲得了廣泛的應(yīng)用。
由光源構(gòu)成的照明系統(tǒng)按其照射方法可分為明場(chǎng)照明與暗場(chǎng)照明、結(jié)構(gòu)光照明與頻閃光照明。明場(chǎng)與暗場(chǎng)主要描述相機(jī)與光源的位置關(guān)系,明場(chǎng)照明指相機(jī)直接接收光源在目標(biāo)上的反射光,一般相機(jī)與光源異側(cè)分布,這種方式便于安裝;暗場(chǎng)照明指相機(jī)間接接收光源在目標(biāo)上的散射光,一般相機(jī)與光源同側(cè)分布,它的優(yōu)點(diǎn)是能獲得高對(duì)比度的圖像。結(jié)構(gòu)光照明是將光柵或線光源等投射到被測(cè)物上,根據(jù)它們產(chǎn)生的畸變,解調(diào)出被測(cè)物的3維信息。頻閃光照明是將高頻率的光脈沖照射到物體上,攝像機(jī)拍攝要求與光源同步。
圖像處理模塊主要涉及圖像去噪、圖像增強(qiáng)與復(fù)原、缺陷的檢測(cè)和目標(biāo)分割。
由于現(xiàn)場(chǎng)環(huán)境、CCD圖像光電轉(zhuǎn)換、傳輸電路及電子元件都會(huì)使圖像產(chǎn)生噪聲,這些噪聲降低了圖像的質(zhì)量從而對(duì)圖像的處理和分析帶來不良影響,所以要對(duì)圖像進(jìn)行預(yù)處理以去噪。圖像增強(qiáng)目是針對(duì)給定圖像的應(yīng)用場(chǎng)合,有目的地強(qiáng)調(diào)圖像的整體或局部特性,將原來不清晰的圖像變得清晰或強(qiáng)調(diào)某些感興趣的特征,擴(kuò)大圖像中不同物體特征之間的差別,抑制不感興趣的特征,使之改善圖像質(zhì)量、豐富信息量,加強(qiáng)圖像判讀和識(shí)別效果的圖像處理方法。圖像復(fù)原是通過計(jì)算機(jī)處理,對(duì)質(zhì)量下降的圖像加以重建或復(fù)原的處理過程。圖像復(fù)原很多時(shí)候采用與圖像增強(qiáng)同樣的方法,但圖像增強(qiáng)的結(jié)果還需要下一階段來驗(yàn)證;而圖像復(fù)原試圖利用退化過程的先驗(yàn)知識(shí),來恢復(fù)已被退化圖像的本來面目,如加性噪聲的消除、運(yùn)動(dòng)模糊的復(fù)原等。圖像分割的目的是把圖像中目標(biāo)區(qū)域分割出來,以便進(jìn)行下一步的處理。
圖像分析模塊主要涉及特征提取、特征選擇和圖像識(shí)別。
特征提取的作用是從圖像像素中提取可以描述目標(biāo)特性的表達(dá)量,把不同目標(biāo)間的差異映射到低維的特征空間,從而有利于壓縮數(shù)據(jù)量、提高識(shí)別率。表面缺陷檢測(cè)通常提取的特征有紋理特征、幾何形狀特征、顏色特征、變換系數(shù)特征等,用這些多信息融合的特征向量來區(qū)可靠地區(qū)分不同類型的缺陷;這些特征之間一般存在冗余信息,即并不能保證特征集是最優(yōu)的,好的特征集應(yīng)具備簡(jiǎn)約性和魯棒性,為此,還需要進(jìn)一步從特征集中選擇更有利于分類的特征,即特征的選擇。圖像識(shí)別主要根據(jù)提取的特征集來訓(xùn)練分類器,使其對(duì)表面缺陷類型進(jìn)行正確的分類識(shí)別。
數(shù)據(jù)管理及人機(jī)接口模塊可在顯示器上立即顯示缺陷類型、位置、形狀、大小,對(duì)圖像進(jìn)行存儲(chǔ)、查詢、統(tǒng)計(jì)等。
機(jī)器視覺表面缺陷檢測(cè)主要包括2維檢測(cè)和3維檢測(cè),前者是當(dāng)前的主要表面缺陷檢測(cè)方式,也是本文的著重論述之處。
機(jī)器視覺在工業(yè)檢測(cè)、包裝印刷、食品工業(yè)、航空航天、生物醫(yī)學(xué)工程、軍事科技、智能交通、文字識(shí)別等領(lǐng)域得到了廣泛的應(yīng)用。工業(yè)檢測(cè)領(lǐng)域是機(jī)器視覺應(yīng)用中比重最大的領(lǐng)域,主要用于產(chǎn)品質(zhì)量檢測(cè)、產(chǎn)品分類、產(chǎn)品包裝等,如:零件裝配完整性檢測(cè),裝配尺寸精度檢測(cè),位置/角度測(cè)量,零件識(shí)別,PCB板檢測(cè),印刷品檢測(cè),瓶蓋檢測(cè),玻璃、煙草、棉花檢測(cè),以及指紋、汽車牌照、人臉、條碼等識(shí)別。表面質(zhì)量檢測(cè)系統(tǒng)是工業(yè)檢測(cè)的極其重要的組成部分,機(jī)器視覺表面缺陷檢測(cè)在許多行業(yè)開始應(yīng)用,涉及鋼板[2-4]、玻璃[5-6]、印刷[7-9]、電子[10]、紡織品[11]、零件[12-13]、水果[14]、木材[15-16]、瓷磚[17-19]、鋼軌[20]等多種關(guān)系國(guó)計(jì)民生的行業(yè)和產(chǎn)品。
1 研究現(xiàn)狀、視覺軟件系統(tǒng)和研究平臺(tái)
1.1 研究現(xiàn)狀機(jī)器視覺在金屬(特別是鋼板)表面、紙張等印刷品、紡織品、磁磚、玻璃、木材等表面缺陷檢測(cè)國(guó)內(nèi)外有較多的研究成果,不乏成功應(yīng)用系統(tǒng)和案例。
在鋼板表面缺陷檢測(cè)領(lǐng)域,美國(guó)Westinghouse公司采用線陣CCD攝像機(jī)和高強(qiáng)度的線光源檢測(cè)鋼板表面缺陷,并提出了將明域、暗域及微光域3種照明光路形式組合應(yīng)用于檢測(cè)系統(tǒng)的思路[21]。這些系統(tǒng)可識(shí)別的缺陷種類相對(duì)較少,并且不具備對(duì)周期性缺陷的識(shí)別能力。美國(guó)Cognex公司研制成功了iS-2000自動(dòng)檢測(cè)系統(tǒng)和iLearn自學(xué)習(xí)分類器軟件系統(tǒng)[22]。這兩套系統(tǒng)配合有效改善了傳統(tǒng)自學(xué)習(xí)分類方法在算法執(zhí)行速度、數(shù)據(jù)實(shí)時(shí)吞吐量、樣本訓(xùn)練集規(guī)模及模式特征自動(dòng)選擇等方面的不足;Parsytec公司為韓國(guó)浦項(xiàng)制鐵公司研制了冷軋鋼板表面缺陷檢測(cè)系統(tǒng)HTS,該系統(tǒng)能對(duì)高速運(yùn)動(dòng)的熱軋鋼板表面缺陷進(jìn)行在線自動(dòng)檢測(cè)和分級(jí)的系統(tǒng),在連軋機(jī)和CSP生產(chǎn)線上取得了良好的效果[23];英國(guó)European Electronic System公司研制的EES系統(tǒng)也成功地應(yīng)用于熱連軋環(huán)境下的鋼板質(zhì)量自動(dòng)檢測(cè)[24]。EES系統(tǒng)實(shí)時(shí)地提供高清晰度、高可靠性的鋼板上下表面的缺陷圖像,最終交由操作員進(jìn)行缺陷類型的分類判別。國(guó)內(nèi)北京科技大學(xué)的高效軋制國(guó)家工程研究中心也在進(jìn)行鋼板表面質(zhì)量檢測(cè)系統(tǒng)的研制,對(duì)其常見缺陷類型進(jìn)行了檢測(cè)與識(shí)別,取得了一定的研究成果[25],東北大學(xué)、上海寶鋼集團(tuán)公司、武漢科技大學(xué)等科研院所研究了冷軋鋼板表面缺陷的檢測(cè)系統(tǒng)[26-28],重慶大學(xué)對(duì)高溫連鑄坯表面缺陷進(jìn)行了研究[29]。
在其他領(lǐng)域,視覺表面缺陷檢測(cè)也得到了廣泛的研究和應(yīng)用。文獻(xiàn)[30]對(duì)規(guī)則紋理表面(天然木材、機(jī)械加工表面、紡織面料)的表面缺陷采用傅里葉變換進(jìn)行圖像的復(fù)原,高頻的傅里葉分量對(duì)應(yīng)表面紋理線型,而低頻的傅里葉分量對(duì)應(yīng)表面缺陷區(qū)域。文獻(xiàn)[31]研究了鋁帶連鑄生產(chǎn)中的表面缺陷檢測(cè),通過紅外檢測(cè)提供鋁帶表面溫度的分布情況以評(píng)估鋁帶質(zhì)量,采集鋁帶圖像,進(jìn)行表面缺陷檢測(cè)和分類。文獻(xiàn)[32]將機(jī)器視覺應(yīng)用于集成電路晶片表面缺陷檢測(cè),使用模糊邏輯對(duì)表面凹坑缺陷的不同形狀進(jìn)行分析處理。文獻(xiàn)[33]利用圖像對(duì)鐵軌的表面質(zhì)量進(jìn)行自動(dòng)檢測(cè),車載檢測(cè)系統(tǒng)對(duì)鐵軌的表面質(zhì)量進(jìn)行實(shí)時(shí)檢測(cè)和分類。文獻(xiàn)[34]基于機(jī)器視覺系統(tǒng)對(duì)雞肉包裝前的質(zhì)量檢測(cè),根據(jù)雞肉圖像的顏色信息,采用數(shù)學(xué)形態(tài)學(xué)方法對(duì)潛在的問題區(qū)域進(jìn)行特征提取,然后按預(yù)定義的質(zhì)量問題列表進(jìn)行分類。文獻(xiàn)[35]針對(duì)隨機(jī)紋理的彩色圖像提出了一種利于分水嶺變換的顏色相似性度量,提取了圖像的顏色和紋理特征,實(shí)現(xiàn)了隨機(jī)紋理表面缺陷的自動(dòng)分割和檢測(cè)。文獻(xiàn)[36]采用雙目立體視覺,基于特征立體匹配算法對(duì)掃描電鏡圖像研究了物體的表面深度信息。文獻(xiàn)[37]介紹了一種皮革表面缺陷檢測(cè)的方法,采用OTSU方法進(jìn)行缺陷分割,利用歐式距離聚類法進(jìn)行缺陷分類,在分類聚類時(shí)使用形態(tài)學(xué)算子進(jìn)行腐蝕運(yùn)算,實(shí)驗(yàn)結(jié)果表明了該方法的有效性。文獻(xiàn)[38]對(duì)玻璃缺陷進(jìn)行了識(shí)別,把采集到的缺陷圖像縮放到10×10的大小,然后把這個(gè)100個(gè)像素值作為特征向量,分別運(yùn)用徑向基(RBF)神經(jīng)網(wǎng)絡(luò)和決策樹進(jìn)行識(shí)別;該方法的缺點(diǎn)是不同缺陷縮放后造成部分信息的丟失。文獻(xiàn)[39]研究了一種玻璃缺陷識(shí)別的專家系統(tǒng)(ES),首先需要電子顯微技術(shù)和等離子射線獲得缺陷信息作為知識(shí)庫,對(duì)未知的玻璃缺陷通過搜索知識(shí)庫對(duì)缺陷信息進(jìn)行匹配,選擇最相近的類別作為輸出;該方法的缺點(diǎn)是分類采用貪婪搜索法,匹配速度慢。文獻(xiàn)[40]針對(duì)機(jī)器視覺在產(chǎn)品表面粗糙度的檢測(cè)方法作了描述,首先建立粗糙度的模型,然后以表面的累加偏差作為特征通過神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行等級(jí)劃分,并闡述了不同的ANN模型對(duì)識(shí)別結(jié)果的影響。
1.2 視覺軟件系統(tǒng)機(jī)器視覺軟件系統(tǒng)除具有圖像處理和分析功能外,還應(yīng)具有界面友好、操作簡(jiǎn)單、擴(kuò)展性好、與圖像處理專用硬件兼容等優(yōu)點(diǎn)。國(guó)外視覺檢測(cè)技術(shù)研究開展的較早,已涌現(xiàn)了許多較為成熟的商業(yè)化軟件,應(yīng)該比較多的有HALCON、HexSight、Vision Pro、LEADTOOLS等[41]。
HALCON是德國(guó)MVtec公司開發(fā)的一套完善的標(biāo)準(zhǔn)的機(jī)器視覺算法包,擁有應(yīng)用廣泛的機(jī)器視覺集成開發(fā)環(huán)境維視圖像開發(fā)定制軟件,在歐洲以及日本的工業(yè)界已經(jīng)是公認(rèn)具有最佳效能的Machine Vision軟件。HALCON的image processing library,由一千多個(gè)各自獨(dú)立的函數(shù)和底層的數(shù)據(jù)管理核心構(gòu)成,其函數(shù)庫可以用C,C++,C#,Visual basic和Delphi等多種普通編程語言訪問。HALCON百余種工業(yè)相機(jī)和圖像采集卡提供接口,包括GenlCam,GigE和IIDC 1394。HALCO還具有強(qiáng)大的3維視覺處理能力,另外,自動(dòng)算子并行處理(AOP)技術(shù)是HALCON的一個(gè)獨(dú)特性能。HALCON應(yīng)用范圍涵蓋自動(dòng)化檢測(cè)、醫(yī)學(xué)和生命科學(xué),遙感探測(cè),通訊和監(jiān)控等眾多領(lǐng)域。
Adept公司出品的HexSight是一款高性能的、綜合性的視覺軟件開發(fā)包,它提供了穩(wěn)定、可靠及準(zhǔn)確定位和檢測(cè)零件的機(jī)器視覺底層函數(shù)。HexSight的定位工具是根據(jù)幾何特征、采用輪廓檢測(cè)技術(shù)來識(shí)別對(duì)象和模式。在圖像凌亂、亮度波動(dòng)、圖像模糊和對(duì)象重疊等方面有顯著效果。HexSight能處理自由形狀的對(duì)象,并具有功能強(qiáng)大的去模糊算法。HexSight軟件包含一個(gè)完整的底層機(jī)器視覺函數(shù)庫,可用來建構(gòu)完整的高性能2D機(jī)器視覺系統(tǒng),可利用Visual Basic、Visual C++或Borland Dephi平臺(tái)方便地進(jìn)行二次開發(fā)。其運(yùn)算速度快,在一臺(tái)2 GHz的處理器上尋找和定位一般的零部件不超過10 ms;具有1/40亞像素平移重復(fù)精度和0.05度旋轉(zhuǎn)重復(fù)精度。此外,內(nèi)置的標(biāo)定模塊能矯正畸變、投影誤差和X-Y像素比誤差,完整的檢測(cè)工具包含硬件接口、圖像采集、圖像標(biāo)定、圖像預(yù)處理、幾何定位、顏色檢測(cè)、幾何測(cè)量、Blob分析、清晰度評(píng)價(jià)(自動(dòng)對(duì)焦)、模式匹配、邊緣探測(cè)等多種多樣,開放式體系結(jié)構(gòu),支持DirectShow、DCam,GigE vision等多種通用協(xié)議,幾乎與市面上所有商業(yè)圖像采集卡,以及各種USB、1394以及GigE接口的攝像機(jī)兼容。
Cognex公司的VisionPro是一套基于.Net的視覺工具,適用于包括FireWire和CameraLink在內(nèi)的所有硬件平臺(tái),利用ActiveX控制可快速完成視覺應(yīng)用項(xiàng)目程序的原模型開發(fā),可使用相應(yīng)的Visual Basic、VB.Net、C#或C++搭建出更具個(gè)性化的應(yīng)用程序。
LEADTOOLS在數(shù)碼圖像開發(fā)工具領(lǐng)域中已成為全球領(lǐng)導(dǎo)者之一,是目前功能強(qiáng)大的優(yōu)秀的圖形、圖像處理開發(fā)包,它可以處理各種格式的文件,并包含所有圖形、圖像的處理和轉(zhuǎn)換功能,支持圖形、圖像、多媒體、條形碼、OCR、Internet、DICOM等等,具有各種軟硬件平臺(tái)下的開發(fā)包。
此外,還有Dalsa公司的Sherlock檢測(cè)軟件,日本的OMRON和Keyence,德國(guó)SIEMENS等,這些機(jī)器視覺軟件都能提供完整的表面缺陷檢測(cè)方法。
國(guó)內(nèi)機(jī)器視覺檢測(cè)系統(tǒng)開發(fā)較晚,相關(guān)的企業(yè)主要是代理國(guó)外同類產(chǎn)品,提供視覺檢測(cè)方案和系統(tǒng)集成,其中具有代表性的企業(yè)有凌華科技、大恒圖像、視覺龍、凌云光子、康視達(dá)、OPT、三姆森和微視圖像等。
1.3 視覺硬件平臺(tái)機(jī)器視覺表面質(zhì)量檢測(cè),特別是實(shí)時(shí)檢測(cè),圖像采集的數(shù)據(jù)量大,所以如何提高圖像處理速度顯得十分重要。提高圖像處理速度主要有兩種手段,一是改善和優(yōu)化圖像處理算法,算法既要簡(jiǎn)單快速,又要兼顧實(shí)際效果;二是改善和優(yōu)化實(shí)現(xiàn)算法的手段。目前,實(shí)時(shí)圖像處理采集方案主要為下面幾個(gè)方面[42]。
1) 通用計(jì)算機(jī)網(wǎng)絡(luò)并行處理。這種處理結(jié)構(gòu)采用“多客戶機(jī)+服務(wù)器”的方式,一個(gè)圖像傳感器對(duì)應(yīng)一臺(tái)客戶機(jī),服務(wù)器實(shí)現(xiàn)信息的合成,圖像處理的大部分工作由軟件來完成。該結(jié)構(gòu)雖然比較龐大,但升級(jí)維護(hù)方便、實(shí)時(shí)性較好。
2) 數(shù)字信號(hào)處理器(DSP)。DSP是一種獨(dú)特的微處理器,是以數(shù)字信號(hào)來處理大量信息的器件。其工作原理是將接收到的模擬信號(hào)轉(zhuǎn)換為“0”或“1”的數(shù)字信號(hào),再對(duì)數(shù)字信號(hào)進(jìn)行修改、刪除和強(qiáng)化,并在其他系統(tǒng)芯片中把數(shù)字?jǐn)?shù)據(jù)解譯回模擬數(shù)據(jù)或?qū)嶋H環(huán)境格式,其實(shí)時(shí)運(yùn)行速度遠(yuǎn)遠(yuǎn)超過通用微處理器。但是,DSP的體系仍是串行指令執(zhí)行系統(tǒng),而且只是對(duì)某些固定的運(yùn)算進(jìn)行硬件優(yōu)化,故不能滿足眾多的算法要求。
3) 專用集成電路(ASIC)。ASIC是針對(duì)于某一固定算法或應(yīng)用而專門設(shè)計(jì)的硬件芯片,有很強(qiáng)的實(shí)時(shí)性。但在實(shí)際應(yīng)用中存在開發(fā)周期相對(duì)較長(zhǎng)、成本高、適應(yīng)性和靈活性差等缺點(diǎn)。
4) 現(xiàn)場(chǎng)可編程門陣列(FPGA)。FPGA由多個(gè)可編程的基本邏輯單元組成的一個(gè)2維矩陣,邏輯單元之間以及邏輯單元與I/O單元之間通過可編程連線進(jìn)行連接。FPGA能在設(shè)計(jì)上具有很強(qiáng)的靈活性,集成度、工作速度也在不斷提高,可實(shí)現(xiàn)的功能也越來越強(qiáng);同時(shí)其開發(fā)周期短,系統(tǒng)易于維護(hù)和擴(kuò)展,能夠大大地提高圖像數(shù)據(jù)的處理速度。
實(shí)時(shí)圖像處理系統(tǒng)中,底層的信號(hào)數(shù)據(jù)量大,對(duì)處理速度的要求高,但運(yùn)算結(jié)構(gòu)相對(duì)比較簡(jiǎn)單,適合采用FPGA以硬件方式來實(shí)現(xiàn);高層處理算法的特點(diǎn)是處理的數(shù)據(jù)量相對(duì)較少,但算法和控制結(jié)構(gòu)復(fù)雜,可使用DSP來實(shí)現(xiàn)。所以,可以把二者的優(yōu)點(diǎn)結(jié)合在一起以兼顧實(shí)時(shí)性和靈活性。
USB、串口、并口是計(jì)算機(jī)和外設(shè)進(jìn)行通訊的常用接口,但對(duì)于數(shù)據(jù)量大的圖像來說,串行RS-232協(xié)議難于達(dá)到圖像采集實(shí)時(shí)性要求。USB口即使能滿足所需速度,但要求外設(shè)必須支持USB協(xié)議,而USB協(xié)議與常用工程軟件的接口還不普及。IEEE-1394接口具有廉價(jià),速度快,支持熱拔插,數(shù)據(jù)傳輸速率可擴(kuò)展,標(biāo)準(zhǔn)開放等特點(diǎn),在眾多領(lǐng)域得到了廣泛的應(yīng)用。但隨著數(shù)字圖像采集速度的提高、數(shù)據(jù)量的增大,原有的標(biāo)準(zhǔn)漸難以滿足需求。為了簡(jiǎn)化數(shù)據(jù)的連接,實(shí)現(xiàn)高速、高精度、靈活、簡(jiǎn)單的連接,在National Semiconductor公司等多家相機(jī)制造商共同制定推出了Camera Link標(biāo)準(zhǔn)。Camera Link是專門為數(shù)字?jǐn)z像機(jī)的數(shù)據(jù)傳輸提出的接口標(biāo)準(zhǔn),專為數(shù)字相機(jī)制定的一種圖像數(shù)據(jù)、視頻數(shù)據(jù)控制信號(hào)及相機(jī)控制信號(hào)傳輸?shù)目偩€接口,其最主要特點(diǎn)是采用了低壓差分信號(hào)(LVDS)技術(shù),使攝像機(jī)的數(shù)據(jù)傳輸速率大大提高。
2 表面缺陷檢測(cè)圖像處理和分析算法
2.1 圖像預(yù)處理算法工業(yè)現(xiàn)場(chǎng)采集的圖像通常包含噪聲,圖像預(yù)處理主要目的是減少噪聲,改善圖像的質(zhì)量,使之更適合人眼的觀察或機(jī)器的處理。圖像的預(yù)處理通常包括空域方法和頻域方法,其算法有灰度變換、直方圖均衡、基于空域和頻域的各種濾波算法等,其中直觀的方法是根據(jù)噪聲能量一般集中于高頻,而圖像頻譜則分布于一個(gè)有限區(qū)間的這一特點(diǎn),采用低通濾波方式進(jìn)行去噪,例如滑動(dòng)平均窗濾波器、Wiener線性濾噪器等。上述各種濾波方法中,頻域變換復(fù)雜,運(yùn)算代價(jià)較高;空域?yàn)V波算法采用各種模板對(duì)圖像進(jìn)行卷積運(yùn)算。直接灰度變換法通過對(duì)圖像每一個(gè)像素按照某種函數(shù)進(jìn)行變換后得到增強(qiáng)圖像,變換函數(shù)一般多采用線性函數(shù)、分段線性函數(shù)、指數(shù)函數(shù)、對(duì)數(shù)函數(shù)等,運(yùn)算簡(jiǎn)單,在滿足處理功能的前提下實(shí)時(shí)性也較高。近年來,數(shù)學(xué)形態(tài)學(xué)方法[43-44]、小波方法[45-47]用于圖像的去噪,取得了較好的效果。
2.2 圖像分割算法圖像的分割是把圖像陣列分解成若干個(gè)互不交迭的區(qū)域,每一個(gè)區(qū)域內(nèi)部的某種特性或特征相同或接近,而不同區(qū)域間的圖像特征則有明顯差別。它是由圖像處理到圖像分析的關(guān)鍵步驟?,F(xiàn)有的圖像分割方法主要分為基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。近年來,研究者不斷改進(jìn)原有的圖像分割方法并把其他學(xué)科的一些新理論和新方法用于圖像分割,提出了不少新的分割方法。圖像分割后提取出的目標(biāo)可以用于圖像語義識(shí)別、圖像搜索等領(lǐng)域。
2.2.1 基于區(qū)域的分割算法基于區(qū)域的分割算法包括閾值分割法、區(qū)域生長(zhǎng)法和聚類分割法等。
閾值分割法是一種傳統(tǒng)的圖像分割方法,其基本原理是:通過設(shè)定不同的灰度閾值,把圖像像素點(diǎn)分為若干類。因其實(shí)現(xiàn)簡(jiǎn)單、計(jì)算量小、性能較穩(wěn)定而成為圖像分割中最基本和應(yīng)用最廣泛的分割方法,其中閾值的選取是圖像閾值分割方法中的關(guān)鍵。
關(guān)于閾值的確定方法,目前比較常用的有固定閾值法、自適應(yīng)閾值法、多區(qū)域閾值法等。固定閾值分割算法實(shí)時(shí)性強(qiáng),適用于圖像背景和目標(biāo)灰度值區(qū)別明顯的情況;自適應(yīng)閾值分割算法,適用于目標(biāo)與背景的灰度值區(qū)別不明顯的情況;多區(qū)域閾值法,適用于目標(biāo)與背景在不同區(qū)域區(qū)別較大的情況。
Otsu提出了動(dòng)態(tài)門限方法[48],它以目標(biāo)和背景之間的方差最大來動(dòng)態(tài)地確定圖像分割門限值,但當(dāng)目標(biāo)的相對(duì)面積較小時(shí),此方法性能不佳。Pun和Kapur等人提出了利用最大先驗(yàn)熵選取閾值的方法[49-50],從信息論的角度選擇閾值,在一定程度上克服了上述算法的缺點(diǎn),但當(dāng)圖像背景復(fù)雜時(shí)分割時(shí)容易喪失部分信息,且計(jì)算量較大。
Yen等人提出了利用最大相關(guān)性原則取代常用的最大熵原則來選取閾值的方法[51],以及基于一維或2維直方圖的閾值方法[52-54]、最小誤判概率準(zhǔn)則下的最佳閾值方法[55]在其后也被提出。
區(qū)域生長(zhǎng)法的基本思想是依據(jù)一定的生長(zhǎng)準(zhǔn)則,將若干個(gè)“相似”子區(qū)域聚合成較大的區(qū)域。它首先對(duì)每個(gè)需要分割的區(qū)域找到一個(gè)種子像素作為生長(zhǎng)的起點(diǎn),再將種子像素鄰域中與其具有相同或相似性質(zhì)的像素根據(jù)某種事先確定的準(zhǔn)則合并到種子像素所在的區(qū)域中;將這些新像素當(dāng)作新的種子像素繼續(xù)像上面的操作,直到再?zèng)]有滿足條件的像素可包括進(jìn)來。此法原理簡(jiǎn)單,對(duì)于較均勻的連通目標(biāo)有較好的分割效果;缺點(diǎn)是依賴于初始條件的選取,計(jì)算量較大,不適用于實(shí)時(shí)檢測(cè)。
分裂—合并法也是一種基于區(qū)域的分割算法,其基本思想是:根據(jù)圖像和各區(qū)域的不均勻性,將圖像或區(qū)域分裂成新的子區(qū)域,再將包含相同內(nèi)容的區(qū)域合并成新的較大區(qū)域,最后得到分割圖像。四叉樹分解是一種常用的分裂—合并法,其具體過程是:將圖像分成4塊大小相等的方塊,判斷每個(gè)小塊是否滿足一致性標(biāo)準(zhǔn)(如兩區(qū)域參數(shù)統(tǒng)計(jì)特征結(jié)果相同,等等)。若滿足,則不再分解;若不滿足,則再細(xì)分成四塊,再用細(xì)分塊進(jìn)行一致性標(biāo)準(zhǔn)檢查,直到滿足一致性標(biāo)準(zhǔn),結(jié)果可能包含大小不同的塊。
聚類法進(jìn)行圖像分割是根據(jù)圖像在特征空間的聚集對(duì)特征空間進(jìn)行分割,再映射到原圖像空間得到分割結(jié)果,K均值聚類算法、模糊C均值聚類(FCM)算法[56-57]是常用的聚類算法。
2.2.2 基于邊緣的分割方法基于邊緣的分割方法其實(shí)就是根據(jù)圖像中局部特性的不連續(xù)性而采用某種算法來提取出圖像中的對(duì)象與背景間的交界線。
邊緣處像素的灰度值不連續(xù),這種不連續(xù)性可通過求導(dǎo)來檢測(cè)。經(jīng)典的邊緣檢測(cè)算法一般采用微分的方法進(jìn)行計(jì)算,常用的一階微分邊緣檢測(cè)算子有Robert算子、Sobel算子、Prewitt算子、Kirsch算子等幾種。一階微分算子方法計(jì)算簡(jiǎn)便、速度快,但定位不準(zhǔn)確。二階微分算子主要有Canny算子、Log算子、Laplacian算子,這類算子基于一階導(dǎo)數(shù)的局部最大值對(duì)應(yīng)二階導(dǎo)數(shù)的零交叉點(diǎn)這一性質(zhì),通過尋找圖像灰度的二階導(dǎo)數(shù)的零交叉點(diǎn)從而定位邊緣。二階微分算子方法邊緣定位準(zhǔn)確,但對(duì)噪聲敏感。對(duì)于噪聲污染的圖像,在進(jìn)行微分算子邊緣檢測(cè)前一般先要濾波,但濾波的同時(shí)也使圖像邊緣產(chǎn)生一定程度的模糊。Marr算子將噪聲濾波與邊緣提取相結(jié)合,但當(dāng)模板較小時(shí)抗噪性能不良,模板較大時(shí)計(jì)算費(fèi)時(shí)。
2.2.3 基于特定理論的分割方法隨著數(shù)學(xué)和人工智能的發(fā)展,出現(xiàn)了一些新的邊緣檢測(cè)方法,如數(shù)學(xué)形態(tài)學(xué)法、小波變換法、人工神經(jīng)網(wǎng)絡(luò)法、遺傳算法、基于模糊理論的算法等。
20世紀(jì)90年代初,Mallat在圖像多分辨分析理論的基礎(chǔ)上,提出了小波變換局部模極大值邊緣檢測(cè)方法[58-59],在噪聲圖像中取得了較好的邊緣檢測(cè)效果。后來,人們?cè)贛allat理論框架下,提出了多尺度邊緣檢測(cè)方法[60]。多尺度邊緣檢測(cè)方法主要思想在較大的尺度下能對(duì)邊緣精確檢測(cè),而在較小的尺度下能對(duì)邊緣點(diǎn)精確定位。小波變換的突出優(yōu)點(diǎn)是其多分辨率,圖像的每個(gè)尺度的小波變換都提供了一定的邊緣信息。小波分析在時(shí)域和頻域都具有良好的局部化性質(zhì),可聚焦到對(duì)象的任意細(xì)節(jié),是圖像處理領(lǐng)域的熱點(diǎn)。雖然人們提出了多種的邊緣檢測(cè)方法[61-62],但邊緣檢測(cè)時(shí)抗噪性和檢測(cè)精度的矛盾仍然是要研究的重點(diǎn)內(nèi)容之一。
基于數(shù)學(xué)形態(tài)學(xué)邊緣檢測(cè)方法[63-64]的基本思想是用具有一定形態(tài)的結(jié)構(gòu)元素提取圖像中的對(duì)應(yīng)形狀,以達(dá)到對(duì)圖像分析和識(shí)別的目的。采用多結(jié)構(gòu)元素的數(shù)學(xué)形態(tài)學(xué)算法,既能提取細(xì)小邊緣,又能很好的抑制噪聲,結(jié)構(gòu)元素選取靈活,但在靈活的同時(shí)也導(dǎo)致算法的適應(yīng)性變差。
近年來有一些新的研究手段如神經(jīng)網(wǎng)絡(luò)、遺傳算法和小波方法等被引入到圖像分割的閾值選取中[65-69],其效果仍在探索之中。
雖然有許多圖像分割的方法,這些算法的共性問題在于分割精度與抗噪性的矛盾,同時(shí),高實(shí)時(shí)性處理算法的研究遠(yuǎn)遠(yuǎn)滯后于通用圖像處理算法的研究,應(yīng)用于實(shí)際生產(chǎn)中的一些算法在準(zhǔn)確性、實(shí)時(shí)性和可操作性上也還存在較大的困難。至今,圖像分割算法大都是針對(duì)具體問題所提出的,雖然每年都有新的圖像分割算法提出,但是并沒有一種通用的算法能適用于所有的圖像分割處理。
2.3 特征提取及其選擇算法圖像的特征提取可理解為從高維圖像空間到低維特征空間的映射,是基于機(jī)器視覺的表面缺陷檢測(cè)的重要一環(huán),其有效性對(duì)后續(xù)缺陷目標(biāo)識(shí)別精度、計(jì)算復(fù)雜度、魯棒性等均有重大影響。特征提取的基本思想是使目標(biāo)在得到的子空間中具有較小的類內(nèi)聚散度和較大的類間聚散度。目前常用的圖像特征主要有紋理特征、顏色特征、形狀特征等。
2.3.1 紋理特征提取紋理是表達(dá)圖像的一種重要特征,它不依賴于顏色或亮度而反映圖像的同質(zhì)現(xiàn)象,反映了表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系。與顏色特征和灰度特征不同,紋理特征不是基于像素點(diǎn)的特征,它需要在包含多個(gè)像素點(diǎn)的區(qū)域中進(jìn)行統(tǒng)計(jì)計(jì)算,即局部性;同時(shí),局部紋理信息也存在不同程度的重復(fù)性,即全局性。紋理特征常具有旋轉(zhuǎn)不變性,并且對(duì)于噪聲有較強(qiáng)的抵抗能力。
根據(jù)Tuceryan和Jain的分類,基于的紋理特征提取方法有統(tǒng)計(jì)法、信號(hào)分析法、模型法、結(jié)構(gòu)法和幾何法。
1) 統(tǒng)計(jì)法。統(tǒng)計(jì)方法將紋理看用隨機(jī)現(xiàn)象,從統(tǒng)計(jì)學(xué)的角度來分析隨機(jī)變量的分布,從而實(shí)現(xiàn)對(duì)圖像紋理的描述。直方圖特征是最簡(jiǎn)單的統(tǒng)計(jì)特征,但它只反映了圖像灰度出現(xiàn)的概率,沒有反映像素的空間分布信息;灰度共生矩(GLCM)是基于像素的空間分布信息的常用統(tǒng)計(jì)方法;局部二值模式(LBP)具有旋轉(zhuǎn)不變性和多尺度性、計(jì)算簡(jiǎn)單;此外,還有行程長(zhǎng)度統(tǒng)計(jì)法、灰度差分統(tǒng)計(jì)法等,因計(jì)算量大、效果不突出而限制了其應(yīng)用。
(1) 直方圖特征。圖像的直方圖提供了圖像的許多信息和特征,常用的直方圖特征有最大值、最小值、均值、中值、值域、熵、方差和熵等。此外,直方圖對(duì)比統(tǒng)計(jì)特征,如L1范數(shù)、L2范數(shù)、Bhattacharyya距離、Matusita距離、歸一化相關(guān)系統(tǒng)等,亦常用作統(tǒng)計(jì)特征[70]。
直方圖特征方法計(jì)算簡(jiǎn)單、具有平移和旋轉(zhuǎn)不變性、對(duì)顏色像素的精確空間分布不敏感等,所以在表面檢測(cè)、缺陷識(shí)別得到不少應(yīng)用。
(2) 灰度共生矩。Haralick等人[71]提出的灰度共生矩是一種廣泛應(yīng)用的使用統(tǒng)計(jì)特征來描述紋理的方法?;叶裙采仃嚲褪菑膱D像灰度級(jí)為的像素出發(fā),統(tǒng)計(jì)與其距離為、灰度級(jí)為的像素同時(shí)出現(xiàn)的概率。一般取0°、45°、90°和135°這4個(gè)方向?;叶裙采仃嚪从沉藞D像灰度關(guān)于方向、相鄰間隔、變化幅度的綜合信息,所以可以作為分析圖像基元和排列結(jié)構(gòu)的信息。
GLCM共有14種紋理特征,文獻(xiàn)[72-74]研究了GLCM統(tǒng)計(jì)量的相關(guān)性并提出了更有效的紋理特征量,但是文獻(xiàn)[75]認(rèn)為僅有4個(gè)特征,即對(duì)比度、相關(guān)性、能量(和同質(zhì)性是不相關(guān)的,所以,為減少計(jì)算量,提高特征分類精度,常取這4個(gè)特征作為GLCM特征。GLCM在圖像的紋理分析中占有重要的地位,在特征提取和缺陷檢測(cè)等方面有著廣泛的應(yīng)用。
(3) 局部二值模式(LBP)。局部二值模式最早由Ojala提出,它引入了紋理基元的思想,是一個(gè)簡(jiǎn)單但非常有效的紋理運(yùn)算符。LBP將各個(gè)像素與其附近的像素進(jìn)行比較,并把結(jié)果保存為二進(jìn)制數(shù),即它用二進(jìn)制位表達(dá)局部鄰域點(diǎn)與中心點(diǎn)的關(guān)系,所有鄰域點(diǎn)的二進(jìn)制位用來描述局部結(jié)構(gòu)信息的模式。
LBP對(duì)諸如光照變化等造成的圖像灰度變化具有較強(qiáng)的魯棒性,所以局部二值模式算法已廣泛應(yīng)用于表面缺陷檢測(cè),同時(shí),在指紋識(shí)別、光學(xué)字符識(shí)別、人臉識(shí)別及車牌識(shí)別等領(lǐng)域也有應(yīng)用。由于LBP計(jì)算簡(jiǎn)單,也可以用于實(shí)時(shí)檢測(cè)。
目前出現(xiàn)了一些改進(jìn)的LBP算法。Tan等人[76]提出了局部三值模式(LTP),即通過設(shè)定閾值將鄰域與中心相似的狀態(tài)作為中間狀態(tài),從而將擴(kuò)展局部鄰域關(guān)系為三種狀態(tài)。在此基礎(chǔ)上,Nanni等人[77]將局部關(guān)系擴(kuò)展到四種狀態(tài)。也有學(xué)者將LBP由傳統(tǒng)的2維特征改進(jìn)到3維特征主要用于視頻分析[78-80]。此外,有學(xué)者將LBP表達(dá)的局部信息與其他信息或算法結(jié)合構(gòu)成聯(lián)合特征量,如Tan等人[81]聯(lián)合LBP特征和Gabor小波特征進(jìn)行人臉的識(shí)別,Huang等人[82]將LBP和SIFT算法結(jié)合用于人臉的3維識(shí)別。賀永剛[83]提出了一種多結(jié)構(gòu)的局部二值模式,該算法結(jié)合各向同性采樣和各向異性采樣對(duì)局部二值模式進(jìn)行擴(kuò)展,利用圖像金字塔提取紋理圖像的微結(jié)構(gòu)和宏結(jié)構(gòu)信息。
(4) 自相關(guān)函數(shù)法。自相關(guān)函數(shù)法從圖像的自相關(guān)函數(shù)提取紋理特征,即通過對(duì)圖像的能量譜函數(shù)的計(jì)算,提取紋理的粗細(xì)度及方向性等特征參數(shù)。對(duì)于規(guī)則紋理圖像,因其自相關(guān)函數(shù)具有波峰和波谷,故可用其進(jìn)行表面檢測(cè),但自相關(guān)函數(shù)法不適用于不規(guī)則紋理圖像。
2) 信號(hào)處理法。將圖像當(dāng)作2維分布的信號(hào),從而可從信號(hào)濾波器設(shè)計(jì)的角度對(duì)紋理進(jìn)行分析。信號(hào)處理方法也稱濾波方法,即用某種線性變換、濾波器(組)將紋理轉(zhuǎn)到變換域,然后應(yīng)用相應(yīng)的能量準(zhǔn)則提取紋理特征?;谛盘?hào)處理的方法主要有傅里葉變換、Gabor濾波器、小波變換、Laws紋理、LBP紋理等。
(1) 傅里葉變換方法。傅里葉變換是基于頻率的分析方法,20世紀(jì)70年代以來,有學(xué)者提出通過傅里葉濾波器來描述紋理。傅里葉變換將圖像變換到頻率域上使用頻譜能量或頻譜熵等特征來表達(dá)紋理。Rao和Lohse開展了基于人的感知的紋理研究,指出周期性、方向性以及隨機(jī)性是表征紋理的3個(gè)重要因素[84]。紋理圖像在空間分布上具有一定的周期性,其功率譜具有離散性和規(guī)律性;對(duì)于方向性紋理,方向性會(huì)在傅里葉頻譜中很好的保持;對(duì)于隨機(jī)性紋理,頻譜的響應(yīng)分布并不限制到某些特定的方向。
根據(jù)相對(duì)于頻率中心位置距離的頻譜分布情況,可以大致判斷紋理圖像的相對(duì)粗糙程度。對(duì)于粗糙紋理,其紋理基元尺寸較大,圖像的低頻信號(hào)較多,功率譜的能量主要集中在離頻率中心位置較近的低頻區(qū)域;相反,對(duì)于基元尺寸較小的細(xì)致紋理,圖像含有的高頻信息較多,功率譜的能量分布較為分散,主要集中在距離頻率中心位置較遠(yuǎn)的高頻區(qū)域。但是,傅里葉變換作為一種全局性的變化,仍有一定的局限性,如不具備局部化分析能力、不能分析非平穩(wěn)信號(hào)等。
(2) Gabor濾波方法。盡管傅里葉變換在信號(hào)頻域分析中有著重要作用,但它只能對(duì)整個(gè)時(shí)間段的信號(hào)的頻率進(jìn)行分析,沒有信號(hào)的空間局部信息的刻畫能力,如當(dāng)需要對(duì)局部的圖像紋理細(xì)節(jié)進(jìn)行分析時(shí),傅里葉變換無能為力。為克服傅里葉變換不能局部化分析的缺點(diǎn),短時(shí)窗口傅里葉變換(STFT)被提出,它通過在變換時(shí)增加一個(gè)窗函數(shù)來實(shí)現(xiàn),當(dāng)窗函數(shù)是Gaussian函數(shù)時(shí),即得到Gabor變換。
Gabor濾波方法模擬了人類視覺感覺特性,具有很好的頻率選擇性和方位選擇性。使用Gabor濾波器提取紋理特征的主要過程是:先設(shè)計(jì)濾波器,再?gòu)钠漭敵鼋Y(jié)果中提取特征。濾波器設(shè)計(jì)包括單個(gè)濾波器參數(shù)的設(shè)計(jì)和濾波器組的布局。濾波器的輸出結(jié)果可作為紋理特征,但維數(shù)較高,為此,常采用斯平滑處理、Gabor能量特征、復(fù)矩特征、獨(dú)立成分分析等后處理方法以降低特征集的數(shù)據(jù)量[85]。對(duì)于2維數(shù)字圖像,研究者們提出了2維Gabor函數(shù)形成的2維Gabor濾波器。
自從Clark等人[86]首次將Gabor濾波方法用于紋理分析以來,很多研究人員開始用Gabor濾波器進(jìn)行紋理特征提取,進(jìn)行表面缺陷的檢測(cè)[87-91]。國(guó)內(nèi)叢家慧等人[92]利用Gabor濾波器具有頻率選擇和方向選擇的特性,有效提取了帶鋼表面缺陷的紋理特征,為確定最佳濾波器參數(shù),引入的評(píng)價(jià)函數(shù)使缺陷圖像和無缺陷圖像能量響應(yīng)差別最大化。張學(xué)武等人[93]使用Gaussian金字塔分解和Gabor濾波器提取缺陷圖像特征,合成特征顯著圖基于視覺仿生機(jī)理進(jìn)行銅帶表面缺陷檢測(cè),實(shí)現(xiàn)缺陷的正確分類。
因窗函數(shù)決定空域的局部性,且Gaussian函數(shù)經(jīng)傅里葉變換后仍為Gaussian函數(shù),故Gabor變換在頻域上也是局部的。Gabor濾波器在紋理描述方面有著良好的效果,但存在計(jì)算量大的問題[94]。
(3) 小波變換方法。傅里葉變換沒有局部分析能力,STFT雖然在一定程度上改善了這種局限性,但采用的的滑動(dòng)窗函數(shù)一經(jīng)選定就固定不變,故決定了其時(shí)頻分辨率固定不變,不具備自適應(yīng)能力,而小波分析很好的解決了這個(gè)問題。小波變換(WT)是法國(guó)地質(zhì)物理學(xué)家Morlet于1984年提出的,通過伸縮和平移等運(yùn)算功能對(duì)函數(shù)或信號(hào)進(jìn)行多尺度細(xì)化分析,達(dá)到高頻處時(shí)間細(xì)分,低頻處頻率細(xì)分,能自動(dòng)適應(yīng)時(shí)頻信號(hào)分析的要求,從而可聚焦到信號(hào)的任意細(xì)節(jié)。
圖像紋理往往表現(xiàn)為多尺度特征,對(duì)圖像進(jìn)行小波分解后,得到不同分辨率的一系列圖像;不同分辨率的圖像由代表不同方向信息的一系列高頻子帶圖像構(gòu)成,高頻子帶圖像反映了圖像的紋理特征。
傳統(tǒng)的金字塔小波變換僅對(duì)低頻部分進(jìn)行了分解,而紋理圖像的高頻部分可能也含有重要的特征信息,小波包分解或是樹結(jié)構(gòu)小波分解則可克服這一缺點(diǎn)。小波變換方法提取圖像特征以進(jìn)行表面缺陷檢測(cè)已有大量的應(yīng)用[95-98]。
(4) Laws紋理。Laws模板的紋理描述方法通過使用簡(jiǎn)單模板處理紋理圖像,從而對(duì)紋理圖像的特征進(jìn)行描述。它使用一組小的模板對(duì)紋理圖像卷積,對(duì)卷積后的圖像的每一個(gè)像素的鄰域進(jìn)行統(tǒng)計(jì)計(jì)算,將統(tǒng)計(jì)量作為對(duì)應(yīng)像素的紋理特征。
3) 結(jié)構(gòu)法。結(jié)構(gòu)法是建立在紋理基元理論基礎(chǔ)上的,認(rèn)為復(fù)雜的紋理是由一些在空間中重復(fù)出現(xiàn)的最小模式即紋理基元執(zhí)照一定的規(guī)律排列組成。結(jié)構(gòu)方法主要有兩個(gè)重要問題:一是紋理基元的確定;二是紋理基元排列規(guī)律的提取。最簡(jiǎn)單的紋理基元是單個(gè)的像素,也可以是圖像的灰度均質(zhì)區(qū)域,此外,Vilnrotter等人[99]采用邊緣重復(fù)數(shù)組來提取基元,Hsu等人[100]利用自相關(guān)函數(shù)和小波變換系數(shù)提取基元,等等。確定基元后需要提取基元的特征參數(shù)和紋理結(jié)構(gòu)參數(shù)作為描述圖像紋理的特征。基元的特征參數(shù)有面積、周長(zhǎng)、離心率、矩量等,結(jié)構(gòu)參數(shù)則由基元之間的排列規(guī)律確定;基元的排列規(guī)則是基元的中心坐標(biāo)及基元之間的空間拓?fù)潢P(guān)系,可從基元之間的模型幾何中得到,也可以通過基元之間的相位、距離等統(tǒng)計(jì)特征中得到,較復(fù)雜的情況可以用句法分析、數(shù)學(xué)形態(tài)學(xué)等方法。
采用結(jié)構(gòu)方法提取圖像紋理特征以進(jìn)行表面缺陷檢測(cè)的研究并不少見,Wen等人[101]利用結(jié)構(gòu)法提取圖像的邊緣特征進(jìn)行了皮革表面缺陷檢測(cè),Goswami等人[102]基于激光檢測(cè)和形態(tài)學(xué)對(duì)織物疵點(diǎn)進(jìn)行了檢測(cè),或采用數(shù)學(xué)形態(tài)學(xué)操作對(duì)鋼板表面缺陷進(jìn)行了檢測(cè)[103]。但是,結(jié)構(gòu)法只適合于紋理基元較大且排列規(guī)則的圖像;對(duì)于一般的自然紋理,因其隨機(jī)性較強(qiáng)、結(jié)構(gòu)變化大,難以用該方法來準(zhǔn)確描述,此時(shí)一般要與其他方法聯(lián)合使用。
4) 模型法。模型法以圖像的構(gòu)造模型為基礎(chǔ),采用模型參數(shù)的統(tǒng)計(jì)量作為紋理特征,不同的紋理在某種假設(shè)下表現(xiàn)為模型參數(shù)取值的不同,如何采用優(yōu)化參數(shù)估計(jì)的方法進(jìn)行參數(shù)估計(jì)是模型法研究的主要內(nèi)容。典型的模型法有馬爾可夫隨機(jī)場(chǎng)(MRF)模型、分形模型和自回歸模型等。
(1) MRF模型。隨機(jī)場(chǎng)模型法試圖以概率模型來描述紋理的隨機(jī)過程,實(shí)質(zhì)上是描述圖像像素對(duì)其鄰域像素的統(tǒng)計(jì)依賴關(guān)系,常見的隨機(jī)場(chǎng)模型有Markov模型、Gibbs模型等。
MRF模型將紋理圖像看用是一個(gè)隨機(jī)2維圖像場(chǎng),并且假設(shè)像素的灰度級(jí)僅與鄰域內(nèi)像素的灰度級(jí)有關(guān),使用局部鄰域的條件分布描述作為對(duì)應(yīng)隨機(jī)場(chǎng)的局部特征。MRF模型的優(yōu)點(diǎn)是能將局部特性與全局特性聯(lián)系起來,且有較好的抗噪性能。但基于Markov隨機(jī)場(chǎng)模型僅通過局部特征很難得到全局的聯(lián)合分布,Cohen[104]將Markov與高斯分布聯(lián)系起來,提出了使用高斯—馬爾可夫模型(GMRF,在檢驗(yàn)過程中,被視為假設(shè)檢驗(yàn)的問題源自高斯—馬爾可夫模型。
(2) 分形模型。分形的概念是美籍?dāng)?shù)學(xué)家Mandelbrot首先提出的。很多自然圖像(如海岸線)其特征是極不規(guī)則、極不光滑的,但所有海岸線在形貌上卻是自相似的,即局部形態(tài)和整體形態(tài)的相似。具有自相似性的形態(tài)廣泛存在于自然界中,Mandelbrot把這些部分與整體以某種方式相似的形體稱為分形。1975年,Mandelbrot創(chuàng)立了分形幾何學(xué)。在此基礎(chǔ)上,形成了研究分形性質(zhì)及其應(yīng)用的科學(xué),稱為分形理論。
Pentland[105]首次用分形有來描述紋理,認(rèn)為自然界中的分形與圖像的灰度表示之間存在著一定的對(duì)應(yīng)關(guān)系,指出分形維數(shù)是描述紋理的一個(gè)重要特征。分形模型中如何確定分?jǐn)?shù)維是描述紋理的重要問題,常用的算法有Keller的盒維數(shù)、Sarkar等人提出的差分計(jì)盒法等。分形模型主要適用于具有自相似性的自然紋理。
徐科等人[106]將分形維數(shù)作為特征量,利用Peleg毯覆蓋法計(jì)算圖像在不同尺度下的分形維數(shù),通過尺度—分形維數(shù)曲線圖估計(jì)最優(yōu)尺度,用于對(duì)熱軋帶鋼表面缺陷的自動(dòng)識(shí)別,取得了良好的效果。李慶中等人[107]基于分形特征進(jìn)行水果缺陷快速識(shí)別研究,通過該方法提取的紋理特征不受光照強(qiáng)度變化的影響,且具有平移、旋轉(zhuǎn)和縮放不變性。
5) 紋理特征提取算法比較。上述紋理特征提取方法各有其優(yōu)缺點(diǎn),總的看來,可以從以下幾個(gè)角度來估計(jì)其優(yōu)勢(shì)和不足:計(jì)算的復(fù)雜度,是否利用了全局信息,是否具有多分辨特征及是否與人類視覺感受一致。
統(tǒng)計(jì)法方法簡(jiǎn)單、易于實(shí)現(xiàn),特別是GLCM方法具有較強(qiáng)的適應(yīng)性和魯棒性;但缺少圖像的全局信息,紋理尺度間像素的依賴關(guān)系難于發(fā)現(xiàn),沒有聯(lián)系人類的視覺模型。模型方法既考慮了紋理局部的隨機(jī)性,又考慮了紋理整體的規(guī)律性,靈活性較大,而且也研究了紋理的多分辨性;但模型的參數(shù)估計(jì)有一定的難度,而且計(jì)算量較大。信號(hào)方法能對(duì)紋理進(jìn)行多分辨描述,能將空域和頻域相結(jié)合對(duì)紋理進(jìn)行研究,也符合人類的視覺持征;但正交小波變換對(duì)高頻部分沒有進(jìn)一步分解,而小波包對(duì)非規(guī)則紋理圖像的處理效果不佳,且計(jì)算量大。結(jié)構(gòu)法只適合于紋理基元較大且排列規(guī)則的圖像;對(duì)于一般的自然紋理,因其隨機(jī)性較強(qiáng)、結(jié)構(gòu)變化大,難以用該方法來準(zhǔn)確描述。上述方法各有利弊,研究人員正試圖將不同的方法結(jié)合對(duì)紋理特征進(jìn)行比較研究和融合提取。
2.3.2 形狀特征提取形狀特征人類視覺進(jìn)行物體識(shí)別時(shí)所需要的關(guān)鍵信息之一,它不隨周圍的環(huán)境如亮度等因素的變化而變化,是一種穩(wěn)定信息;相對(duì)于紋理和顏色等底層特征而言,形狀特征屬于圖像的中間層特征。在2維圖像中,形狀通常被認(rèn)為是一條封閉的輪廓曲線所包圍的區(qū)域。
對(duì)形狀特征的描述主要可以分為基于輪廓形狀與基于區(qū)域形狀兩類,區(qū)分方法在于形狀特征僅從輪廓中提取還是從整個(gè)形狀區(qū)域中提取。
1) 基于區(qū)域的形狀特征。基于區(qū)域的形狀特征是利用區(qū)域內(nèi)的所有像素集合起來獲得用以描述目標(biāo)輪廓所包圍的區(qū)域性質(zhì)的參數(shù)。這些參數(shù)既可以是幾何參數(shù),也可以是密度參數(shù),還可以是區(qū)域2維變換系數(shù)或傅里葉變換的能量譜。基于區(qū)域的形狀特征主要有幾何特征、拓?fù)浣Y(jié)構(gòu)特征、矩特征等。
幾何特征包括區(qū)域簡(jiǎn)單特征描述,如面積、周長(zhǎng)、質(zhì)心、分散度、矩形度、長(zhǎng)寬比、方向等;還包括基于形狀相似性的特征,如區(qū)域的矩形度、圓形度、球形度、偏心率、面積周長(zhǎng)比、細(xì)度,還有基于直方圖、基于飽和度、基于形態(tài)曲率和多邊形描述的形狀特征等。
拓?fù)浣Y(jié)構(gòu)特征不受圖像幾何畸變的影響,是一種不依賴于距離變化的全局特征。常用的拓?fù)浣Y(jié)構(gòu)特征是歐拉數(shù),即圖像目標(biāo)區(qū)域連通組元的個(gè)數(shù)與目標(biāo)區(qū)域的孔數(shù)之差,它表明圖像的連通性。
矩特征利用目標(biāo)所占區(qū)域的矩作為形狀描述參數(shù),其計(jì)算要用到目標(biāo)區(qū)域中所有相關(guān)的像素點(diǎn),因此從全局描述了對(duì)象的整體特性。特征矩也可理解為將圖像目標(biāo)函數(shù)投影到一組基函數(shù)上,根據(jù)基函數(shù)的特征,可將矩分為非正交矩和正交矩。非正交矩主要有幾何矩、復(fù)數(shù)矩、旋轉(zhuǎn)矩等。歸一化的中心矩對(duì)目標(biāo)圖像平移、尺度變換具有不變性。Hu基于上述矩組合而成了7個(gè)經(jīng)典不變量,被稱為Hu不變矩[108],具有平移、旋轉(zhuǎn)和比例不變性。正交矩又分為連續(xù)正交矩和離散正交矩。連續(xù)正交矩主要有Zernike矩、偽Zernike矩、Legendre矩、正交Fourier-Mellin矩,離散正交矩主要有Chebyshev矩、Krawtchouk矩[109]。
2) 基于輪廓的形狀特征?;谳喞男螤蠲枋龇菍?duì)包圍目標(biāo)區(qū)域的輪廓的描述,主要有邊界特征法(邊界形狀數(shù)、邊界矩等)、簡(jiǎn)單幾何特征(如周長(zhǎng)、半徑、曲率、邊緣夾角)、基于變換域(如傅里葉描述符、小波描述符)、曲率尺度空間(CSS)、數(shù)學(xué)形態(tài)學(xué)、霍夫變換、小波描述符等方法。
基于輪廓的特征有如下優(yōu)點(diǎn):輪廓更能反映人類區(qū)分事物的形狀差異,且輪廓特征所包含的信息較多,能減少計(jì)算的復(fù)雜度;但是,輪廓特征對(duì)于噪聲和形變比較敏感,有些形狀應(yīng)用中無法提取輪廓信息。
2.3.3 顏色特征提取顏色特征是人類感知和區(qū)分不同物體的一種基本視覺特征,是一種全局特征,描述了圖像或圖像區(qū)域所對(duì)應(yīng)的景物的表面性質(zhì)。顏色特征對(duì)于圖像的旋轉(zhuǎn)、平移、尺度變化都不敏感,表現(xiàn)出較強(qiáng)的魯棒性。顏色模型主要有HSV、RGB、HSI、CHL、LAB、CMY等。常用的特征提取與匹配方法如下:
1) 顏色直方圖。顏色直方圖(color histogram)是最常用的表達(dá)顏色特征的方法,它能簡(jiǎn)單描述一幅圖像中顏色的全局分布,即不同色彩在整幅圖像中所占的比例,特別適用于描述那些難以自動(dòng)分割的圖像和不需要考慮物體空間位置的圖像,且計(jì)算簡(jiǎn)單,對(duì)圖像中的對(duì)象的平移和旋轉(zhuǎn)變化不敏感;但它無法描述圖像中顏色的局部分布及每種色彩所處的空間位置。
當(dāng)顏色特征并不能取遍所有取值時(shí),在統(tǒng)計(jì)顏色直方圖時(shí)會(huì)出現(xiàn)一些零值,這些零值對(duì)計(jì)算直方圖的相交帶來很大影響,使得計(jì)算的結(jié)果不能正確反映兩幅圖像之間的顏色差別。為解決上述問題,可利用累積直方圖法。
2) 顏色集。顏色直方圖法是一種全局顏色特征提取與匹配方法,無法區(qū)分局部顏色信息。顏色集是對(duì)顏色直方圖的一種近似,首先將圖像從RGB顏色空間轉(zhuǎn)化成視覺均衡的顏色空間(如HSV空間),并將顏色空間量化成若干個(gè)柄(bin)。然后,用色彩自動(dòng)分割技術(shù)將圖像分為若干區(qū)域,每個(gè)區(qū)域用量化顏色空間的某個(gè)顏色分量來索引,從而將圖像表達(dá)為一個(gè)二進(jìn)制的顏色索引集。在圖像匹配中,比較不同圖像顏色集之間的距離和色彩區(qū)域的空間關(guān)系。因?yàn)轭伾磉_(dá)為二進(jìn)制的特征向量,可經(jīng)構(gòu)造二分查找樹來加快檢索速度,這對(duì)于大規(guī)模的圖像集合十分有利。
3) 顏色矩。顏色矩(color moments)是另一種簡(jiǎn)單而有效的顏色特征提取與匹配方法。該方法的數(shù)學(xué)基礎(chǔ)在于:圖像中任何的顏色分布均可以用它的矩來表示。由于顏色分布信息主要集中在低階顏色矩中,因此僅采用顏色的一階中心矩、二階中心矩和三階中心矩就可以表達(dá)圖像的顏色特征,它們分別表示圖像的平均顏色、標(biāo)準(zhǔn)方差和三次根非對(duì)稱性。該方法的另一個(gè)優(yōu)點(diǎn)是它無需對(duì)顏色特征進(jìn)行向量化。但因?yàn)闆]有考慮像素的空間位置,該方法仍存在精確度和準(zhǔn)確度不足的缺點(diǎn)。
4) 顏色聚合向量。其核心思想是:將屬于直方圖每一個(gè)柄的像素分成兩部分,如果該柄內(nèi)的某些像素所占據(jù)的連續(xù)區(qū)域的面積大于給定的閾值,則該區(qū)域內(nèi)的像素作為聚合像素,否則作為非聚合像素。
在目前圖像處理的硬件條件下,直接對(duì)彩色圖像的處理與分析是復(fù)雜而又耗時(shí)的,因此對(duì)彩色圖像的處理通常都是先轉(zhuǎn)化為灰度圖像,然后再按照灰度圖像處理方法進(jìn)行處理。
2.3.4 特征的選擇圖像的特征提取及其選擇的目的是為了提高后續(xù)圖像識(shí)別的準(zhǔn)確性和魯棒性。圖像的特征提取實(shí)現(xiàn)了從圖像空間到特征空間的轉(zhuǎn)換,但是并非所有的特征都對(duì)后續(xù)的圖像識(shí)別和分類有作用。如果特征提取的數(shù)量多,使得特征向量有較高的維數(shù),這些高維特征中很可能存在冗余信息,從而導(dǎo)致圖像處理結(jié)果的精確度下降;圖像特征維度過高,還會(huì)使圖像處理算法的復(fù)雜度高導(dǎo)致“維度災(zāi)難”。因此,對(duì)于高維圖像特征,為了降低所提取圖像特征維數(shù)之間的相關(guān)性,需要消除圖像特征之間的依賴性,即降維處理,也就是從圖像原始特征中找出真正有用的特征,以降低圖像處理算法的復(fù)雜度,并提高處理速度和結(jié)果的精確度,這個(gè)處理過程就是特征的選擇。
很多特征選擇問題被認(rèn)為是NP問題,因此,人們一般只能尋找特定問題的評(píng)價(jià)標(biāo)準(zhǔn)來保證所選擇的特征是最優(yōu)的,這也就造成了目前特征選擇方法眾多。目前,特征選擇的方法包括:主成分分析法(PCA)、獨(dú)立成分分析法(ICA)、Fisher分析法(FDA)、相關(guān)分析法(CFS)、自組織映射法(SOM)、Relief法、遺傳算法、模擬退火法、Tabu搜索法及基于流行的非線性降維方法等。
PCA由Pearson首先引入,后來由Hotelling進(jìn)行了發(fā)展。PCA是一種數(shù)學(xué)降維方法,其基本原理通過研究指標(biāo)參數(shù)之間的相關(guān)性,尋求幾個(gè)綜合指標(biāo)來代替原來眾多的指標(biāo),使這些綜合指標(biāo)彼此之間互不相關(guān)且能盡可能地代表原來的信息量,并具有最大的方差;通過壓縮變量個(gè)數(shù),用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,剔除冗余信息,即將許多相關(guān)性很高的變量轉(zhuǎn)化成個(gè)數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨(dú)立的幾個(gè)新變量,即所謂的主成分。
PCA設(shè)法將原來眾多具有一定相關(guān)性個(gè)指標(biāo),重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。將選取的第一個(gè)線性組合即第一個(gè)綜合變量方差最大、信息最多,稱為第一主成分;如果第一主成分不足以代表原來個(gè)變量的信息,再選取第二個(gè)線性組合即第二主成分,依此類推。
PCA是一種線性組合方法,它能在盡可能好的代表原始數(shù)據(jù)的前提下,能過線性變換將高維空間的樣本數(shù)據(jù)投影到低維空間,因其計(jì)算簡(jiǎn)單且便于分析而應(yīng)用廣泛。
如果基于最小MSE來降低特征向量的維數(shù),則PCA的結(jié)果是最優(yōu)的,但因PCA所獲得的特征向量的各分量之間是不相關(guān)的,故PCA無法滿足特征向量的各分量之間是統(tǒng)計(jì)獨(dú)立的。獨(dú)立成分分析(ICA),最早應(yīng)用于盲源信號(hào)分離(BBS)。ICA方法最早是由法國(guó)的Herault和Jutten于80年代中期提出來的,ICA理論的基本思想是從一組混合的觀測(cè)信號(hào)中分離出獨(dú)立信號(hào),或者盡可能獨(dú)立的信號(hào)對(duì)其他信號(hào)進(jìn)行表征。
ICA的主要任務(wù)是給定一個(gè)維特征向量,確定一個(gè)×的變換矩陣(分離矩陣),使得變換后的向量的各分量滿足互相統(tǒng)計(jì)獨(dú)立的特性。ICA方法的關(guān)鍵是如何快速求取最優(yōu)的分離矩陣,根據(jù)求取分離矩陣的方法,ICA算法有Infomax算法、峰度估計(jì)法、快速ICA算法等。
PCA和ICA所形成的新特征各分量之間是互不相關(guān)或是統(tǒng)計(jì)獨(dú)立的,從理論上等價(jià)于使得二階或高階交叉累積量最小。如果根據(jù)二階或高階交叉累積量構(gòu)造一個(gè)準(zhǔn)則函數(shù),則特征優(yōu)化問題可理解為基于準(zhǔn)則函數(shù)進(jìn)行特征的優(yōu)化,即通過最小化的準(zhǔn)則函數(shù),在概率意義上計(jì)算出問題的全局最優(yōu)解,基于組合優(yōu)化的特征選擇就是基于上述原理的,常用的組合優(yōu)化算法有遺傳算法、模擬退火算法和Tabu搜索算法等。
遺傳算法(GA)是由美國(guó)Michigan大學(xué)的Holland教授根據(jù)Darwin的生物進(jìn)化論和Mendel的遺傳變異理論提出的一種基于種群搜索的優(yōu)化算法。其思想是隨機(jī)產(chǎn)生初始種群, 通過選擇(reproduction)、交叉(crossover)和變異(mutation)等遺傳算子的共同作用使種群不斷進(jìn)化,最終得到最優(yōu)解。
基于遺傳算法的缺陷特征優(yōu)化的基本思想是:先對(duì)待尋優(yōu)的缺陷特征參數(shù)進(jìn)行編碼,按一定規(guī)模初始化種群,種群中的每一個(gè)體就代表了一個(gè)可能的解;然后根據(jù)適應(yīng)度值函數(shù)計(jì)算每一個(gè)體的適應(yīng)度值并依此決定遺傳操作,再按一定的概率對(duì)種群進(jìn)行交叉、變異,直至滿足終止條件結(jié)束。
模擬退火算法是一種求解在規(guī)模組合優(yōu)化問題的隨機(jī)性方法,它以優(yōu)化問題的求解與物理系統(tǒng)退火過程的相似性為基礎(chǔ),利用metropolis算法并適當(dāng)控制溫度的下降過程實(shí)現(xiàn)模擬退火,從而得到全局最優(yōu)解。文獻(xiàn)[110]提出了一種基于自適應(yīng)模擬退火算法的特征選擇方法,該方法將模擬退火算法嵌入到自適應(yīng)遺傳算法的循環(huán)體中,避免陷入局部最優(yōu)解。
Tabu搜索法最早由美國(guó)Glover教授提出,它是對(duì)局部領(lǐng)域搜索的一種擴(kuò)展,是一種全局逐步尋優(yōu)算法。Tabu搜索法從一個(gè)初始可行解出發(fā),選擇一系列的特定搜索方向作為試探,選擇實(shí)現(xiàn)讓特定的目標(biāo)函數(shù)值變化最多的搜索。為了避免陷入局部最優(yōu)解,采用了一種靈活的“記憶”技術(shù),對(duì)已經(jīng)進(jìn)行的優(yōu)化過程進(jìn)行記錄和選擇,指導(dǎo)下一步的搜索方向。為了能夠逃出局部極值和避免循環(huán),算法中設(shè)置了禁止表,當(dāng)搜索的解在禁止表中時(shí),則放棄該解。Tabu搜索法可以靈活地使用禁止表記錄搜索過程,從而使搜索既能找到局部最優(yōu)解,同時(shí)又能越過局部極值得到更優(yōu)的解。
PCA和ICA等線性降維方法簡(jiǎn)潔直觀、數(shù)學(xué)推導(dǎo)嚴(yán)謹(jǐn),可較好的發(fā)現(xiàn)高維向量空間的線性子空間上的數(shù)據(jù)集的內(nèi)部幾何結(jié)構(gòu),具有廣泛的應(yīng)用。但線性降維方法難以解決高維空間的非線性流形學(xué)習(xí)問題。為此,基于流行學(xué)習(xí)的非線性降維方法也受到了科研者們的廣泛關(guān)注,主要有局部線性嵌入(LLE)方法、局部保持映射法(LPP)、Isomap方法等。這些算法首先根據(jù)給定的樣本數(shù)據(jù)集,定義一個(gè)描述成數(shù)據(jù)點(diǎn)相似度的關(guān)系矩陣,然后計(jì)算這個(gè)矩陣的特征值和特征向量,選擇合適的特征向量投影到低維空間,從而得到低維嵌入向量。因所構(gòu)建的關(guān)系矩陣不同,故有不同的算法。
2.4 表面缺陷目標(biāo)識(shí)別算法統(tǒng)計(jì)模式識(shí)別(statistical pattern recognition)和句法(結(jié)構(gòu))模式識(shí)別(syntactic pattern recognition)是兩種基本的模式識(shí)別方法。前者是模式的統(tǒng)計(jì)分類方法,即結(jié)合統(tǒng)計(jì)概率的貝葉斯決策系統(tǒng)進(jìn)行模型識(shí)別的技術(shù),又稱為決策理論識(shí)別方法;后者的基本思想是把一個(gè)模式描述為較簡(jiǎn)單的子模式的組合,子模式又可進(jìn)一步描述為更簡(jiǎn)單的子模式的組合,最終得到一個(gè)樹狀結(jié)構(gòu)描述,利用模式與子模式分層結(jié)構(gòu)的樹狀信息完成模式識(shí)別任務(wù)。數(shù)字圖像的識(shí)別問題通常適用于統(tǒng)計(jì)模式識(shí)別,而句法模式識(shí)別主要用于遙感圖像識(shí)別、文字識(shí)別等,目前,基于機(jī)器視覺的表面缺陷識(shí)別主要涉及統(tǒng)計(jì)模式識(shí)別。
統(tǒng)計(jì)模式識(shí)別按其實(shí)現(xiàn)方式又分為有監(jiān)督學(xué)習(xí)的模式識(shí)別和無監(jiān)督學(xué)習(xí)的模式識(shí)別。前者是在已知類別標(biāo)簽的特征集(即訓(xùn)練集)基礎(chǔ)上進(jìn)行分類器構(gòu)建;后者也稱為聚類,該方法不需要已知類別的訓(xùn)練集,分類器直接根據(jù)特征向量之間的相似性,將待分類的特征向量集合分為若干個(gè)子集。
2.4.1 有監(jiān)督學(xué)習(xí)的模式識(shí)別監(jiān)督模式識(shí)別主要有基于概率統(tǒng)計(jì)的分類器、線性分類器、人工神經(jīng)網(wǎng)絡(luò)分類器和支持向量機(jī)等。
1) 基于概率統(tǒng)計(jì)的分類器?;诟怕式y(tǒng)計(jì)的分類方法主要有基于最小錯(cuò)誤率的貝葉斯決策、基于最小風(fēng)險(xiǎn)的貝葉斯決策。使用貝葉斯決策首先需要得到有關(guān)樣品的總體分布知識(shí),包括各類先驗(yàn)概率及類條件概率密度函數(shù),計(jì)算出樣品的后驗(yàn)概率,并以此作為判別函數(shù)的必要數(shù)據(jù),設(shè)計(jì)出相應(yīng)的判別函數(shù)及決策面。貝葉斯分類器可給出數(shù)學(xué)上的嚴(yán)格證明,在給出某些變量的條件下使分類的平均損失最小或是分類決策風(fēng)險(xiǎn)最小。盡管貝葉斯決策規(guī)則從理論上解決了最優(yōu)分類器的設(shè)計(jì)問題,但其實(shí)施時(shí)樣本特征空間的類條件概率密度形式一般很難確定,而利用Parzen窗等非參數(shù)方法估計(jì)分布又往往需要大量的樣本,所以貝葉斯決策規(guī)則更多是具有理論上的指導(dǎo)意義,一般適用于有統(tǒng)計(jì)知識(shí)的場(chǎng)合,或是能利用訓(xùn)練樣品估計(jì)出參數(shù)的場(chǎng)合。
張宏杰等人[111]基于貝葉斯圖像模式識(shí)別技術(shù)的點(diǎn)焊質(zhì)量評(píng)估,利用主成分分析消除圖像特征間的互相關(guān)性,建立了基于最小風(fēng)險(xiǎn)貝葉斯圖像識(shí)別技術(shù)的焊點(diǎn)質(zhì)量分類器,有效地評(píng)判焊點(diǎn)質(zhì)量;蘇芳等人[112]通過貝葉斯理論進(jìn)行多通道SAR圖像測(cè)量級(jí)數(shù)據(jù)融合,充分利用像素的從屬信息并獲得單通道分類無法獲取的分類結(jié)果,有效保留各通道有用信息并抑制圖像中的斑點(diǎn)噪聲。
2) 線性分類器。在實(shí)際應(yīng)用中,往往不去求類條件概率密度,而是利用樣本集直接設(shè)計(jì)分類器,即給定某個(gè)判別函數(shù),利用樣本集確定判別函數(shù)中的未知參數(shù),即判別函數(shù)分類法。判別函數(shù)分類方法按其判別函數(shù)的形式可分為線性分類法和非線性分類法。前者主要有Fisher分類算法、感知算法LMSE分類算法等;后者主要有分段線性判別函數(shù)法(如近鄰分類法、最小距離法)、基于核的Fisher分類算法、勢(shì)函數(shù)法和支持向量機(jī)方法等。線性分類器算法簡(jiǎn)單,在計(jì)算機(jī)上實(shí)現(xiàn)容易,在模式識(shí)別中得到了廣泛應(yīng)用;對(duì)于模式識(shí)別的非線性問題,則用非線性分類器。
K最近鄰(KNN)分類算法是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一,其核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。Lopez等人[113]使用KNN分類方法提取各通道的顏色特征進(jìn)行瓷磚表面質(zhì)量的分類;Mandriota等人[114]采用KNN算法結(jié)合和小波系數(shù)對(duì)軌道表面質(zhì)量進(jìn)行檢測(cè);Wiltschi等人[115]則基本最小距離分類方法對(duì)鋼板圖像進(jìn)行表面質(zhì)量檢測(cè);Pernkopf等人[116]采用耦合隱馬爾可夫隨機(jī)場(chǎng)合進(jìn)行似然計(jì)算,結(jié)合貝葉斯網(wǎng)絡(luò)分類器進(jìn)行了鋼坯表面缺陷檢測(cè)。
3) 人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型,是在現(xiàn)代神經(jīng)科學(xué)研究成果的基礎(chǔ)上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理。
ANN是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。1943年,心理學(xué)家McCulloch和數(shù)理邏輯學(xué)家Pitts建立了神經(jīng)網(wǎng)絡(luò)和數(shù)學(xué)模型,稱為MP模型。60年代,人工神經(jīng)網(wǎng)絡(luò)得到了進(jìn)一步發(fā)展,更完善的神經(jīng)網(wǎng)絡(luò)模型被提出,其中包括感知器和自適應(yīng)線性元件等。20世紀(jì)80年代,美國(guó)加州工學(xué)院物理學(xué)家Hopfield提出了Hopfield神經(jīng)網(wǎng)絡(luò)模型,為神經(jīng)計(jì)算機(jī)的研究做了開拓性的工作。不久,Rumelhart, Hinton, Williams發(fā)展了BP算法,迄今,BP算法已被用于解決大量實(shí)際問題。繼而,Broomhead和Lowe用徑向基函數(shù)(RBF)提出分層網(wǎng)絡(luò)的設(shè)計(jì)方法。20世紀(jì)90年代初,Vapnik等提出了支持向量機(jī)(SVM)和VC(Vapnik-Chervonenkis)維數(shù)的概念。目前,已有近40種神經(jīng)網(wǎng)絡(luò)模型。
人工神經(jīng)網(wǎng)絡(luò)具有非線性、自適應(yīng)、自組織、自學(xué)習(xí)能力、非局限性、非凸性和容錯(cuò)性等一系列特點(diǎn),故在信息處理、模式識(shí)別和智能控制等領(lǐng)域有著廣泛的應(yīng)用前景。與其他技術(shù)的結(jié)合取長(zhǎng)補(bǔ)短,以及由此而來的混合方法和混合系統(tǒng),已成為一大研究熱點(diǎn)。目前這方面工作有神經(jīng)網(wǎng)絡(luò)與模糊邏輯、專家系統(tǒng)、遺傳算法、小波分析、混沌、粗糙集理論、分形理論、證據(jù)理論和灰色系統(tǒng)等的融合,并取得了一定的成果。
4) 支持向量機(jī)。人工神經(jīng)網(wǎng)絡(luò)方法具有一系列的優(yōu)點(diǎn),但有時(shí)也存在泛化能力不強(qiáng)、算法耗時(shí)較多、往往需要有較多訓(xùn)練樣本等問題。支持向量機(jī)(SVM)是Vapnik根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論于1995年提出的,它采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)而非經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)原理,通過將樣本點(diǎn)所在的輸入空間映射到高維的特征空間,以達(dá)到線性可分或者線性近似可分的目的。
所謂支持向量是指那些在間隔區(qū)邊緣的訓(xùn)練樣本點(diǎn),支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)類似,都是學(xué)習(xí)型的機(jī)制,但與神經(jīng)網(wǎng)絡(luò)不同的是SVM使用的是數(shù)學(xué)方法和優(yōu)化技術(shù),而且在傳統(tǒng)的最優(yōu)化問題中提出了對(duì)偶理論,主要有最大最小對(duì)偶及拉格朗日對(duì)偶。
支持向量機(jī)是一種有堅(jiān)實(shí)理論基礎(chǔ)的小樣本學(xué)習(xí)方法,其最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目而不是樣本空間的維數(shù)。SVM的關(guān)鍵在于核函數(shù),低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間,只要選用適當(dāng)?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”;而且少數(shù)支持向量決定了最終結(jié)果,這樣可以剔除大量冗余樣本,所以算法簡(jiǎn)單而且具有較好的魯棒性。支持向量機(jī)理論在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),在表面檢測(cè)、模式識(shí)別、故障診斷等方面有成功的應(yīng)用,并表現(xiàn)出很高的有效性和魯棒性。
2.4.2 無監(jiān)督學(xué)習(xí)的模式識(shí)別無監(jiān)督學(xué)習(xí)的模式識(shí)別的訓(xùn)練樣本沒有類別標(biāo)簽,主要以聚類分組來揭示模式結(jié)構(gòu),也稱聚類。聚類是一個(gè)將數(shù)據(jù)集劃分為若干組或簇的過程,使得同一類的數(shù)據(jù)對(duì)象之間的相似度較高,而不同類的數(shù)據(jù)對(duì)象之間的相似度較低。
目前出現(xiàn)了大量的聚類算法,其選擇取決于數(shù)據(jù)的類型、聚類的目的。主要的聚類算法可以劃分為如下幾類:劃分方法、層次方法、密度方法、網(wǎng)格方法以及模型方法。
1) 劃分方法。劃分法(partitioning methods)是聚類分析中最為常見的一種方法,其目的是將給定的數(shù)據(jù)對(duì)象集通過劃分操作分成若干分組,每一個(gè)分組表示一個(gè)聚類。劃分時(shí)需要預(yù)先指定聚類數(shù)目或聚類中心,通過反復(fù)迭代運(yùn)算,逐步降低目標(biāo)函數(shù)的誤差值,當(dāng)目標(biāo)函數(shù)值收斂時(shí),得到最終聚類結(jié)果。常用的劃分法有:K-means、K-medoids、CLARA、CLARANS、K-prototypes等。
K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。將K-means方法與其他技術(shù)結(jié)合可以提高K-means方法的聚類能力,文獻(xiàn)[117]結(jié)合遺傳算法一定程度上解決了全局最優(yōu)或近似最優(yōu)解的問題;文獻(xiàn)[118]將免疫算法與K-means聚類相結(jié)合,提出了基于免疫規(guī)劃的K-means聚類分析方法;文獻(xiàn)[119]利用用窗口技術(shù)提高了K-means方法的聚類分析能力;文獻(xiàn)[120]在聚類分類數(shù)據(jù)中應(yīng)用禁忌搜索技術(shù);此外,文獻(xiàn)[121]提出了一種模糊K-prototypes算法,該算法融合了K-means和K-modes對(duì)數(shù)值型和分類型數(shù)據(jù)的處理方法,能夠處理混合類型的數(shù)據(jù);文獻(xiàn)[122]中將模糊數(shù)學(xué)理論與K-means算法融合,對(duì)K-means算法進(jìn)行了有效改進(jìn)。
2) 層次方法。層次法(Hierarchical Methods)也稱為樹聚類算法,層次聚類是將數(shù)據(jù)對(duì)象集分解成幾級(jí)逐級(jí)進(jìn)行聚類,遞歸地對(duì)給定的數(shù)據(jù)對(duì)象集進(jìn)行合并或分解,直到滿足限制條件為止,其聚類結(jié)果最終以類別樹的形式顯示。層次方法根據(jù)分解方式的不同可以分為凝聚式(agglomerative)和分裂式(division)。層次算法不需要預(yù)先指定聚類的數(shù)目,但是在凝聚或分裂的層次聚類算法中,用戶可以預(yù)先定義希望得到的聚類數(shù)目作為算法的結(jié)束條件,當(dāng)該條件達(dá)到滿足時(shí),算法將終止。其代表算法有:BIRCH、CURE、CHAMELEO N、 ROCK、SBAC和BUBBLE等。
層次聚類的優(yōu)點(diǎn)體現(xiàn)在算法能得到不同粒度的多層次聚類結(jié)構(gòu),缺陷在于沒有全局優(yōu)化的目標(biāo)函數(shù),合并或分裂點(diǎn)的選擇比較困難,對(duì)噪聲、孤立點(diǎn)數(shù)據(jù)比較敏感,不適于非凸型分布的數(shù)據(jù)對(duì)象集等。為此,研究者們給出了一些改進(jìn)算法,如將層次聚類和其他的聚類分析技術(shù)進(jìn)行集成,形成多階段聚類等。
3) 密度方法。密度方法(density-based methods)的指導(dǎo)思想是,只要一個(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)閾值,就把它加到與之相近的聚類中去,即通過數(shù)據(jù)密度(單位區(qū)域內(nèi)的實(shí)例數(shù))來發(fā)現(xiàn)任意形狀的類簇。該方法與其他方法的一個(gè)根本區(qū)別是:它不是基于距離的,而是基于密度的,這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點(diǎn)。其代表算法有:DBSCAN、OPTICS、DENCLUE、GDBSCAN、FDC算法等。
基于密度的聚類算法的優(yōu)點(diǎn)是一遍掃描,并可以很好的過濾噪聲和孤立點(diǎn)數(shù)據(jù),發(fā)現(xiàn)任意形狀、不定個(gè)數(shù)的類;其缺點(diǎn)是算法復(fù)雜度較高,對(duì)于密度分布不均的數(shù)據(jù)集聚類效果不佳。
4) 網(wǎng)格方法?;诰W(wǎng)格的方法采用一個(gè)網(wǎng)格數(shù)據(jù)結(jié)構(gòu),該結(jié)構(gòu)具有多分辨率,通過這個(gè)數(shù)據(jù)結(jié)構(gòu)可以將對(duì)數(shù)據(jù)對(duì)象的處理轉(zhuǎn)化為對(duì)網(wǎng)格空間的處理。這種方法首先將數(shù)據(jù)空間劃分成為有限個(gè)單元的網(wǎng)格結(jié)構(gòu),然后通過算法對(duì)網(wǎng)格空間進(jìn)行分割進(jìn)而實(shí)現(xiàn)聚類的目的。此聚類算法常常與其他方法相結(jié)合,特別是與基于密度的聚類方法相結(jié)合。其代表算法有:在高維數(shù)據(jù)空間中基于網(wǎng)格和密度相結(jié)合的聚類方法(CLIQUE算法),基于小波變換的聚類方法(Wave-Cluster算法),利用存儲(chǔ)在網(wǎng)格中的統(tǒng)計(jì)信息的STING算法。
基于網(wǎng)格的方法的主要優(yōu)點(diǎn)是執(zhí)行速度快,它的時(shí)間復(fù)雜度僅依賴于量化空間中每一維上的單元數(shù)目;但該算法因網(wǎng)格單元的數(shù)目隨著維數(shù)的增加而呈指數(shù)的增長(zhǎng)故不適于高維數(shù)據(jù),而且高效率以聚類結(jié)果的精確性為代價(jià)。
5) 圖論算法。圖論分裂聚類算法的主要思想是:構(gòu)造一棵關(guān)于數(shù)據(jù)的最小生成樹,通過刪除最小生成樹的最長(zhǎng)邊來形成類.基于圖論的聚類算法主要包括RANDOMWALK、CHAMELEON、AUTOCLUST等。
6) 模型算法?;谀P偷姆椒ńo每一個(gè)聚類假定一個(gè)模型,然后去尋找能夠很好的滿足這個(gè)模型的數(shù)據(jù)集。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其他。該方法基于目標(biāo)數(shù)據(jù)集由一系列的概率分布所決定這一假設(shè),通過構(gòu)造反映數(shù)據(jù)對(duì)象空間分布的密度函數(shù)來進(jìn)行聚類。該算法通常分為兩種:基于統(tǒng)計(jì)學(xué)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。前者主要有以分類樹的形式創(chuàng)建層次聚類的COBWEB算法及其擴(kuò)展COBWEB算法;后者主要有競(jìng)爭(zhēng)學(xué)習(xí)型和自組織特征映射型(SOM)等[123]。
以上傳統(tǒng)的聚類方法都具有各自的優(yōu)點(diǎn),在各自的適用領(lǐng)域取得了較大的成功。但是,這些聚類方法也存在以下問題:在進(jìn)行聚類之前都需要事先確定要得到的聚類的數(shù)目,然而在現(xiàn)實(shí)數(shù)據(jù)中,聚類的數(shù)目往往是未知的;處理大規(guī)模數(shù)據(jù)和高維數(shù)據(jù)的能力、計(jì)算效率、有效的消除噪聲的影響等方面都有待于提高;此外,有的聚類算法對(duì)輸入?yún)?shù)的取值十分敏感,而且參數(shù)的取值沒有成熟的理論依據(jù),只能依靠用戶的經(jīng)驗(yàn)來確定。除上述聚類方法外,學(xué)者們還研究了其他大量的聚類方法,下面列出了幾類:
1) 模糊聚類方法。1969年,Ruspini首次提出了模糊聚類算法(FCM)。FCM是一種以隸屬度來確定每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)聚類程度的算法,能保留初始圖像的更多信息。然而,F(xiàn)CM沒有考慮圖像上下文中的空間信息,對(duì)噪聲較敏感。學(xué)者們圍繞FCM算法開展了大量研究,比如,李潔等人[124]采用ReliefF算法[125]確定各維特征的權(quán)重,提出了基于特征加權(quán)的模糊聚類新算法NFWFCA;Cai等人[126]結(jié)合局部空間和灰度信息,提出快速通用FCM聚類算法FGFCM,該算法計(jì)算簡(jiǎn)單,適合大幅灰度圖像和有噪聲和無噪聲的多種類型圖像;唐利明等人[127]結(jié)合變分水平集方法和模糊聚類,提出了一個(gè)基于變分水平集的圖像聚類分割模型,該模型引入了一個(gè)基于圖像局部信息的外部模糊聚類能量和一個(gè)新的關(guān)于零水平集的正則化能量,使得該模型對(duì)噪聲圖像的聚類分割更具魯棒性;王雪等人[128]提出一種多相水平集模型協(xié)同空間模糊C-均值聚類(SFCM)的圖像多目標(biāo)分割算法, 即SFCM-MLS算法,用空間模糊聚類獲取圖像多目標(biāo)粗分割結(jié)果,然后用粗分割結(jié)果定義多相水平集模型的初始水平集函數(shù)對(duì)圖像做精分割,SFCM-MLS算法對(duì)初始位置不敏感,提高了圖像多目標(biāo)分割的準(zhǔn)確性。
2) 迭代自組織數(shù)據(jù)分析算法。迭代自組織數(shù)據(jù)分析算法(ISODATA)的主要思想是首先根據(jù)最小距離準(zhǔn)則獲得初始聚類,再判斷初始聚類結(jié)果是否符合要求。若不符合,則將聚類集進(jìn)行分裂和合并處理,得到新的聚類中心,再判斷聚類結(jié)果是否符合要求。如此反復(fù)迭代直到完成聚類操作。ISODATA與K-MEANS一樣,聚類中心的位置通過樣本均值的迭代運(yùn)算決定,但I(xiàn)SODATA聚類中心數(shù)目不是固定的,而且反復(fù)修正,在迭代過程中可將一類一分為二,也可以兩類合并,即“自組織”。ISODATA具有啟發(fā)性、計(jì)算并不復(fù)雜,適用于識(shí)別致密聚類。時(shí)靜潔等人[129]將ISODATA與蟻群算法(ACO)算法相結(jié)合,建立相關(guān)模型對(duì)有機(jī)化合物的黏度進(jìn)行QSPR研究,解決了小樣本、非線性和維數(shù)災(zāi)難等問題。
3) 模擬退火聚類算法。模擬退火算法(SA)最初由Metropolis等人于20世紀(jì)80年代初提出,其思想源于物理中固體物質(zhì)退火過程與一般組合優(yōu)化問題之間的相似性,通過模擬高溫物體退火過程的方法來找到優(yōu)化問題的全局最優(yōu)或近似全局最優(yōu)解。SA是一種啟發(fā)式隨機(jī)搜索算法,具有并行性和漸近收斂性,目前已廣泛應(yīng)用于圖像識(shí)別、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等優(yōu)化問題。如張引、潘云鶴[130]采用模擬退火技術(shù)求解最大似然聚類用于圖像分割,解決了用迭代方法求解最大似然聚類只能得到局部最優(yōu)解的問題.獲得的圖像分割效果優(yōu)于迭代方法和著名的Otsu方法;Neethirajan等人[131]基于模擬退火算法對(duì)儲(chǔ)糧害蟲進(jìn)行了識(shí)別分類。
4) 粗糙集方法。粗糙集理論是波蘭科學(xué)家Pawlak提出的,它是一種新型的處理模糊和不確定知識(shí)的數(shù)學(xué)工具,揭示潛在的規(guī)律能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并能從中發(fā)現(xiàn)隱含的知識(shí)和揭示潛在的規(guī)律[132-133]。它提供了一套比較完備的從小樣本數(shù)據(jù)中尋找規(guī)律的系統(tǒng)方法,用其可找到描述正常模型的最小預(yù)測(cè)規(guī)則集,其不僅有利于提高檢測(cè)速度,而且可應(yīng)用于系統(tǒng)的實(shí)時(shí)檢測(cè)。
目前,粗糙集理論已經(jīng)在數(shù)據(jù)的決策和分析、模式識(shí)別、機(jī)器學(xué)習(xí)等方面有著成功的應(yīng)用,已成為信息科學(xué)最活躍的研究領(lǐng)域之一。如文獻(xiàn)[134]基于RS理論對(duì)帶鋼表面缺陷圖像進(jìn)行了識(shí)別分類,并同BP算法進(jìn)行了對(duì)比,驗(yàn)證了基于粗糙集的分類識(shí)別算法的有效性。
此外,蟻群聚類算法、粒子群聚類算法、基于遺傳算法的聚類方法、基于核的聚類算法等得到應(yīng)用,廣大學(xué)者們正致力于具有聚類能力強(qiáng)、自適應(yīng)、效率高等特點(diǎn)的聚類算法研究,并注重將不同的聚類思想進(jìn)行融合以形成新的聚類等新算法。如,王孫安等人[135]提出一種混沌免疫模糊聚類算法,該算法把混沌變量加載于免疫算法的變量群體中,利用混沌搜索的特點(diǎn)對(duì)群體進(jìn)行微小擾動(dòng)并逐步調(diào)整擾動(dòng)幅度,提高了基于人工免疫進(jìn)化算法的模糊聚類算法的搜索效率;吳一全等人[136]提出了一種利用核模糊C均值聚類和正則化的圖像稀疏去噪方法,更有效地去除圖像噪音,保留圖像細(xì)節(jié),改善圖像視覺效果;Nunes應(yīng)用一種人工免疫進(jìn)化網(wǎng)絡(luò)用于聚類[137]。
3 主要問題和發(fā)展趨勢(shì)
基于機(jī)器視覺的表面缺陷檢測(cè)將是未來研究和發(fā)展的主要方向,目前,基于機(jī)器視覺的表面缺陷檢測(cè)理論研究和實(shí)際應(yīng)用等環(huán)節(jié)均有可喜的成果,但仍存在下面主要的問題和難點(diǎn):
1) 受環(huán)境、光照、生產(chǎn)工藝和噪聲等多重因素影響,檢測(cè)系統(tǒng)的信噪比一般較低,微弱信號(hào)難以檢出或不能與噪聲有效區(qū)分。如何構(gòu)建穩(wěn)定、可靠、魯棒的檢測(cè)系統(tǒng),以適應(yīng)光照變化、噪聲以及其他外界不良環(huán)境的干擾,是要解決的問題之一。
2) 由于檢測(cè)對(duì)象多樣、表面缺陷種類繁多、形態(tài)多樣、復(fù)雜背景,對(duì)于眾多缺陷類型產(chǎn)生的機(jī)理以及其外在表現(xiàn)形式之間的關(guān)系尚不明確,致使對(duì)缺陷的描述不充分,缺陷的特征提取有效性不高,缺陷目標(biāo)分割困難;同時(shí),很難找到“標(biāo)準(zhǔn)”圖像作為參照,這給缺陷的檢測(cè)和分類帶來困難,造成識(shí)別率尚有待提高。
3) 機(jī)器視覺表面缺陷檢測(cè),特別是在線檢測(cè),其特點(diǎn)是數(shù)據(jù)量龐大、冗余信息多、特征空間維度高,同時(shí)考慮到真正的機(jī)器視覺面對(duì)的對(duì)象和問題的多樣性,從海量數(shù)據(jù)中提取有限缺陷信息的算法能力不足,實(shí)時(shí)性不高。
4) 與機(jī)器視覺表面檢測(cè)密切相關(guān)的人工智能理論雖然得到了很大的發(fā)展,但如何模擬人類大腦的信息處理功能去構(gòu)建智能機(jī)器視覺系統(tǒng)還需要理論上的進(jìn)一步研究,如何更好的基于生物視覺認(rèn)識(shí)、指導(dǎo)機(jī)器視覺得檢測(cè)也是研究人員的難點(diǎn)之一。
5) 從機(jī)器視覺表面檢測(cè)的準(zhǔn)確性方面來看,盡管一系列優(yōu)秀的算法不斷出現(xiàn),但在實(shí)際應(yīng)用中準(zhǔn)確率仍然與滿足實(shí)際應(yīng)用的需求尚有一定差距,如何解決準(zhǔn)確識(shí)別與模糊特征之間、實(shí)時(shí)性與準(zhǔn)確性之間的矛盾仍然是目前的難點(diǎn)。
隨著計(jì)算機(jī)技術(shù)、信息技術(shù)、電子技術(shù)、傳感器技術(shù)和仿生技術(shù)等的發(fā)展,機(jī)器視覺檢測(cè)方法也必將得到迅速的發(fā)展。技術(shù)和市場(chǎng)需求等因素決定了機(jī)器視覺表面缺陷檢測(cè)的發(fā)展趨勢(shì)為:
1) MARR理論對(duì)計(jì)算機(jī)視覺發(fā)揮了巨大作用,其核心是將視覺理解為3D重建的過程。但是,從3D場(chǎng)景到2D圖像是一個(gè)多對(duì)一的映射,在映射的過程中損失了深度信息;灰度是對(duì)場(chǎng)景的惟一的測(cè)量值,諸如光照、材料特性、朝向和距離等信息都無法反映;成像中由于噪聲及環(huán)境等因素的干擾,都會(huì)使圖像產(chǎn)生失真。為此,需要研究視覺檢測(cè)新理論和新方法,如發(fā)展主動(dòng)視覺、增強(qiáng)視覺系統(tǒng)的智能學(xué)習(xí)能力等。
2) 從生物視覺得到啟發(fā),吸收來自心理學(xué)、生理學(xué)等其他學(xué)科中生物視覺的最新研究成果,基于生物視覺機(jī)制為視覺檢測(cè)提供研究新思路,模仿生物視覺多尺度、層次性的視覺特點(diǎn),結(jié)合視覺任務(wù),引入先驗(yàn)高級(jí)知識(shí)的指導(dǎo),同時(shí)將機(jī)器視覺、機(jī)器聽覺、機(jī)器嗅覺、機(jī)器觸覺等多信息相互融合,突破單一視覺信息的局限性,也將成為機(jī)器視覺檢測(cè)的發(fā)展方向之一。
3) 研究更具魯棒性的圖像處理和分析算法,提高圖像處理的有效性和和執(zhí)行效率,降低算法的復(fù)雜度,提高識(shí)別的準(zhǔn)確性。在在線檢測(cè)系統(tǒng)中,要特別注重實(shí)時(shí)性,視覺本身具有內(nèi)在的并行性,為此,還在要理論、算法和技術(shù)等多方面研究視覺并行計(jì)算,提高視覺計(jì)算的速度。同時(shí),進(jìn)一步研究算法性能的評(píng)價(jià)方法,以對(duì)算法的效率和性能作了科學(xué)、準(zhǔn)確的刻化和評(píng)價(jià)。
4) 研究完整3維場(chǎng)景重建方法?,F(xiàn)有3維場(chǎng)景重建理論和算法基本都局限于對(duì)目標(biāo)“可視”部分的重構(gòu),如果用Marr視覺計(jì)算理論來說,還主要停留在2.5維表達(dá)上,這種表達(dá)僅提供了物體可見輪廓以內(nèi)的3維信息。如何恢復(fù)物體完整表面的信息,即包括物體表面不可見部分,是一個(gè)復(fù)雜但也亟待解決的問題。
5) 采用統(tǒng)一而開放的標(biāo)準(zhǔn),構(gòu)建標(biāo)準(zhǔn)化、一體化和通用化的解決方案,標(biāo)準(zhǔn)化與個(gè)性化的進(jìn)一步統(tǒng)一,研發(fā)可靠性高、維護(hù)性好、便于不斷完善和升級(jí)換代、網(wǎng)絡(luò)化、自動(dòng)化和智能化更高的機(jī)器視覺系統(tǒng)是今后的發(fā)展趨勢(shì)。
4 結(jié)論
機(jī)器視覺系統(tǒng)的研究和應(yīng)用范圍涵蓋了工業(yè)、農(nóng)業(yè)、醫(yī)藥、軍事、交通和安全等國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域,基于機(jī)器視覺的產(chǎn)品表面質(zhì)量檢測(cè)在現(xiàn)代自動(dòng)化生產(chǎn)中得到了越來越多的重視和應(yīng)用。
機(jī)器視覺表面缺陷檢測(cè)系統(tǒng)中,圖像處理和分析算法是重要的內(nèi)容,通常的流程包括圖像的預(yù)處理、目標(biāo)區(qū)域的分割、特征提取和選擇及缺陷的識(shí)別分類。每個(gè)處理流程都出現(xiàn)了大量的算法,這些算法各有優(yōu)缺點(diǎn)和其適應(yīng)范圍。如何提高算法的準(zhǔn)確性、執(zhí)行效率、實(shí)時(shí)性和魯棒性,一直是研究者們努力的方向。
機(jī)器視覺表面檢測(cè)比較復(fù)雜,涉及眾多學(xué)科和理論,機(jī)器視覺是對(duì)人類視覺的模擬,但是目前對(duì)人的視覺機(jī)制尚不清楚,盡管每一個(gè)正常人都是“視覺專家”,但難以用計(jì)算機(jī)表達(dá)自己的視覺過程,因此構(gòu)建機(jī)器視覺檢測(cè)系統(tǒng)還要進(jìn)一步通過研究生物視覺機(jī)理來完善,使檢測(cè)進(jìn)一步向自動(dòng)化和智能化方向發(fā)展。