當(dāng)前,現(xiàn)代的電力系統(tǒng)的日常可靠運(yùn)行,都*依賴于高度信息化的網(wǎng)絡(luò)通信與安全防護(hù)。如果電力網(wǎng)絡(luò)或者相關(guān)管理信息系統(tǒng)遭到破壞,就會(huì)導(dǎo)致電力系統(tǒng)不能正常運(yùn)行,甚至導(dǎo)致癱瘓。近年來(lái),入侵檢測(cè)系統(tǒng)、防火墻、防病毒軟件、網(wǎng)絡(luò)隔離、加解密軟硬件、訪問(wèn)控制和VPN等網(wǎng)絡(luò)安全技術(shù)或產(chǎn)品在電力行業(yè)得到了廣泛應(yīng)用,大大增強(qiáng)了電力企業(yè)抵御外部攻擊的能力。傳統(tǒng)的電力系統(tǒng)依靠不同的安全設(shè)備進(jìn)行防御,這些設(shè)備根據(jù)網(wǎng)絡(luò)攻擊檢測(cè)情況,每天會(huì)產(chǎn)生大量的攻擊日志和流量信息。如文獻(xiàn)[4]中指出某電力系統(tǒng)面臨的實(shí)際安全問(wèn)題:信息外網(wǎng)日均產(chǎn)生互聯(lián)網(wǎng)流量高達(dá)5.51T,日均攔截非法訪問(wèn)3萬(wàn)余次,查殺病毒100萬(wàn)余個(gè),阻斷網(wǎng)站攻擊18萬(wàn)余次。
利用網(wǎng)絡(luò)安全流量與日志信息進(jìn)行系統(tǒng)安全分析在國(guó)內(nèi)外研究中越來(lái)越普遍和受到重視。如:文獻(xiàn)[5]設(shè)計(jì)并開發(fā)了一套基于日志分析的電力信通網(wǎng)絡(luò)安全預(yù)警系統(tǒng),該預(yù)警系統(tǒng)可對(duì)信息通信系統(tǒng)中不同設(shè)備的日志進(jìn)行采集和統(tǒng)一管理,實(shí)現(xiàn)對(duì)信息通信系統(tǒng)的威脅檢測(cè)和安全預(yù)警。文獻(xiàn)[6]指出在網(wǎng)絡(luò)安全建議使用大數(shù)據(jù)的新安全日志系統(tǒng),通過(guò)分析主要IT基礎(chǔ)設(shè)施的網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用服務(wù)所產(chǎn)生的安全與數(shù)據(jù)事件之間的關(guān)系,增強(qiáng)安全智能。文獻(xiàn)[7]已經(jīng)通過(guò)對(duì)多源、異構(gòu)網(wǎng)絡(luò)安全檢測(cè)日志信息進(jìn)行采集、利用多種方式進(jìn)行分析,從而尋找合理可信的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)整體態(tài)勢(shì)感知。
1電力系統(tǒng)安全流量與日志分析處理
當(dāng)前,我國(guó)現(xiàn)有的電力系統(tǒng)安全防御普遍沒(méi)有做到立體防御,更多的是線式堆砌模型,就是針對(duì)不同的安全風(fēng)險(xiǎn),購(gòu)買了大量不同的安全檢測(cè)設(shè)備或軟件,每個(gè)設(shè)備互不相同,且都產(chǎn)生各次的檢測(cè)日志和數(shù)據(jù)流信息,設(shè)備間或軟件間無(wú)法直接溝通與協(xié)同控制。
1.1流量日志數(shù)據(jù)來(lái)源日志消息,是指在特定的操作系統(tǒng)下引發(fā)系統(tǒng),設(shè)備、軟件生成的記錄。由于電力系統(tǒng)包含多種不同安全設(shè)備,不用的數(shù)據(jù)傳輸網(wǎng)絡(luò),根據(jù)流量日志信息來(lái)源,可以將電力系統(tǒng)日志大致分為:網(wǎng)絡(luò)設(shè)備日志、安全檢測(cè)設(shè)備日志、主機(jī)(服務(wù)器)日志、應(yīng)用系統(tǒng)(數(shù)據(jù)庫(kù))和業(yè)務(wù)系統(tǒng)日志等。根據(jù)日志信息格式大致可以分為:Traf?clog,WELF和Syslog和二進(jìn)制。其中,Traf?clog是設(shè)備保存的基于流量的日志,該日志彌補(bǔ)了Syslog中沒(méi)有流量信息的確定。WELF(WebTrendsEnhancedLogFormat)是WebTrends專有的格式,很多的防火墻都支持的日志格式。Syslog是在Unix平臺(tái)下提出的,其格式比較簡(jiǎn)單,主要由時(shí)間戳、日志來(lái)源和日志描述三部分構(gòu)成。
1.2流量日志數(shù)據(jù)預(yù)處理日志信息預(yù)處理重在消除“數(shù)據(jù)孤島”,建立電力系統(tǒng)安全日志整體協(xié)同融合能力,并形成安全監(jiān)管、控制的全量數(shù)據(jù)資產(chǎn)。1.2.1數(shù)據(jù)清洗數(shù)據(jù)清洗是指對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。當(dāng)前,電力系統(tǒng)的原始日志數(shù)據(jù)存在噪聲多、缺失數(shù)據(jù)嚴(yán)重、數(shù)據(jù)重復(fù)率高等缺點(diǎn),且數(shù)據(jù)格式不統(tǒng)一,故需要根據(jù)需要進(jìn)行原始數(shù)據(jù)清洗工作。1.2.2數(shù)據(jù)標(biāo)準(zhǔn)化電力系統(tǒng)安全日志數(shù)據(jù)格式眾多,不能簡(jiǎn)單的采用一種數(shù)據(jù)格式進(jìn)行標(biāo)準(zhǔn)化,因?yàn)閱我坏臄?shù)據(jù)格式要么包含的屬性過(guò)多,導(dǎo)致數(shù)據(jù)可讀性差,難以處理;要么屬性過(guò)少,難以準(zhǔn)確呈現(xiàn)網(wǎng)絡(luò)攻擊安全特征,降低檢測(cè)能力。因此,為了便于將多源、異構(gòu)的安全設(shè)備日志標(biāo)準(zhǔn)化,首先建立安全日志的“元數(shù)據(jù)”信息,并且將元數(shù)據(jù)格式標(biāo)準(zhǔn)統(tǒng)一。
2大數(shù)據(jù)安全流量日志平臺(tái)構(gòu)建
參照大數(shù)據(jù)在其他多源、異構(gòu)系統(tǒng)的成功應(yīng)用研究和大數(shù)據(jù)本身的技術(shù)優(yōu)勢(shì),本文提出的基于大數(shù)據(jù)的電力系統(tǒng)安全多源流量日志分析平臺(tái)分為多源異構(gòu)數(shù)據(jù)層、大數(shù)據(jù)存儲(chǔ)層、大數(shù)據(jù)分析挖掘?qū)?、?shù)據(jù)展示層。2.1原始數(shù)據(jù)層該層主要完成來(lái)自原始日志信息的采集。主要包括網(wǎng)絡(luò)流量設(shè)備日志(如交換機(jī)、路由器等)、網(wǎng)絡(luò)安全設(shè)備日志(如防火墻、入侵檢測(cè)設(shè)備等)、主機(jī)設(shè)備日志(Linux、Windows等)、漏洞信息(網(wǎng)絡(luò)掃描Nessus、X-Scan等)。2.2大數(shù)據(jù)存儲(chǔ)層該層主要完成對(duì)原始采集的日志信息進(jìn)行大數(shù)據(jù)存儲(chǔ),主要通過(guò)Flume、Sqoop、Kafka和Storm結(jié)合使用方法完成。其中,數(shù)據(jù)流的實(shí)時(shí)處理,通過(guò)Sqoop組件導(dǎo)入到HBase中存儲(chǔ),利用Kafka的生產(chǎn)、消費(fèi)者和代理模式,使用Flume作為日志收集系統(tǒng),將收集到的數(shù)據(jù)輸送到Kafka中間件,以供Storm去實(shí)時(shí)消費(fèi)計(jì)算。離線數(shù)據(jù)基于HDFS的海量分布式存儲(chǔ)體系,本平臺(tái)選用默認(rèn)的64M數(shù)據(jù)塊的存儲(chǔ)單位,對(duì)采集的小文件進(jìn)行歸并處理,滿足每個(gè)文件64M的規(guī)模大小。HBase是當(dāng)前非常流行的海量分布式開源數(shù)據(jù)庫(kù)系統(tǒng)。HBase采用列式存儲(chǔ)。部分經(jīng)過(guò)計(jì)算分析整理后的日志或數(shù)據(jù)流數(shù)據(jù)存儲(chǔ)到HBase中。對(duì)于結(jié)構(gòu)化的元數(shù)據(jù)信息,本平臺(tái)選用MySQL數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù)之間的關(guān)聯(lián)導(dǎo)入導(dǎo)出操作,我們采用Sqoop進(jìn)行數(shù)據(jù)轉(zhuǎn)換。2.3大數(shù)據(jù)分析挖掘?qū)訛榱四軌驅(qū)﹄娏ο到y(tǒng)安全日志數(shù)據(jù)進(jìn)行基于大數(shù)據(jù)的分析和處理,選取Spark+Hadoop結(jié)合的方法實(shí)現(xiàn)。Spark的核心組件包括RDD(ResilientDistributedDatasets)、Scheduler、Storage、Shuf?e四部分:RDD是Spark核心精髓的部分,Spark將所有數(shù)據(jù)都抽象成RDD。Scheduler是Spark的調(diào)度機(jī)制,分為DAGScheduler和TaskScheduler。Storage模塊主要管理緩存后的RDD、shuf?e和broadcast數(shù)據(jù)。為了實(shí)現(xiàn)電力系統(tǒng)安全日志的關(guān)聯(lián)、聚類和異常等分析,本平臺(tái)選取Mahout機(jī)器學(xué)習(xí)相關(guān)算法進(jìn)行日志信息分類、聚類、關(guān)聯(lián)分析等操作。2.4數(shù)據(jù)展示層為了能夠直觀、快捷的將電力系統(tǒng)面臨的安全威脅展示出來(lái),本平臺(tái)通過(guò)Web形式展示。展示內(nèi)容主要包括:安全態(tài)勢(shì)感知內(nèi)容、威脅情報(bào)與資源共享、攻擊擴(kuò)散關(guān)聯(lián)路徑分析、智能檢索等。展示平臺(tái)主要采用HTML5,JavaScript,CSS,J2EE或者Nodejs,AngularJS,Highcharts等技術(shù)實(shí)現(xiàn)。
3實(shí)驗(yàn)及分析
為了驗(yàn)證基于大數(shù)據(jù)的電力系統(tǒng)安全流量與日志處理框架的有效性,本文收集了防火墻、交換機(jī)、堡壘機(jī)等設(shè)備產(chǎn)生的流量日志,如交換機(jī)Syslog流量日志原始數(shù)據(jù)如表1所示,接著基于大數(shù)據(jù)平臺(tái),完成日志分析處理,流程圖如圖1所示。實(shí)驗(yàn)選取Cloudera來(lái)搭建實(shí)驗(yàn)環(huán)境,Cloudera包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop等,簡(jiǎn)化了大數(shù)據(jù)平臺(tái)的安裝、使用難度。實(shí)驗(yàn)環(huán)境包括:Vmware虛擬機(jī)、操作系統(tǒng)CentOS6.5x64、ClouderManager5.14.0、CDH5.14.0。實(shí)驗(yàn)采取*分布式配置,包括1個(gè)master節(jié)點(diǎn)和2個(gè)slave節(jié)點(diǎn)。實(shí)驗(yàn)選取不同大小的Syslog日志,比較SQL查詢與Hadoop平臺(tái)的處理效率。檢測(cè)結(jié)果如表2所示。在2.68M時(shí),MySQL查詢效率高于Hive的查詢效率。隨著數(shù)據(jù)量增大,Hive的查詢效率要好于MySQL,數(shù)據(jù)規(guī)模越大,Hive查詢統(tǒng)計(jì)效率越明顯。這是因?yàn)椋?dāng)數(shù)據(jù)量小時(shí),MySQL的延時(shí)低,而Hive查詢是利用MapReduce算法,相對(duì)延時(shí)比較高;而當(dāng)數(shù)據(jù)規(guī)模增大到10萬(wàn)條以上,MySQL需要逐條計(jì)算,耗時(shí)長(zhǎng),且容易出錯(cuò);Hive采用并行計(jì)算,將大規(guī)模數(shù)據(jù)計(jì)算切分為多個(gè)小規(guī)模的分塊數(shù)據(jù),每個(gè)分塊單獨(dú)計(jì)算,整體時(shí)間少。該實(shí)驗(yàn)充分驗(yàn)證了采用Hadoop大數(shù)據(jù)平臺(tái)并行處理相比傳統(tǒng)串行處理有非常明顯的效率和存儲(chǔ)優(yōu)勢(shì)。
相關(guān)產(chǎn)品
免責(zé)聲明
- 凡本網(wǎng)注明“來(lái)源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來(lái)源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。