“維基百科”是這樣定義事件管理(Event Management) 的,事件管理是項目管理在大型活動創(chuàng)新和發(fā)展中的應用,如節(jié)日、會議、慶典、婚禮、聚會、音樂會、集會等。這里面包含了品牌研究、目標受眾確定、活動概念設計,以及活動實際發(fā)生前的技術協(xié)調。
如果我們把這個概念投射到 IT領域,事件管理就是為了實現(xiàn)某個特定的業(yè)務訴求,將事務狀態(tài)變化信息與人員響應進行聯(lián)動的一系列過程。
事件管理的目標是檢測并記錄這些事務狀態(tài)的變更,以便獲得對業(yè)務風險和商業(yè)機會的完全可見性。例如:用戶登錄,轉賬失敗,業(yè)務系統(tǒng)版本升級,數(shù)據(jù)備份,服務器維護完成,這些都是團隊需要跟蹤的變更。盡管這些變更并不直接反映服務質量的下降,但它們可能會暗示存在影響用戶體驗的潛在風險。因此,全面的收集事件信息,確定響應優(yōu)先級,并采取相應的措施,就變得非常關鍵。
隨著商業(yè)模式和 IT支撐環(huán)境復雜性的增加,團隊需要管理的事件規(guī)模也呈指數(shù)級增長,但管理事件的人員數(shù)量卻沒有得到增加。現(xiàn)在,許多團隊每天都在和成千上萬甚至數(shù)百萬事件打交道,受限于資源投入,幾乎不可能有效地將高價值信息與噪音從海量事件中分離出來,以洞察風險和機會。
而這正是事件管理解決方案的核心能力所在。事件管理平臺通過集成能力對接和匯聚事件,過濾噪音,識別風險,并通知適當人員進行相應的操作。隨著企業(yè)數(shù)字化轉型的加速和 IT 交付風險的增高,通過集成化的事件管理平臺提升事件和關聯(lián)行動間的處理效率,比以往任何時候都更加重要。
事件相關概念的定義
在深入事件管理這個話題之前,我們需要對三個概念進行簡要的剖析,以便后續(xù)更準確的理解事件管理的含義和價值。
這三個概念分別是Event(事件),Alert(告警)和Incident(事件集)。其中,事件和告警比較容易理解和區(qū)分,但是Event和Incident在中文語境中通常都被翻譯為事件,容易造成混淆,為了對二者加以區(qū)分,我們將Event稱作事件,Incident稱作事件集。下面是這三個名詞的具體定義和說明:
Event 事件,是事務狀態(tài)在某個時間點的客觀描述,沒有好壞之分。它由一個或多個相關指標的狀態(tài)信息組成,這些指標狀態(tài)可被監(jiān)控、分類和變更。例如:2020/5/6 13:27:34,10.1.1.1,磁盤空間利用率為51%。2020/5/1 09:29:32,13900000000,充值100元成功。
Alert 告警,是主觀判定的事務異常狀態(tài)的描述。它由監(jiān)控(或其他)工具產生,反映事物指標的異常。例如:2020/5/6 17:25:18,10.1.1.1,磁盤空間利用率為64%,高于60%,警告級別告警。一般來說,事件和告警本身并不影響客戶體驗和業(yè)務運行,不需要人員進行介入處理。
Incident 事件集,是由一個或多個相關事件和告警組成,反映業(yè)務運行或用戶體驗問題。例如:我們將10.1.1.1服務器的幾個磁盤相關告警(磁盤空間利用率高于60%,磁盤空間利用率高于80%,磁盤空間已滿)組成一個事件集,這個事件集反映了業(yè)務服務質量持續(xù)下降,影響了客戶體驗。事件可能不是事件集,因為事件也許并沒有任何實際的客戶影響,但是所有事件集都是事件,因為事件提供了正在發(fā)生的事情集的原始上下文。
事件管理最高效的方式是以人為中心,將人和反映業(yè)務故障的事件集進行結合,而不是人員將時間浪費在處理海量的郵件和電話轟炸上,在大量的原始事件中發(fā)現(xiàn)和診斷問題。
為什么事件管理 如此 重要
雖然我們的企業(yè)準備了非常詳盡的業(yè)務連續(xù)性保障計劃和應急預案,但是業(yè)務環(huán)境復雜度的不斷攀升和行業(yè)競爭的進一步加劇,對業(yè)務風險和商業(yè)機會的應對效率也提出了更高的要求。收集更加全面的信息,運用智能化的手段,幫助團隊實時評估風險和收益,提升反應速度和準確性,就變得至關重要。事件管理平臺運用事件流處理和人工智能技術將這一過程自動化,充分挖掘海量事件中的核心高價值信息,并將風險和機會與人員進行關聯(lián),運用現(xiàn)代化的通訊和協(xié)作工具,提供更加便捷、全面、準確的事件評估和響應。
事件管理的價值還包括:
更主動的風險防范
更快速的業(yè)務恢復
更高效的團隊協(xié)作
更敏捷的實時響應
事件管理可幫助組織定義檢測和催化對任何會影響服務管理和性能的事件的正確正確響應的外觀。
事件管理的核心能力
事件是對事務狀態(tài)的客觀描述,有效的事件管理計劃和戰(zhàn)略是一個跨場景、端到端的處理流程,能夠降低或消除風險帶來的影響,挖掘和拓展新的商業(yè)機會,提升團隊的響應速度,并優(yōu)化產出結果。
事件管理包括以下三個方面能力:
集成化
收集和獲取更加全面的事件數(shù)據(jù),是更加精準的進行風險評估和商機挖掘的前提。與企業(yè)數(shù)字化生態(tài)廣泛的建立連接,實現(xiàn)實時的事件接收和消息推送,確保事件在系統(tǒng)和人員間進行快速的流轉。
智能化
結合豐富的上下文數(shù)據(jù),主動對風險和機會進行分類、篩選、檢測,并將該信息與資產、人員相關聯(lián),在損失真正造成前預判,幫助團隊成員準確的掌握業(yè)務狀態(tài)和威脅,避免誤漏,更好的進行決策。
流程化
無需大量人工參與,自動化的處理流程幫助團隊在風險和機會尚未確認前自主開展工作。在問題處理過程中,事件按照既定的分派策略和通知方式在團隊成員中自動進行流轉,進一步提升應對效率,確保行動的有效性。
典型的事件管理 流程
1. 事件接入 事件和告警由特定的工具檢測生成,并集成到統(tǒng)一的處理平臺。
2.事件 處理 針對不同事件源產生的事件,通過數(shù)據(jù)格式化,自定義數(shù)據(jù)提取和數(shù)據(jù)內容豐富進行數(shù)據(jù)治理,并將重復和冗余的噪音剔除,再通過規(guī)則或算法生成反映業(yè)務問題的事件集。
3.事件 分派 根據(jù)事件集的特征,將通知在第一時間動態(tài)路由到個人、組、協(xié)作團隊,并通過流程化管理確保事件信息和人員間無縫銜接。
4. 事件 響應 事件處理人員根據(jù)自身的條件,在PC端、移動端、協(xié)作工具中對事件進行認領、指派、協(xié)同、轉發(fā)、關閉等操作。
5. 事件 解決 在問題解決后,將處理過程記錄到事件解決方案中,沉淀知識以指導后續(xù)類似場景的處理。
事件管理的應用場景
智能運維 AIOps
智能事件管理整合 IT 監(jiān)控工具告警信息,智能化降低95%告警噪音,自動化事件管理流程,加強團隊協(xié)作,加速故障定位和修復,將業(yè)務影響降到最低。
安全信息事件管理 SIEM
匯聚企業(yè)內、外部安全事件,通過規(guī)則引擎和事件流處理引擎,實時洞察安全風險,并利用靈活的事件處置流程,幫助團隊主動應對安全事故。
物聯(lián)網(wǎng)應用 Internet of Things
將智能設備、傳感器的事件信息在物聯(lián)網(wǎng)邊緣節(jié)點和核心節(jié)點實時進行匯總、加工,通過事件流式處理,捕獲和發(fā)現(xiàn)新的數(shù)據(jù)模型,挖掘更多高價值應用場景。
業(yè)務分析 Business Analysis
打通業(yè)務運營和 IT 支撐的數(shù)據(jù)邊界,從系統(tǒng)中實時獲取更多的業(yè)務數(shù)據(jù),幫助團隊對影響業(yè)務的事件做出快速、正確的反應。在危機時刻,掌控混亂局面。
【版權聲明】凡本站未注明來源為"中國科學網(wǎng)"的所有作品,均轉載、編譯或摘編自其它媒體,轉載、編譯或摘編的目的在于傳遞更多信息,并不代表本站及其子站贊同其觀點和對其真實性負責。其他媒體、網(wǎng)站或個人轉載使用時必須保留本站注明的文章來源,并自負法律責任。 中國科學網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。
【特別提醒】如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。郵箱 biz@minimouse.com.cn