多場景落地智維運維 新技術(shù)護航系統(tǒng)效率

來源:大京網(wǎng)

國內(nèi)某知名物流企業(yè)研發(fā)了先進的快件運營信息管理系統(tǒng),并在全網(wǎng)絡快遞員中統(tǒng)一投入使用手持終端設備,實現(xiàn)了快件操作與信息采集的同步和快件運營信息的實時傳遞。運營信息系統(tǒng)的運行依賴網(wǎng)絡,因此,網(wǎng)絡的穩(wěn)定和可靠成為了支持該企業(yè)業(yè)務生命線的關(guān)鍵問題。面對越來越復雜的網(wǎng)絡構(gòu)架和爆發(fā)式增長的應用上線,運維團隊常常需要解決業(yè)務系統(tǒng)突然中斷、能下降、用戶訪問異常等等問題,因此需要建設一套新的網(wǎng)絡能監(jiān)測系統(tǒng),與現(xiàn)有的基礎監(jiān)控系統(tǒng)共同支撐,實時展示和分析應用的能以及用戶體驗等情況。

2020年,該企業(yè)上線了智維數(shù)據(jù)nCompass網(wǎng)絡流量監(jiān)控臺,實現(xiàn)了多源數(shù)據(jù)采集以及業(yè)務能和網(wǎng)絡能可視化監(jiān)控,為業(yè)務系統(tǒng)與應用能故障分析提供了可靠的數(shù)據(jù)支撐。本次案例分享將聚焦該物流企業(yè)通過網(wǎng)絡流量智能分析系統(tǒng),提升系統(tǒng)故障處置效率,支撐系統(tǒng)穩(wěn)定快速運轉(zhuǎn)的背后故事。

“快”的保障

是強大穩(wěn)定的自動化、數(shù)字化全流程

物流業(yè)的數(shù)據(jù)化運營是關(guān)聯(lián)到派單、收件、派件等一系列的復雜流程。舉個例子,消費者在網(wǎng)上下單后,購物臺會推送給物流企業(yè),此時快遞員就會收到收件工單。收件完成后,這個快遞會被送到相應的營業(yè)網(wǎng)點,由營業(yè)網(wǎng)點進行分撥,分揀,訂單處理到收件網(wǎng)點,最后送到消費者手里。現(xiàn)在,國內(nèi)大的物流公司基本上整個過程都是全自動的,這樣能保障快遞的送達效率是很高的。

因為對效率要求很高,所以對于網(wǎng)絡效率和穩(wěn)定要求也特別高,物流的核心是效率,而物流的每個流程都是通過云端,網(wǎng)絡數(shù)字化去流轉(zhuǎn)的,要達到最優(yōu)轉(zhuǎn)化,網(wǎng)絡的穩(wěn)定和效率是重點。

自動告警,智能分析

實現(xiàn)穩(wěn)定、連續(xù)的網(wǎng)絡支撐

那么如何保障物流網(wǎng)絡的穩(wěn)定,又有哪些難點問題呢?以前有網(wǎng)絡故障發(fā)生,比如當應用能下降,運維部門只能通過人工經(jīng)驗逐個排查,如果不能及時解決就會影響到前端的業(yè)務流轉(zhuǎn)。另外還有一些合規(guī)和管理風險的問題,比如符合等保2.0的要求,國家監(jiān)管部門的要求,以及出于數(shù)據(jù)安全防護的要求,需要做到運營的精細化管理。

而現(xiàn)在該物流企業(yè)采用的是智維數(shù)據(jù)的nCompass網(wǎng)絡流量監(jiān)控臺,網(wǎng)絡上有故障發(fā)生,可以通過nCompass溯源找到問題根源,有隱患發(fā)生也有自動告警,網(wǎng)絡部門可以先把這個故障梳理掉,讓業(yè)務恢復。應用層有問題也能發(fā)出告警,應用組可以通過排他的方式把問題迅速解決。

以前看不到應用之間訪問鏈的情況,現(xiàn)在網(wǎng)絡部門可以通過nCompass對接負載均衡的API接口,這樣能看到整體網(wǎng)絡每個節(jié)點發(fā)生的問題,加上該企業(yè)基礎監(jiān)控對物理設備的監(jiān)控能力,這樣結(jié)合就能實現(xiàn)整體的運維監(jiān)控能力。

多場景落地智維運維,新技術(shù)護航系統(tǒng)效率

以下是幾個nCompass流量監(jiān)控臺幫助解決運維故障提升IT效率的例子。

場景1

訪問流程突發(fā)故障

web頁面無法訪問是該物流企業(yè)用戶經(jīng)常會遇到的問題,有一種常見現(xiàn)象是證書切換問題,應用要實現(xiàn)滑的切換。當遇到用戶反饋頁面打不開,網(wǎng)絡部門可以通過nCompass來分析一下這個應用到底有沒有成功跳轉(zhuǎn),還是錯誤跳轉(zhuǎn)到別的地方去了。

還有一些頁面打不開是由于調(diào)用第三方接口失敗造成的。不通有很多種,一種是對方加了白名單,但是這邊的防火墻沒有放行。那么這個請求有沒有通過,網(wǎng)絡部門同樣也可以通過nCompass去監(jiān)控它。

還有會出現(xiàn)運營商骨干網(wǎng)振蕩,導致頁面打不開。此時通過nCompass去溯源,發(fā)現(xiàn)只有某個城市DNS有問題,網(wǎng)絡部門就可以反饋給下面的快遞員或者反饋給第三方,是哪個地方現(xiàn)在不好,可以及時切換一下線路。

再比如有用戶反饋網(wǎng)站打不開,應用組懷疑是DNS解析失敗,這時候通過nCompass去檢查,發(fā)現(xiàn)DNS解析率是99%,說明DNS解析正常,那么網(wǎng)絡部門就可以反饋給應用組,請他們?nèi)ヅ挪槠渌麊栴}。

場景2

鏈路優(yōu)化管理與重大事件全局監(jiān)控

鏈路管理是各個物流企業(yè)運維部門都特別重視的,鏈路管理指的是運營商帶寬的問題,要保障網(wǎng)絡暢通的穩(wěn)定,網(wǎng)絡部門可以用nCompass看一下抖動、延遲有沒有問題,如果此時監(jiān)控主動告警提示某個骨干有問題,運維人員可以將出口的負載均衡切換到另外的鏈路上,就能夠保證外部訪問正常。

nCompass提供了企業(yè)全局的可視化監(jiān)控能力,可以把負載均衡、鏈路管理、業(yè)務監(jiān)控都統(tǒng)一到一個臺上來。比如物流行業(yè)在雙十一、雙十二這種業(yè)務量高峰期,就可以利用nCompass看到實時進來的流量帶寬,包括應用之間互訪的延遲,這樣在大型促銷或業(yè)務流量特別大的時候會有一個基礎保障。

通過nCompass主動告警,網(wǎng)絡人員可以實時監(jiān)測流量是否穩(wěn)定,延遲的指標高低,應用負載率等等,有問題可以提前處理掉。因為從業(yè)務開始報障到故障發(fā)生會間隔一些時間,這個時間里使用流量臺可以幫運維人員做到先知先覺,避免該物流企業(yè)出現(xiàn)大范圍的故障,保障前臺業(yè)務運轉(zhuǎn)和整體網(wǎng)絡運維的效率。

場景3

符合等保2.0合規(guī)要求

根據(jù)三級等保要求,物流企業(yè)的系統(tǒng)日志需要存半年。但是物流行業(yè)通常的訪問量太大,所以該企業(yè)也通過與nCompasss合作,定制化表單,達到了等保的要求。而在數(shù)據(jù)安全方面,網(wǎng)絡部門也可以利用nCompasss將應用日志與網(wǎng)絡日志結(jié)合,來溯源異常的IP地址。

展望

進一步的數(shù)據(jù)整合,搭建完整的運營數(shù)據(jù)監(jiān)控,

是未來實現(xiàn)AIOps,提升全流程效率的最佳方案!

物流企業(yè)作為網(wǎng)絡型組織,面對成千上萬的物流網(wǎng)點,面對管控難度越來越大的情況,需要以AIOps等新技術(shù)為抓手,來幫助實現(xiàn)對越來越多網(wǎng)點的可視化管控。在信息系統(tǒng)中能夠第一時間看到所有的數(shù)據(jù),實時處理,才能實現(xiàn)實時決策、實時優(yōu)化,幫助管控和衡整個網(wǎng)絡。

目前該企業(yè)已經(jīng)通過nCompass實現(xiàn)了在網(wǎng)絡層的監(jiān)控,未來希望將所有的網(wǎng)絡層數(shù)據(jù)、應用層數(shù)據(jù),包括虛擬機互訪、K8S集群互訪全部數(shù)據(jù)都整合到nCompass臺上來,通過nCompass來排查故障,這樣解決問題的方式會變得更加簡單,人效會更高。現(xiàn)在智維數(shù)據(jù)也在打造“場景化”的解決方案,那么在之后的合作中,雙方能將技術(shù)與場景結(jié)合得更緊密,進一步提升IT運營效率。

標簽: 物流行業(yè) 智維數(shù)據(jù) 基礎監(jiān)控 運維團隊

推薦

財富更多》

動態(tài)更多》

熱點