交換機(jī)一般部署位置為接入層和核心層。在企業(yè)網(wǎng)或園區(qū)網(wǎng)絡(luò)環(huán)境中。個(gè)人而言,運(yùn)維常見的均與接入有關(guān)。如線路質(zhì)量或配置問(wèn)題造成的生成樹震蕩。鏈路聚合問(wèn)題。ARP攻擊或ARP欺騙。私接路由器造成的dhcp沖突。生成樹問(wèn)題之前是通過(guò)各種參數(shù),如bpdu guard,bpdu filter,root guard等技術(shù)解決。目前隨著堆疊技術(shù)的普及。接入到核心的生成樹徹底得到解決。ARP欺騙和攻擊是常見問(wèn)題。在沒有做二層安全的時(shí)候比較考驗(yàn)網(wǎng)關(guān)經(jīng)驗(yàn)。通常是找出可疑mac,在接入層做mac地址列表。最笨的方式就是逐個(gè)拔線,順藤摸瓜的方式找到問(wèn)題點(diǎn)。dhcp問(wèn)題就是做dhcp snooping。它也可做防護(hù)ARP攻擊。但貌似效果不理想。目前主流的是通過(guò)部署準(zhǔn)入系統(tǒng)進(jìn)行防護(hù)。如H3C的imc+ead或者Cisco的ise系統(tǒng)。都可對(duì)準(zhǔn)入進(jìn)行多種策略的控制。
網(wǎng)絡(luò)運(yùn)維丨故障診斷應(yīng)該實(shí)現(xiàn)的三個(gè)目的:
1. 確定網(wǎng)絡(luò)的故障點(diǎn),恢復(fù)網(wǎng)絡(luò)的正常運(yùn)行
2. 發(fā)現(xiàn)網(wǎng)絡(luò)規(guī)劃和配置中欠佳之處,改善和優(yōu)化網(wǎng)絡(luò)的性能
3. 觀察網(wǎng)絡(luò)的運(yùn)行狀況,及時(shí)預(yù)測(cè)網(wǎng)絡(luò)通信質(zhì)量
網(wǎng)絡(luò)故障診斷以網(wǎng)絡(luò)原理、網(wǎng)絡(luò)配置和網(wǎng)絡(luò)運(yùn)行的知識(shí)為基礎(chǔ)。從故障現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,確定網(wǎng)絡(luò)故障點(diǎn),查找問(wèn)題的根源,排除故障,恢復(fù)網(wǎng)絡(luò)正常運(yùn)行。
網(wǎng)絡(luò)故障通常有以下幾種可能:
1. 物理層中物理設(shè)備相互連接失敗或者硬件及線路本身的問(wèn)題;
2. 數(shù)據(jù)鏈路層的網(wǎng)絡(luò)設(shè)備的接口配置問(wèn)題;
3. 網(wǎng)絡(luò)層網(wǎng)絡(luò)協(xié)議配置或操作錯(cuò)誤;
4. 傳輸層的設(shè)備性能或通信擁塞問(wèn)題;
網(wǎng)絡(luò)故障診斷的過(guò)程應(yīng)該沿著OSI七層模型從物理層開始向上進(jìn)行。首先檢查物理層,然后檢查數(shù)據(jù)鏈路層,以此類推,設(shè)法確定通信失敗的故障點(diǎn),直到系統(tǒng)通信正常為止。
網(wǎng)絡(luò)診斷可以使用包括局域網(wǎng)或廣域網(wǎng)分析儀在內(nèi)的多種工具:
路由器診斷命令;網(wǎng)絡(luò)管理工具和其它故障診斷工具。查看路由表,是解決網(wǎng)絡(luò)故障診斷開始的好地方。ICMP的ping、trace命令、debug命令是獲取故障診斷有用信息的網(wǎng)絡(luò)工具。
我們通常使用一個(gè)或多個(gè)命令收集相應(yīng)的信息,在給定情況下,確定使用什么命令獲取所需要的信息。譬如,通過(guò)IP協(xié)議來(lái)測(cè)定設(shè)備是否可達(dá)到的常用方法是使用ping命令。ping從源點(diǎn)向目標(biāo)發(fā)出ICMP信息包,如果成功的話,返回的ping信息包就證實(shí)從源點(diǎn)到目標(biāo)之間所有物理層、數(shù)據(jù)鏈路層和網(wǎng)絡(luò)層的功能都運(yùn)行正常。
如何在互聯(lián)網(wǎng)絡(luò)運(yùn)行后了解它的信息,了解網(wǎng)絡(luò)是否正常運(yùn)行,監(jiān)視和了解網(wǎng)絡(luò)在正常條件下運(yùn)行細(xì)節(jié),了解出現(xiàn)故障的情況。監(jiān)視那些內(nèi)容呢?利用 show interface命令可以非常容易地獲得待檢查的每個(gè)接口的信息。
另外show buffer命令提供定期顯示緩沖區(qū)大小、用途及使用狀況等。Show proc命令和 show proc mem命令可用于跟蹤處理器和內(nèi)存的使用情況,可以定期收集這些數(shù)據(jù),在故障出現(xiàn)時(shí),用于診斷參考。
網(wǎng)絡(luò)故障診斷以某種癥狀表現(xiàn)出來(lái),故障癥狀包括一般性的(象用戶不能接入某個(gè)服務(wù)器)和較特殊的(如路由器不在路由表中)。對(duì)每一個(gè)癥狀使用特定的故障診斷工具和方法都能查找出一個(gè)或多個(gè)故障原因。一般故障排除模式如下:
1. 當(dāng)分析網(wǎng)絡(luò)故障診斷時(shí),首先要清楚故障現(xiàn)象。應(yīng)該詳細(xì)說(shuō)明故障的癥侯和潛在的原因。為此,要確定故障的具體現(xiàn)象,然后確定造成這種故障現(xiàn)象的原因的類型。例如,主機(jī)不響應(yīng)客戶請(qǐng)求服務(wù)??赡艿墓收显蚴侵鳈C(jī)配置問(wèn)題、接口卡故障或路由器配置命令丟失等。
2. 收集需要的用于幫助隔離可能故障原因的信息。向用戶、網(wǎng)絡(luò)管理員、管理者和其他關(guān)鍵人物提一些和故障有關(guān)的問(wèn)題。廣泛的從網(wǎng)絡(luò)管理系統(tǒng)、協(xié)議分析跟蹤、路由器診斷命令的輸出報(bào)告或軟件說(shuō)明書中收集有用的信息。
3. 根據(jù)收集到的情況考慮可能的故障原因??梢愿鶕?jù)有關(guān)情況排除某些故障原因。例如,根據(jù)某些資料可以排除硬件故障,把注意力放軟件原因上。對(duì)于任何機(jī)會(huì)都應(yīng)該設(shè)法減少可能的故障原因,以至于盡快的策劃出有效的故障診斷計(jì)劃。
4. 根據(jù)最后的可能的故障原因,建立一個(gè)診斷計(jì)劃。開始僅用一個(gè)最可能的故障原因進(jìn)行診斷活動(dòng),這樣可以容易恢復(fù)到故障的原始狀態(tài)。如果一次同時(shí)考慮一個(gè)以上的故障原因,試圖返回故障原始狀態(tài)就困難的多了。
5. 執(zhí)行診斷計(jì)劃,認(rèn)真做好每一步測(cè)試和觀察,直到故障癥狀消失。
6. 每改變一個(gè)參數(shù)都要確認(rèn)其結(jié)果。分析結(jié)果確定問(wèn)題是否解決,如果沒有解決,繼續(xù)下去,直到解決。
網(wǎng)絡(luò)故障分層診斷技術(shù)
1. 物理層及其診斷
物理層是OSI分層結(jié)構(gòu)體系中最基礎(chǔ)的一層,它建立在通信媒體的基礎(chǔ)上,實(shí)現(xiàn)系統(tǒng)和通信媒體的物理接口,為數(shù)據(jù)鏈路實(shí)體之間進(jìn)行透明傳輸,為建立、保持和拆除計(jì)算機(jī)和網(wǎng)絡(luò)之間的物理連接提供服務(wù)。
物理層的故障主要表現(xiàn)在設(shè)備的物理連接方式是否恰當(dāng);連接電纜是否正確;MODEM、CSU/DSU等設(shè)備的配置及操作是否正確。
2. 數(shù)據(jù)鏈路層及其網(wǎng)絡(luò)故障診斷
數(shù)據(jù)鏈路層的主要任務(wù)是使網(wǎng)絡(luò)層無(wú)須了解物理層的特征而獲得可靠的傳輸。數(shù)據(jù)鏈路層為通過(guò)鏈路層的數(shù)據(jù)進(jìn)行打包和解包、差錯(cuò)檢測(cè)和一定的校正能力,并協(xié)調(diào)共享介質(zhì)。在數(shù)據(jù)鏈路層交換數(shù)據(jù)之前,協(xié)議關(guān)注的是形成幀和同步設(shè)備。
查找和排除數(shù)據(jù)鏈路層的故障,需要查看路由器的配置,檢查連接端口的共享同一數(shù)據(jù)鏈路層的封裝情況。每對(duì)接口要和與其通信的其他設(shè)備有相同的封裝。
3. 網(wǎng)絡(luò)層及其網(wǎng)絡(luò)故障診斷
網(wǎng)絡(luò)層提供建立、保持和釋放網(wǎng)絡(luò)層連接的手段,包括路由選擇、流量控制、傳輸確認(rèn)、中斷、差錯(cuò)及故障恢復(fù)等。排除網(wǎng)絡(luò)層故障的基本方法是:沿著從源到目標(biāo)的路徑,查看路由器路由表,同時(shí)檢查路由器接口的IP地址。
如果路由沒有在路由表中出現(xiàn),應(yīng)該通過(guò)檢查來(lái)確定是否已經(jīng)輸入適當(dāng)?shù)撵o態(tài)路由、默認(rèn)路由或者動(dòng)態(tài)路由。然后手工配置一些丟失的路由,或者排除一些動(dòng)態(tài)路由選擇過(guò)程的故障,包括RIP或者IGRP路由協(xié)議出現(xiàn)的故障。
例如,對(duì)于IGRP路由選擇信息只在同一自治系統(tǒng)號(hào)(AS)的系統(tǒng)之間交換數(shù)據(jù),查看路由器配置的自治系統(tǒng)號(hào)的匹配情況。
您好,這個(gè)問(wèn)題有ys0202來(lái)為您回答,點(diǎn)擊上方關(guān)注,查看更多相關(guān)問(wèn)題哦!~
關(guān)于運(yùn)維中交換機(jī)的常見問(wèn)題,常見故障如下:
如下:
第一種:交換機(jī)電源故障
①、故障現(xiàn)象描述
某接入交換機(jī)(IP:X.X.X.X)電源模塊故障。查看設(shè)備狀態(tài),電源fail等亮紅燈,命令行顯示bad。
②、故障處理過(guò)程
1、通過(guò)命令行查看,設(shè)備電源模塊1顯示bad,無(wú)電流輸入。查看該電源模塊SN號(hào),并給思科打電話開RMA CASE。(case:XXXXXXXXX)
2、更換新電源
3、跟蹤設(shè)備狀態(tài),檢查設(shè)備運(yùn)行情況,一切正常,設(shè)備運(yùn)行正常穩(wěn)定。
③、后續(xù)工作計(jì)劃
1、定期查看交換機(jī)運(yùn)行狀態(tài)。
2、及時(shí)對(duì)交換機(jī)配置進(jìn)行備份,和異地備份,嚴(yán)防出現(xiàn)不可恢復(fù)性故障,可以在最短時(shí)間內(nèi)進(jìn)行業(yè)務(wù)和數(shù)據(jù)的恢復(fù),保證交換機(jī)正常運(yùn)行。
第二種:交換機(jī)引擎故障
①、故障現(xiàn)象描述
故障設(shè)備信息如下:
l 節(jié)點(diǎn)型號(hào):WS-C4507R+E
l 軟件版本:cat4500e-entservicesk9-mz.150-2.SG4.bin
Case號(hào):XXXXXXXX 統(tǒng)一服務(wù)平臺(tái)事件單號(hào):INC-20161128-00049
2016年11月25日04:00分網(wǎng)絡(luò)團(tuán)隊(duì)發(fā)現(xiàn)某DMZ交換機(jī)01出現(xiàn)告警,故障信息:%C4K_SUPERVISOR-2-SOFTERROR: memory inconsistency detected: 0x2000。
show log看到相關(guān)信息遂向思科開CASE并上報(bào)。
②、故障處理過(guò)程
1、 2016年11月25日04:00分網(wǎng)絡(luò)團(tuán)隊(duì)發(fā)現(xiàn)某DMZ交換機(jī)01出現(xiàn)告警,故障信息:%C4K_SUPERVISOR-2-SOFTERROR: memory inconsistency detected: 0x2000;
2、 Show log 信息顯示外聯(lián)DMZ交換機(jī)1告警:內(nèi)存存在奇偶校驗(yàn)錯(cuò)誤,每小時(shí)告警一次;
3、 聯(lián)系ciscoTAC 確認(rèn)問(wèn)題原因,告知“% C4K_SUPERVISOR-2-SOFTERROR:內(nèi)存不一致性檢測(cè)”表示,檢測(cè)出一種矛盾中所指的內(nèi)存信息。這通常表示一個(gè)柔軟的奇偶校驗(yàn)錯(cuò)誤,瞬態(tài)問(wèn)題,如果你是第一次看到這個(gè),可以忽略;
與TAC進(jìn)行溝通后,cisco確認(rèn)做RMA處理,備件已寄至行內(nèi),由于DMZ交換機(jī)連接某外聯(lián)區(qū)所有前置服務(wù)器,需聯(lián)系相關(guān)人員配合測(cè)試,待非業(yè)務(wù)時(shí)間段進(jìn)行更換。
③、后續(xù)工作計(jì)劃
1、經(jīng)過(guò)運(yùn)維處領(lǐng)導(dǎo)同意后在2016年11月25日20:00分左右,進(jìn)行引擎更換以保證網(wǎng)絡(luò)正常運(yùn)行。并持續(xù)關(guān)注該設(shè)備引擎運(yùn)行狀態(tài)。
第三種:交換機(jī)板卡poe故障
①、故障現(xiàn)象描述
故障時(shí)間:2016年8月13日15:52
故障現(xiàn)象:值班工程師通過(guò)網(wǎng)管監(jiān)控發(fā)現(xiàn)四層樓層交換機(jī)第三、四塊板卡報(bào)警。工程師登陸設(shè)備查看后發(fā)現(xiàn)第三塊板卡poe健康檢查失敗,第四塊板卡poe健康檢查失敗,poe功能不斷重啟,發(fā)生讀寫錯(cuò)誤。
②、故障處理過(guò)程
2016年8月13日 15:52
值班工程師通過(guò)網(wǎng)管監(jiān)控發(fā)現(xiàn)四層樓層交換機(jī)第三、四塊板卡報(bào)警。同時(shí)領(lǐng)導(dǎo)反應(yīng)網(wǎng)絡(luò)無(wú)法訪問(wèn),電話不停注冊(cè)。要求網(wǎng)絡(luò)工程師前去查看,工程師立即上樓查看故障現(xiàn)象。
2016年8月13日 16:20
工程師登陸設(shè)備查看交換機(jī)日志,設(shè)備poe狀態(tài),發(fā)現(xiàn)第四塊板卡poe告警,提示板卡讀寫錯(cuò)誤,poe服務(wù)不停重啟。
Aug 13 15:52:33: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:09:41: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:12:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/2.
Aug 13 16:31:23: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=7)
Aug 13 16:31:23: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:31:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/34.
Aug 13 16:35:33: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=17)
Aug 13 16:35:33: %C4K_CHASSIS-5-PORTSPOERESTARTED: Poe restarted for interfaces on slot 4 (count=1)
Aug 13 16:35:49: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:36:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/18.
catalyst4507#show env status
Power Fan Inline
Supply Model No Type Status Sensor Status
------ ---------------- --------- ----------- ------- -------
PS1 PWR-C45-2800AC AC 2800W good good good
PS2 PWR-C45-2800AC AC 2800W good good good
Power supplies needed by system : 1
Power supplies currently available : 2
Chassis Type : WS-C4507R
Power consumed by backplane : 40 Watts
Switch Bandwidth Utilization : 0%
Supervisor Led Color : Green
Module 1 Status Led Color : Green
Module 3 Status Led Color : Green PoE Led Color : Green
Module 4 Status Led Color : Green PoE Led Color : Green
Module 5 Status Led Color : Green PoE Led Color : Green
Module 6 Status Led Color : Green PoE Led Color : Green
Module 7 Status Led Color : Green
Fantray : Good
Fantray removal timeout : 240
Power consumed by Fantray : 50 Watts
同時(shí),第3塊板卡提示poe健康檢查失敗
Aug 12 11:30:02: %C4K_CHASSIS-5-POEHEALTHCHECKFAILED: Poe Health Check failed on slot 3 (count = 95)
2016年8月13日 16:40
工程師和領(lǐng)導(dǎo)及行領(lǐng)導(dǎo)溝通,考慮到故障發(fā)生在周末臨近下班,下聯(lián)影響用戶較少,同意直接更換板卡,工程師立即聯(lián)系資產(chǎn)負(fù)責(zé)人拿到備件更換板卡。
2016年8月13日16:50
工程師取到板卡后立即前往更換板卡
2016年8月13日17:20
第4塊板卡更換完成,查看下聯(lián)用戶網(wǎng)絡(luò)恢復(fù)正常。
第3塊板卡雖然沒有影響下聯(lián)用戶,為保證不在工作時(shí)間出現(xiàn)問(wèn)題,領(lǐng)導(dǎo)決定一并更換。
2016年8月13日18:00
第3塊板卡更換完成,查看下聯(lián)用戶網(wǎng)絡(luò)恢復(fù)正常,設(shè)備狀態(tài)正常。
③、后續(xù)工作計(jì)劃
1、后續(xù)將通過(guò)網(wǎng)管實(shí)時(shí)監(jiān)控和提高對(duì)四層樓層交換機(jī)的巡檢頻率來(lái)及時(shí)發(fā)現(xiàn)可能存在的問(wèn)題與隱患,確保網(wǎng)絡(luò)正常運(yùn)行。
第四種:交換機(jī)板卡故障
①、故障現(xiàn)象描述
故障時(shí)間:2016年8月3日 8點(diǎn) 35分
故障現(xiàn)象:工程師在日常巡檢中通過(guò)show log發(fā)現(xiàn)某樓層十層豎井交換機(jī)日志提示交換機(jī)第六塊板卡出現(xiàn)讀寫錯(cuò)誤,show env第六塊板卡燈正常,show module第六塊板卡的狀態(tài)正常。
②、故障處理過(guò)程
2016年8月3日8:35
工程師在日常巡檢中通過(guò)show log發(fā)現(xiàn)某樓層十層豎井交換機(jī)日志提示交換機(jī)第六塊板卡出現(xiàn)讀寫錯(cuò)誤,show env第六塊板卡燈正常,show module第六塊板卡的狀態(tài)正常。
2016年8月3日:8:45
立即向領(lǐng)導(dǎo)報(bào)告,經(jīng)過(guò)領(lǐng)導(dǎo)再次查看確認(rèn)是交換機(jī)板卡故障。
2016年8月3日8:55
工程師通過(guò)領(lǐng)導(dǎo)審批決定更換板卡。
2016年8月3日9:00
立即從庫(kù)房拿出備件,由于正是上班時(shí)間,領(lǐng)導(dǎo)考慮到可能有用戶在辦公,為了不影響用戶的正常辦公,決定在17:30分下班以后再進(jìn)行板卡更換。
2016年8月3日17:30
去十層豎井現(xiàn)場(chǎng)為交換機(jī)更換板卡
2016年8月3日 17:55
更換板卡完畢,交換機(jī)第六塊板卡提示燈恢復(fù)正常。
2016年8月3日 18:00
網(wǎng)絡(luò)恢復(fù)正常,用戶均可連接網(wǎng)絡(luò)。觀察日志第六塊板卡沒有再提示讀寫錯(cuò)誤。
③、后續(xù)工作計(jì)劃
1、后續(xù)將通過(guò)網(wǎng)管實(shí)時(shí)監(jiān)控和提高對(duì)某大廈十層豎井樓層交換機(jī)的巡檢頻率來(lái)及時(shí)發(fā)現(xiàn)可能存在的問(wèn)題與隱患,確保網(wǎng)絡(luò)正常運(yùn)行。
結(jié)語(yǔ)感謝閱讀,以上是我總結(jié)的交換機(jī)常見故障以及處理過(guò)程,如果您有不同意見,歡迎在評(píng)論區(qū)中發(fā)表自己不同的觀點(diǎn),若有其他問(wèn)題請(qǐng)?jiān)谠u(píng)論區(qū)留言,喜歡的朋友請(qǐng)多多關(guān)注轉(zhuǎn)發(fā)支持一下。
頭條號(hào):ys0202
-------------------END-------------------