Sniffer Pro帮网管准确的定位网络故障

来源:本站原创 网络技术 超过781 views围观 0条评论

当一个网络出现故障时,需要由网络管理员查找故障原因并及时修复。但局域网一般都由几十台到几百台计算机,以及多台服务器、交换机、路由器等设备组成,一旦出现故障,管理员需要全面检查这些设备是否正常运行、各个端口的连接是否正常,检查故障是否是黑客或木马所为,工作量十分巨大,同时排除故障也非常麻烦。但是有了Sniffer Pro之后,就可以很容易地定位出网络的故障所在。下面是几个Sniffer Pro分析应用实例,整理出来和大家一起分享。

外部主机恶意扫描内网

故障现象

使用Sniffer Pro在代理服务器VLAN监控网络传输状况时,发现有一个IP地址的并发连接数量非常多,如图1所示。由于局域网的IP地址范围为211.82.216.0~211.82.223.0,所以显然该IP地址是来自外网的IP地址。

故障分析

由于网络采用Microsoft ISA群集作为代理服务器,实现Internet连接共享,因此,没有更多的对抗恶意扫描的措施,这时最好采用防火墙来保证整个网络的安全。

故障解决

如果不采用布置防火墙的方式,而是修改核心交换机上创建的、应用于代理服务器VLAN的IP访问列表的方式,则需要在该IP访问列表中的“permit ip any any”之前添加相应的规则,从而禁止任何计算机访问该主机,并禁止该主机访问任何计算机。

PPLive软件导致网速变慢

故障现象

最近一段时间,局域网内用户反应Internet连接速度变慢。据观察,Internet接入速度在下午4:00左右开始下降,在晚上8:00的上网高峰时,甚至只能使用QQ聊天,而无法打开Web网页。

故障分析

开始使用Sniffer Pro监控代理服务器VLAN的Internet连接情况。

当Internet连接正常时,传输地图应大致如图2所示。

然而,在Internet的接入速度忽然变慢后,再查看传输地图时,发现某些计算机的并发连接数量非常多,如图3所示。

将并发连接数量过多的计算机突出显示时,发现这些计算机竟然同时有几百个连接,如图4所示。

通常情况下,正常的用户连接地图应当如图5所示,只有几个至几十个连接,而且这些连接并不会同时并发访问。

通过查询相关文档中的IP地址分配列表,可知这些计算机只是一些的普通计算机,并没有提供任何网络服务。因此,如此众多的并发连接,显然是安装并使用了某个P2P软件,或者是遭遇了网络攻击。

根据故障计算机的IP地址找到这些计算机后,在检查这些计算机时,果然发现安装有PPLive软件正在在线使用,且修改了应用程序的默认端口。然而,应用于交换机的IP访问列表没有能够阻止这些连接。

故障解决

鉴于PPLive软件可以由用户任意指定端口号的情况,IP访问列表中只限制默认端口的方式已不再有效。因此,必须改变IP访问列表的设计策略。于是,我们将只拒绝特定端口的方式,改变为只允许特定端口的方式,从而基本杜绝了PPLive软件的大量使用。

P2P软件谋杀网络连接共享

故障现象

某局域网内有1200个计算机用户,采用两台ISA Server群集实现Internet连接共享。服务器硬件配置均为Intel Xeon 3.0 CPU、2GB内存、SCSI 72GB硬盘。然而,最近几天Internet接入速度变得非常缓慢,浏览普通网页都要等待很长一段时间,甚至还经常提示超时连接。

故障分析

查看ISA报告后发现,许多用户的上下行流量都很大。仅流量排名前15位的用户,每天的总流量就高达38.22GB,其中,输入流量32.41GB,输出流量5.81GB。而前3位用户的总输入流量为3.05GB,总输出流量为2.85GB。

由于代理服务器只为普通网络客户端提供Internet接入服务,因此,网络流量不应该如此之大,这说明在局域网中极可能有大量用户在使用P2P软件。

使用Sniffer Pro监控代理服务器VLAN时,也发现大量用户的并发连接数量很大,如图6所示。

故障解决

在核心交换机上设置IP访问列表,将其应用于代理服务器群集所在的VLAN,并禁用一些蠕虫病毒的端口和常见P2P软件的端口,IP访问列表内容如表1所示。

开始的一段时间,Internet的访问速度明显地得到了提升。然而,过了一周左右时间后,Internet连接速率又慢慢降了下来。使用Sniffer Pro监测时,又发现了大量的并发连接。原来许多P2P用户修改了默认的TCP端口,因此,原来的IP访问列表已经不起什么作用了,需要重新修改IP访问列表。于是,这次只开放一些常见的和必需的Internet端口,而禁用其他所有端口,修改后的IP访问列表内容如表2所示。

此后,Internet连接就一直保持正常了。

交换机CPU占用率高达99%

故障现象

网络访问和Internet连接速率明显变慢,计算机的反应也较为迟缓。

故障分析

登录到核心交换机Cisco Catalyst 4006,使用“1show processes cpu”命令查看CPU资源,从系统输出的信息可以看到(如图7所示),CPU在5秒、1分钟、5分钟内的占用率高达99%、99%和98%。其中,Cat4k Mgmt LoPri进程的CPU占用率分别为82.63%、82.25%和80.68%。这里,我们先简要说明一下Cat4k Mgmt HiPri和Cat4k Mgmt LoPri两个进程的原理。当某个进程占用CPU时间没有超过规定的CPU分配时间时,Cat4k Mgmt HiPri进程便会接管这个进程;而当Cat4k平台上某项进程占用CPU超出了应分配的CPU时间时,Cat4k Mgmt LoPri进程会接管这项进程,使其他进程能够得到CPU时间。

从故障的现状可以看出,Cat4k Mgmt LoPri进程的CPU占用率超过了80%。因此基本可以断定是某个进程的CPU占用时间大大超过了应该分配的时间,Cat4k Mgmt LoPri进程试图接管这一进程,从而导致了Cat4k Mgmt LoPri进程的CPU占用率非常高。依据这一思路,只要找到该进程将其关闭,就能够找出CPU占用率过高的原因并解决这个问题。

故障解决

使用Sniffer Pro查看网络通信情况,我们发现许多计算机同时与网络内部的多台计算机通信(如图8所示)。经进一步查看,发现它们使用的端口均为TCP 135端口,由此预测,可能是蠕虫病毒导致了该故障的发生。

于是,设置IP访问列表阻止TCP 135端口及其他常见蠕虫端口,并将其应用于所有VLAN,最后有效地解决了CPU资源占用率高的问题。(责任编辑:杨春晖)

文章出自:CCIE那点事 http://www.jdccie.com/ 版权所有。本站文章除注明出处外,皆为作者原创文章,可自由引用,但请注明来源。 禁止全文转载。
本文链接:http://www.jdccie.com/?p=330转载请注明转自CCIE那点事
如果喜欢:点此订阅本站
  • 相关文章
  • 为您推荐
  • 各种观点

暂时还木有人评论,坐等沙发!
发表评论

您必须 [ 登录 ] 才能发表留言!