conn max 思科开case 解决问题思路

来源:本站原创 网络技术 超过1,478 views围观 0条评论

FWSM的最大连接数是100万,用户通过show conn count发现,连接数已经达到饱和,以为是内部有病毒,或者有攻击所到,于是找思科case,远解决问题,
简单介绍下cisco tac 工程师解决方法和一些排查命令。 以下是整理过的文档。,希望对大家有帮助。
———————————
这段时间, 通过思科TAC工程师的分析, 故障的原因可能是因为系统资源消耗殆尽而出现ping包丢失.
从被旁路后的防火墙上抓取的信息显示并发的连接数曾经达到了999,905个. 如下,

—————— show conn count ——————

0 in use, 999905 most used

而这款防火墙的性能限制是最大支持100万个并发连接. 所以, 这时会产生系统资源使用过多的情况. 因为这些信息抓取时是在防火墙已经被旁路后, 所以, 这个显示只是表示防火墙的并发连接数曾经达到过999,905个. 现在, 并没有当时出现ping丢包时的实时连接数量信息.

而从现有网络情况来看, 在目前C网用户数不多的情况下, 一般的, 不太可能出现如此高的并发连接. 所以, 思科TAC的工程师怀疑有类似DDoS攻击的问题. 现在的防火墙工作在2层透明模式, 其中的ACL对大多所有来自Internet的流量都不做限制. 可能出现类似于DDoS攻击的流量从Internet撞击到防火墙上.

另外, 用于网络监控的ICMP ping包测试, 同样也会由防火墙的NP3芯片处理, 每个ICMP的ping包都会产生一条connection记录, 并消耗一定的NP3 处理及buffer资源. 少量的测试ICMP ping包对系统不会有影响. 但是持续不断的ICMP ping测试, 会占用一定的防火墙资源.

另外, 从已有信息中显示NP3处理器的buffer使用情况来看, NP3的buffer资源也出现消耗殆尽的情况.

—————— show np blocks ——————

                                MAX   FREE   THRESH_0   THRESH_1   THRESH_2

NP1 (ingress)      32768 32720          0       5160        419

    (egress)        521206 521206          0          0          0

NP2 (ingress)      32768 32768          0       1800        931

    (egress) 521206 521206          0          0          0

NP3 (ingress) 32768 32768       1838 616193020 1515462762

    (egress) 521206 521191          0          0          0

NP3的功能是在防火墙模块里负责连接建立与拆除的. 所以也符合连接数过多的现象.

如上所述, 由于缺乏防火墙出现丢包时的实时记录, 所以现有分析都是针对历史记录的分析. 故障原因怀疑为因为出现过多的连接, 导致防火墙资源几乎耗尽, 而对新建连接的请求(如icmp)出现丢包. 但是, 已建立的连接还可以保持正常通信. 所以, 并没有出现最终使用用户的申告故障.

3. 下一步处理意见

思科工程师已请省NOC维护人员协助查看出现故障时的端口流量, 并对比平时正常时的端口流量, 作为判断是否有非法流量存在的可能.

在防火墙重新上线后, 建议以下操作以减少NP3的不必要的功能.

1. 启动xlate-bypass, 因为2层防火墙的时候, 不需要进行任何的NAT功能, 可以关闭NAT功能

配置命令: xlate-bypass

2. 降低logging信息的等级, 现有的logging信息过于详细, 对每个连接的建立与拆除都logging相关信息.

配置命令:

logging monitor warnings

logging buffered warnings

logging trap warnings

3. 降低网管ICMP ping测试的频率.

同时在上线后,加强防火墙的监控。第一天以如下方式检查:

1. 每隔30秒获取防火墙当前的并发连接数, 操作3次

监控命令: show local-host | include host|count/limit

2. 每隔30秒获取防火墙的端口流量信息, 操作3次

监控命令: show interface

监控命令: show firewall module X traffic (在6506上执行)

3. 每隔30秒获取防火墙的ACL计数器, 操作3次

监控命令: show access-list

4. 每隔1分钟获取防火墙的性能状态. 操作3次

监控命令: show perfmon detail

show console-output

5. 每隔40秒获取防火墙的丢包信息, 操作3次

监控命令: show asp drop

6. 每隔1分钟获取防火墙的服务策略, 操作3次

监控命令: show service-policy

7. 每隔30秒抓取防火墙网络处理端口信息, 操作3次

监控命令: show nic

8. 每隔30秒获取防火墙的NP状态信息, 操作3次,

监控命令: show np blocks

show np <[1-3]> stats

show np 3 semaphore

show np 3 epc pc

show np pc

9. 获取系统运行信息

监控命令: show tech

show log

show conn detail

10. 必要时在防火墙上进行相应的抓包分析

操作命令:

access-list tac_capture_acl permit ip host <host machine> host <destination machine >

access-list tac_capture_acl permit ip host <destination machine > host <host machine>

capture tac_capture_inside access-list tac_capture_acl buffer 3000000 packet-length 1522 interface inside_A

capture tac_capture_outside access-list tac_capture_acl buffer 3000000 packet-length 1522 interface outside_A

copy /pcap capture:tac_capture_inside tftp:1.1.1.1/tac_capture_inside.pcap

copy /pcap capture:tac_capture_outside tftp:1.1.1.1/tac_capture_outside.pcap

***********************************************************************************
我这边的操作为:
1 Collect syslog on FWSM
logging on
logging buffered 6
logging buffer-size 1048576
show log
2 "show local-host | include host|count/limit" on FWSM
3 "show xlate debug" on FWSM
4 "show np blocks" on FWSM (3times interval 10 sec)
操作:
1.Tune the TCP&UDP timeout value
#timeout conn 0:10:00 udp 00:01:00
2.#cpu profile activate 5000    这条命令可以查看是什么进程在消耗CPU资源。
    (wait a minute)
   show cpu profile
3.
-no logging monitor
-no logging buffered

文章出自:CCIE那点事 http://www.jdccie.com/ 版权所有。本站文章除注明出处外,皆为作者原创文章,可自由引用,但请注明来源。 禁止全文转载。
本文链接:http://www.jdccie.com/?p=3348转载请注明转自CCIE那点事
如果喜欢:点此订阅本站
  • 相关文章
  • 为您推荐
  • 各种观点

暂时还木有人评论,坐等沙发!
发表评论

您必须 [ 登录 ] 才能发表留言!