某学院专网网站打开慢故障分析案例

作者:易隐者 发布于:2012-8-19 16:58 Sunday 分类:网络分析

故障环境

       某学院的网络拓扑示意图如下所示:

点击查看原图


         说明:
         核心交换机上划分了多个VLAN,防毒墙、防火墙均工作在透明模式下,路由器工作在纯路由模式下。

故障现象

        用户在内网打开专网的网页速度很慢,经常需要5-20秒左右才可以完全打开,有时直接就打不开。

故障分析

1 故障分析说明

       首先通过故障现象,我们可以确认该故障应该属于一个较为高级的故障,这种故障一般都与网络中的延时或者丢包有关,难以通过一些基本的测试或策略的检查来定位故障,我们需要进行一些深度的分析。针对此类延时或丢包故障,我们需要做的就是定位出产生延时或丢包的位置。

2 故障分析方法

       在解决此次故障的时候,我们需要使用到两种解决故障的方法:
       数据包分析
       数据包分析法,主要通过专有的网络分析工具(科来网络分析系统)将故障时相应的数据包捕获下来进行深度分析,并通过分析发现相应的异常,从而定位故障原因的方法。
在当前的故障环境中,我们首先可以明确出几个可能的故障点,如下图所示:
 

点击查看原图


       根据实际环境,利用科来网络分析系统捕获相应的故障点的数据包,以便做进一步的深入分析。
       对比分析
       对比分析法,主要指通过对网络中传输的数据包的对比,分析出数据包在传输过程中各个中间设备对数据包的相应处理过程,包括更改、丢弃和转发以及经过各个中间设备后的延时等。如果使用对比法分析应用故障时,最好使用同时捕获的数据包做对比,这样更方便分析整个数据交互过程中出现的问题。
       在此次的故障解决过程中,我们主要使用对比分析法分析出产生较大延时或者丢包的位置

3 故障分析过程

   分析部署方案

       考虑到可能的故障点较多,为提高分析的效率,我们首先需要确定延时或者丢包是在专网产生的还是在内网产生的,如果是专网产生的,那么这个问题就不是我们可以解决的;如果是内网产生的,那么我们就需要定位是内网中的什么位置产生的,再进一步分析是什么原因产生的,从而解决这个故障。因此,我们决定首先在测试机与专网出口同时抓包做对比分析,具体分析的部署示意图如下: 

点击查看原图


在专网路由的出口处,部署专业的硬件流量分路器TAP,将TAP的monitor口接安装有科来网络分析系统的笔记本,在测试客户端上也安装科来网络分析系统,主要用于同时抓包,做对比分析。

    还原故障现象并抓包

       根据前面的分析部署方案部署好科来网络分析系统,并开启抓包,在测试客户端上打开专网内的几个网站,等待数秒,页面才打开,页面打开后,停止科来网络分析系统的抓包,保存数据包。

    对比分析

1,首先在客户端捕获的数据包工程文件中,通过科来的“会话”视图,找出持续时间较长的HTTP回话,如下图所示:

点击查看原图


通过上图,我们可以知道:源地址为X.X.208.67源端口为1391、目的地址为X.X.112.250目的端口为80的TCP会话持续时间最长,为29秒。
2,通过TCP会话的源地址、目的地址、源端口、目的端口等四元组,在路由出口处的数据包工程文件中,找出与客户端相匹配的会话,如下图所示: 

点击查看原图


3,我们先来分析客户端数据包工程中这个会话的延时。打开这个会话的数据包视图,通过“时间差”找出产生较大延时的位置,如下图所示: 

点击查看原图


我们可以发现,在某个过程中,服务器的响应包(第822包)到达客户端前存在一个15.43秒的延时。
4,我们接下来结合前后的数据包,一起分析一下产生这个延时的具体过程,如下图所示:

点击查看原图


通过上图,我们可以知道,客户端发送了一个GET请求之后,服务器首先给客户端一个ACK的确认,接下来却等待了15.43秒才给响应了客户端的GET请求内容,具体数据交互过程示意图如下所示:

点击查看原图


5,我们再看看路由出口处的数据包工程中该会话延时产生的过程,如下图所示: 

点击查看原图


客户端等待了15.33秒才向服务器发送数据包,我们再结合前后数据包综合分析产生这个延时的交互过程,如下图所示: 

点击查看原图

我们可以发现,第2089个包是客户端向服务器端发送的GET请求,但是在过了15.33秒后,又发送了一次(重传),接下来才是服务器给客户端的响应数据包,这个交互过程的示意图如下所示:

点击查看原图


6,为什么在客户端抓包分析的情况跟在路由器出口处抓包分析的数据交互过程不太一样呢,我们有针对性地做一个对比分析,看下图:

点击查看原图


       通过对比分析,我们可以知道路由器在整个交互的过程中,担当了中间人的角色,对进出的数据包做了部分的改动,这些改动包括修改了数据包的窗口大小、TCP的选项字段、还有对相应的数据包做了存储转发等操作。

4 分析结论

       通过以上的综合分析,我们可以看出,访问网站页面慢是由于数据包在专网内传输时产生的,跟该学院内部网络无关。

故障解决

       该故障已经定位是由于专网内传输产生的延时,而由于我们没有权限对专网进行管理和维护,因此,该故障只能依靠与专网维护人员的协调来解决。

标签: 交换机 TCP 网络分析工具 网络分析 数据包分析 对比分析 get 网络慢


您对本文的评分:
当前平均分: 9.5(8 次打分)

版权所有:《蚂蚁网-多维人生,三实而立!》 => 《某学院专网网站打开慢故障分析案例
本文地址:http://www.vants.org/?post=92
除非注明,文章均为 《蚂蚁网-多维人生,三实而立!》 原创,欢迎转载!转载请注明本文地址,谢谢。

评论:

网络从业者
2014-05-20 15:11
大哥,您的工作职称名是什么? 感觉做您这个,首先对各种网络设备和原理有比较熟悉的理解,其次对各种数据包结构,字段非常深入和精准的判断力。真正的高手中的高手,很想跟着你学习,真想现场当徒弟学习。膜拜下.
易隐者
2014-05-21 14:32
@网络从业者:我现在专门在做高端服务,如在合肥,或许有交流机会。
飞雪
2013-03-12 15:16
数据传输过程中:1、什么样的中间设备能够作为中转确认;2、什么设备代替请求设备重新发起申请!
此案例的设备如何设置234对233的重传,194对193的确认1
易隐者
2013-03-15 18:02
@飞雪:1,什么样的中间设备能够作为中转确认?
答:这个跟中间设备的工作特性有关,比较常见的设备重要有负载均衡/防火墙等;
2,什么设备代替请求设备重新发起申请! 此案例的设备如何设置234对233的重传,194对193的确认1
答:这个问题我没理解清楚,不好回答。一般而言,这种设备的进口/出口连接的关联是设备内部工作机制决定的,设备将像是一个中间人,它会在客户端与服务器之间扮演好数据交互和转发的工作角色,是否重传何时重传自由设备处理机制保障。
易隐者
2013-03-15 18:02
@飞雪:1,什么样的中间设备能够作为中转确认?
答:这个跟中间设备的工作特性有关,比较常见的设备重要有负载均衡/防火墙等;
2,什么设备代替请求设备重新发起申请! 此案例的设备如何设置234对233的重传,194对193的确认1
答:这个问题我没理解清楚,不好回答。一般而言,这种设备的进口/出口连接的关联是设备内部工作机制决定的,设备将像是一个中间人,它会在客户端与服务器之间扮演好数据交互和转发的工作角色,是否重传何时重传自由设备处理机制保障。

发表评论:

Powered by 易隐者 基于emlog 皖ICP备12002343号-1