×
大家都在搜

DBNT云维护技术支持 - 深圳市聚源科技有限公司

QQ登录

只需一步,快速开始

+发表新主题

[其它] 客户机三小时后断网故障分析,真相居然是这样

[复制链接]

[其它] 客户机三小时后断网故障分析,真相居然是这样

光头强 发表于 2019-12-17 09:45:19 浏览:  391 回复:  0 [显示全部楼层] |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 光头强 于 2019-12-17 09:49 编辑

今天有个朋友联系 扫地僧,说他网吧大约三小时左右就断网,任何网站,游戏均无法上网,问我能不能帮他看看。
第一次听说这么有意思的东西,当然要帮他看看了,扫地僧立即组织了骨干技术力量进行分析。

对于这样随机性的问题或者是三个小时后才出现的问题,难道我们一定要等上三个小时才能查出真相吗?不是的,只要找到问题的核心原因,只要验证真正的问题即可。

好,下面又是一起开始学习计算机技术的时间了:

1、这位朋友反应,在网吧出现故障时,多个浏览器的HTTP,HTTPS网站都打不开,游戏也无法登录。外网所有东西都无法连接。开始我们还以为是DNS出现了问题,但经过分析,事情没有那么简单。

       TIM截图20191217093648.jpg


2、并且,这个故障一般在约三小时后出现:
      TIM截图20191217093743.jpg


3、经过我们一起艰苦的调试,发现了问题所在。
当出现问题时,任何TCP连接,都是失败的,从本地发不出任何连接,失败在bind端口,此时,因为端口已经使用完了,系统没有空闲的端口用来提供TCP服务。
    TIM截图20191217093921.jpg


4、我们检查系统进程,发现SYSTEM进程TCP句柄泄露,此时占用了30000多个TCP句柄。
      TIM截图20191217094007.jpg


    驱动不断疯狂的占用TCP句柄,并且不释放。
    TIM截图20191217094044.jpg


5、SYSTEM进程出现问题就是驱动出现了问题,为了找出是哪个软件的驱动出现了问题,我们对问题进行了进一步的排查。

6、去除DBNT,去除营销软件,问题依旧出现。

7,最终没办法,我们先只保留无盘软件,关闭所有其它任何包括收费系统的软件,一步一步测试,最终我们从最干净的镜像开始,发现问题出在安装某去广告软件后问题开始复现(但注意,用户后来卸载了该去广告软件,还在不断的测试,因为用户朋友网吧生意很好,暂时停止了测试),可以看到有问题时2分钟时间,泄露了218个TCP句柄。

      TIM截图20191217094223.jpg


8、验证,只要用pchunter打开system进程,找到句柄结束一些,就可以上网了,问题验证成功。
      TIM截图20191217094302.jpg


      TIM截图20191217094309.jpg


总结:

某款软件的驱动出现了BUG,大量的占用TCP句柄,并不释放,约三小时后最终占完所有系统的TCP端口,导致网络无法使用。


解决办法:
因为该用户朋友网吧生意好,最终用户朋友还在测试,但是已经马上就要接近真相了。若你的系统有同样的问题,可以用此方法就行排查即可。5分钟可找出真相。

解决只需要是卸载了哪款软件,句柄不会再疯狂的泄露,就是该软件的BUG。请和相应的软件厂商反应修复相应的驱动BUG即可。
此BUG只能反应给厂商修复其出问题的驱动,无法通过第三方写程序去修复他。

思考 :目前我们测试有多款软件出现同样的问题,或许他们都用了同样的组件导致的吧。

其它问题:《https网站无法打开的问题分析》
https://mp.weixin.qq.com/s?__biz=MzI5NDIwNjM3MA==&mid=2247483850&idx=1&sn=a6289a6830e9403e1d4fc37b1785a42c&chksm=ec672f07db10a611bc1c4f537da8c9e40164d85bd8924db8444e589a63c70f3b239834d26c87&token=230990992&lang=zh_CN#rd

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

DBNT云维护技术支持 - 深圳市聚源科技有限公司 ( 粤ICP备17103197号-2 )

© 2013-2016 Comsenz Inc. Powered by Discuz! X3.2