tomcat假死,服务器失去响应
蓝色忧郁
VIP5
2020-07-14 14:39:22
最后修改:2020-07-14 14:39:43
收藏
问题背景:部分童鞋反应每隔几天就会出现请求服务没有响应,查看tomcat日志和系统日志没有任何报错,但是接口失去响应,服务器假死了。
分析:以下分析数据来自于@遥大叔的生产环境服务器。
一:查看tcp连接情况,发现大量CLOSE_WAIT,查看命令:[pre]
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
[/pre]
img[/userfiles/fly/c6e420a6461044258fd69a3b82ca7c34/files/1594707666683.]
二:查看堆栈信息,执行 jps
img[/userfiles/fly/c6e420a6461044258fd69a3b82ca7c34/files/1594708022486.]
三: 查看生成的console.log文件
发现大量线程等待数据库链接,导致数据库连接池耗尽
img[/userfiles/fly/c6e420a6461044258fd69a3b82ca7c34/files/1594708548875.]
解决办法:修改数据源配置,增大数据库最大连接数。
查阅文档,以下参数的含义。
[pre]
initialSize :连接池启动时创建的初始化连接数量(默认值为0)
maxActive :连接池中可同时连接的最大的连接数(默认值为8,调整为20,高峰单机器在20并发左右,自己根据应用场景定)
maxIdle:连接池中最大的空闲的连接数,超过的空闲连接将被释放,如果设置为负数表示不限制(默认为8个,maxIdle不能设置太小,因为假如在高负载的情况下,连接的打开时间比关闭的时间快,会引起连接池中idle的个数 上升超过maxIdle,而造成频繁的连接销毁和创建,类似于jvm参数中的Xmx设置)
minIdle:连接池中最小的空闲的连接数,低于这个数量会被创建新的连接(默认为0,调整为5,该参数越接近maxIdle,性能越好,因为连接的创建和销毁,都是需要消耗资源的;但是不能太大,因为在机器很空闲的时候,也会创建低于minidle个数的连接,类似于jvm参数中的Xmn设置)
maxWait :最大等待时间,当没有可用连接时,连接池等待连接释放的最大时间,超过该时间限制会抛出异常,如果设置-1表示无限等待(默认为无限,调整为60000ms,避免因线程池不够用,而导致请求被无限制挂起)
poolPreparedStatements:开启池的prepared(默认是false,未调整,经过测试,开启后的性能没有关闭的好。)
maxOpenPreparedStatements:开启池的prepared 后的同时最大连接数(默认无限制,同上,未配置)
minEvictableIdleTimeMillis :连接池中连接,在时间段内一直空闲, 被逐出连接池的时间
(默认为30分钟,可以适当做调整,需要和后端服务端的策略配置相关)
removeAbandonedTimeout :超过时间限制,回收没有用(废弃)的连接(默认为 300秒,调整为180)
removeAbandoned :超过removeAbandonedTimeout时间后,是否进 行没用连接(废弃)的回收(默认为false,调整为true)
[/pre]
修改application-production.yml文件(请修改你线上实际使用的yml文件):
修改以下内容
[pre]
datasource:
dynamic:
druid: # 全局druid参数,绝大部分值和默认保持一致。(现已支持的参数如下,不清楚含义不要乱设置)
validation-query: select 'x' from dual
SelectMethod: cursor
filters: stat # 注意这个值和druid原生不一致,默认启动了stat,wall
maxActive: 20
maxIdle: 8
minIdle: 5
maxWait: 60000
removeAbandonedTimeout: 180
removeAbandoned: true
p6spy: false # 默认false,线上必须关闭。开发阶段可以打开调试输出mybatis语句,但是有许多莫名其妙的bug,以及严重的性能问题,所以正式环境必须关闭。
[/pre]
经测试,未再出现tomcat假死现象。