【CSMP】【云安全平台】部署完成后rabbitmq集群异常

虞超01发表于:2021年08月17日 10:08:54更新于:2021年08月18日 21:05:35

问题描述

关键字:CSMP平台,部署完成后监控页面显示rabbitmq集群异常

适用版本:2.0.5 多节点环境

文字描述:CSMP2.0.5部署完成以后,打开web页面发现服务监控有一个异常,点击进去看详情,发现是rabbitmq集群异常

现象截图:

image.png

image.png

处理步骤

判断项1:

登录物理机,使用systemctl status rabbitmq-server

指令查看rabbitmq-server服务状态,如果状态不是active,则systemctl restart rabbitmq-server重启服务。如果是active,查看判断项2

 

异常处理:重启过后不是active,则查看判断项2

 

判断项2:

3台物理机分别执行rabbitmqctl cluster_status 查看是否正常

 

异常处理:如果看到有一台主机执行显示没有加入集群(如下图),则执行判断项3

状态如下

image.png

 

判断项3:

登录有问题的主机,Netstat –tunlp 检查4369端口是否打开监听,如果打开了,再次重启该物理机的rabbitmq-server服务。

 

异常处理:重启后如果报错依旧存在,可以按照如下方法进行rabbitmq重装

首先,3台节点关闭rabbitmq-server服务

systemctl stop rabbitmq-server

 

其次,3台节点删除目录下的内容,注意:不是直接删除目录

cd /var/lib/rabbitmq/mnesia && rm –rf *

 

然后,登录UI部署机所在节点,后台执行如下指令进入ansible环境

source /srv/ansible/bin/activate

 

最后,重新执行脚本部署rabbitmq集群

ansible-playbook  /opt/deploy/ansible/install-rabbitmq.yml  -i /opt/deploy/inventories/csmp/hosts

 

重装完成后即可恢复rabbitmq集群

验证步骤

为验证问题是否解决,检查以下内容:

验证步骤1:

进入物理机后台,执行rabbitmqctl cluster_status查看服务状态,状态与下面一致即为正常

image.png

验证步骤2:

过5分钟后,再次登录web界面查看监控状态,发现告警已经恢复

信息收集

如果执行以上步骤还是没有恢复,需要一线收集如下log信息,并联系2/3线解决

/var/log/rabbitmq