记录一次etcd集群崩溃处理

发表于 2024-02-22 更新于 2024-07-24 阅读次数：本文字数： 1.1k 阅读时长 ≈ 1 分钟

节后apisix网关突然504

查询发现链接etcd异常

查看etcd 日志发现有 no space 错误日志

使用 df -TH 查看系统磁盘，发现有 loop盘占用100% 情况，

处理方法：

直接执行

sudo apt autoremove --purge snapd

清理后重启etcd发现报错 etcd mvcc: database space exceeded

这时需要清理历史版本

# 1、获取当前的版本
$ rev=$(ETCDCTL_API=3 etcdctl --endpoints=:2379 endpoint status --write-out="json" | egrep -o '"revision":[0-9]*' | egrep -o '[0-9].*')
# 2、压缩当前版本之前的所有记录
$ ETCDCTL_API=3 etcdctl compact $rev
compacted revision 1231231
# 3、清理多余的碎片空间
$ ETCDCTL_API=3 etcdctl defrag
Finished defragmenting etcd member[127.0.0.1:2379]

# 我在清理多余的碎片空间这一步报错了,但是继续走后面的流程

# 4、解除警告
$ ETCDCTL_API=3 etcdctl alarm disarm
memberID:13803658152347727308 alarm:NOSPACE

清理后发现只有节点0能够启动，就按照删除节点并清理磁盘后加入集群的方式修复其他2个节点

1
2
3

2024-07-24 07:21:27.469097 E | etcdserver: the member has been permanently removed from the cluster
2024-07-24 07:21:27.469131 I | etcdserver: the data-dir used by this member must be removed.
2024-07-24 07:21:27.469176 I | etcdserver: aborting publish because server is stopped

这种多出现在容器部署

因为在催测试环境，所以将集群改为单机了

参考:

https://blog.csdn.net/zhongbeida_xue/article/details/119209698

https://blog.csdn.net/justlpf/article/details/133136112