本文共 2055 字,大约阅读时间需要 6 分钟。
云监控 OSS 出现 "数据不足"
先看下 OSS 控制台的监控的 http code 、以及 QPS 分析,如果 OSS 请求量比较小,而 OSS 对应的时间点有没有请求就会出现数据不足的情况,这种问题最好设置合理的监控数据上报时间。
云监控发现上传下载延迟
用户自己监控系统发现请求有延迟
有的公司技术支持比较全面自己做了一套监控系统可以监控 OSS公网全链路,但是监控的只是网络传输的时间,可以辅助的去看问题,但是不可全信,当发现有延迟时。
有效请求率降低
对象存储 OSS (<)Bucket=p2xxx,userId=135114002(>),有效请求率(30.51<90% ),持续时间0分钟>请求率规则是 2xx+3xx/总体数量计算出来的,先看下 OSS 控制台的统计 2XX 3XX 以及其他遗产状态码的占比确认是否因为异常状态码增加导致的有效请求率下降。
另外最靠谱的就是自己开通 OSS 的日志随时可以分析请求行为。云监控报警 404
对象存储OSS实例:Bucket=xum-ali,userId=19733976745,资源不存在错误请求数于11:45恢复正常,值为30次,持续时间5分钟。
规则详情:报警规则oss_ResourceNotFoundErrorCount,资源不存在错误请求数的5分钟统计值,连续1次满足表达式当前值>30次云监控出现 NoSuchWebSiteConfigration
出现这种问题是客户端在请求 OSS 时加载的功能配置不存所以报错 404 ,是正常请求,不是异常。200 的转状态是用户已经在 OSS 上配置的功能模块,报警人可以忽略这部分的报错信息。
OSS 控制台 API 统计图无数据
这种情况并不是异常,完成的监控数据都是隔天显示,当前时间是 10.12 ,完整的数据还没有出来,所以不能画点,要等到 13 号才能看到完整的 12 号数据。
通过 OSS 监控计费账单对比
先了解 OSS 监控
结论:
准确合理的对账方式通过两种途径:
云监控显示某个时间段的有效请求率下降为 0,但是 OSS 的 log 以及控制台的监控数据都是正常。
首先要知道源监控有效请求率的计算是 (2x x+3xx)/总请求数量
发现类似情况观察下 OSS 控制台或者 OSS log 没有异常即可,出现这种问题是因为 OSS 再收敛整个集群日志推送到云监控时超过了云监控的接收窗口期,而云监控不支持补推,所以这块数据调为 0 。目前 OSS 再 2019-1-1 后对监控数据进行优化可以规避掉这种问题,后续还会持续优化类似场景。
转载地址:http://ismml.baihongyu.com/