通过全局链路监控分析实现企业邮箱故障快速定位
随着企业业务的发展壮大,协同办公工具在内外部信息管理方面的必要性日益凸显。企业邮箱作为最基础的协同办公工具之一,对现代化企业的办公效率有着重要影响。
中大型公司都会搭建自己的企业邮箱服务,并且使用专业的安全邮件网关过滤掉外网的垃圾邮件、病毒邮件,拦截内部发送外网的涉密邮件,保证工作的合规性和安全性。但日常使用中难免遇到邮件发送失败、接收失败和异常退信等情况,这就需要对邮件发送和接收整个链路进行针对性的监控,以便迅速解决问题,保障办公效率。
客户场景分析
某大型证券公司业务范围较广,工作的合规性及安全性要求较高。该企业在处理邮箱服务异常情况时,通常会根据邮件的发送时间和标题来确定大致范围,然后逐个登录服务器查看日志。此种方式效率较低,需要很长时间才能定位故障问题。
日志易团队从邮件的整体链路情况和日常故障场景两方面入手分析,使用全局监控手段来帮助运维人员快速定位问题,以缩短时间消耗,减少人工投入。
从邮件的整体链路情况进行分析,邮件链路可拆分为内网邮件发送链路及外网邮件接收链路两部分。
内网邮件发送链路是指用户在企业内网发送邮件的过程,用户通过 Outlook 进行邮件发送,邮件先到达 Exchange 邮件服务器组,该服务器组将对邮件进行转发,转发后的邮件到达 SMG 邮件网关,该邮件网关会对邮件的内容进行合规检查,检查通过后,邮件发送到外网的邮箱服务器,由收件人进行邮件接收。
【图1 内网邮件发送链路示意图】
外网邮件接收链路与内网邮件发送链路相反,邮件先由外部进入内网,经 SMG 邮件网关对原始邮件进行垃圾邮件过滤或邮件安全扫描等检查后,才会转发到内网。
【图2 外网邮件接收链路示意图】
根据上述邮件链路,对该企业日常故障场景进行分析,已知内网邮箱为 emailckeck@xxx.com.cn,外网邮箱为 cland@xxx.com,可得出以下几种故障情况:
- Exchange 无 emailckeck 邮箱的发送记录,邮件投递失败;
- Exchange 有 emailckeck 邮箱的发送记录,但 SMG 无记录,邮件投递失败;
- SMG 无 cland 邮箱的接收记录,邮件接收失败;
- SMG 有 cland 邮箱的接收记录,但 Exchange 无记录,邮件接收失败。
解决方案
根据整体链路情况,需要将 Exchange 日志和 SMG 日志进行采集、解析及关联分析,最后将整体运行情况进行展示,并对异常情况进行告警分析及发送。
将内网邮件发送及外网邮件接收情况进行汇总,可根据某些参数判断链路是否正常。如在下面的 SMG 内部邮箱发送链路分析中,当 smg_ct 及 exchangec_ct 同时为 1 时,status 字段会显示邮件链路正常,其他情况均为异常。而内部邮箱发送链路和外部邮件发送链路都正常时,代表整体邮箱服务正常。
【图3 SMG链路详情分析图示】
当邮箱发送情况出现故障分析中的 4 种情况时,会发送告警给邮箱管理员,点击告警详情中的查询链接可以直接钻取到仪表盘告警界面。
邮箱异常行为分析
根据外部邮箱和公司邮箱的离散关系,还可以分析出是否有针对内网邮箱的邮件轰炸及异常发件邮箱,并可通过配置邮件网关进行屏蔽过滤。
【图4 外部邮箱与公司邮箱通讯关系图】
日志易的监控及故障定位能力不仅仅体现在企业邮箱故障定位上。通过日志易可以构建一个完整的多维度监控体系,既可以从横向对多种设备进行关联分析,也可以从纵向快速发现单一设备或系统的异常故障,深挖故障原因,从而为企业构建全面完整的运维分析平台。
欲了解更多日志易监控及故障定位场景,欢迎垂询 400-085-0159,或在公众号回复“日志分析”获取案例合集。