基于智能日志分析平台 打造江苏银行数据运营管理体系

本文已发表在《金融电子化》杂志 2019 年 8 月刊总第 287 期,第 76 页)

作者信息:

张为民,江苏银行信息科技部副总经理,高级工程师。长期从事金融科技工作, 负责江苏银行信息科技安全管理、运维管理工作。在致力于打造“最具互联网大数据基因的银行”的发展方向指引下,江苏银行信息科技部一直努力通过智能化技术的创新应用,推动企业级数据运营管理体系的建设与持续发展。

以下是本文的正式内容:

据权威数据显示,银行每创造 700 万元的收入,平均会产生 820 GB 的数据量。银行业数据包括工资、公积金、消费贷款、商品支付等业务数据,还包括设备运行数据、应用性能数据、安全数据等信息系统数据,这些数据既包括结构化数据,也包括文档、图片、视频、地理位置等种类繁多的非结构化数据。数据是现代银行的核心基础和战略资产,甚至还是未来影响整个行业的关键所在。大数据价值的挖掘,对银行业发展的意义不言而喻。

数据运营现状

随着金融科技应用的持续深入,企业数据规模陡增,传统流程化管理的瓶颈不断凸显。日益增长的数据体量下,原 IT 运维的效率无法匹配现有的生产规模,运维模式急需变革。自动化运维、智能运维概念的提出与落地,为企业 IT 运维管理指明了方向。

将自动化运维、智能运维的新技术与数据管理结合起来, 势必要考虑到银行业日志分析面临的一些共性问题。这些问题可能是其他行业很少遇到的。比如,出于安全和权限考虑,很多业务系统之间是相互独立的,跨业务系统的日志记录分散孤立,流水号、订单号无法相互关联,很难实现关联分析。这样在把控整个业务系统健康度,从整体视角优化各业务系统时会很不利。

银行业业务结构复杂,数据体量大,不同的业务系统产生的数据格式不同 ;同时,银行业数据管理还要兼顾安全性、实时性。这些都对数据管理系统的性能要求较高,使得银行业数据管理面临较大挑战。

建设智能数据运营管理体系,使用更高级的自动化分析技术,运用更强大的监控管理手段,以业务价值为导向,打造行业特色的企业级数据运营管理体系,是银行业数据管理者必须着重思考的方向所在。

日志大数据分析平台实现方式

互联网时代,各种各样的行为信息都会被以“日志”形态记录存储下来,包括各种消费行为,也包括种类多样的资金周转数据。通常情况下,这些数据零散地分布在各个业务系统上,对其进行价值挖掘的难度较大。

江苏银行与国内机器大数据厂商日志易达成合作,建设了智能日志中心,共同协作建设银行业企业级数据运营管理体系。通过旁路监听或采集的方式将日志接入智能日志中心,根据企业需求,这些日志可能是操作系统、网络设备日志、中间件日志、数据库日志,也可能是业务系统日志。

开源的日志处理方案维护成本高,尤其在面临复杂需求时,常常要面临性能与精准度无法兼顾的状况。智能日志中心同时支持物理机和虚拟机混合部署,充分保证数据安全性 ;根据企业服务器资源、数据量、系统稳定性等因素可以自定义日志中心各个模块的节点组成 ;智能日志中心将分散的日志统一采集,为企业建立统一日志管理平台 ;缓存队列保证了数据的完整性,并能确保业务性能不因日志采集受到影响。

在数据入库时,日志平台可将企业常见日志自动解析,为确保用户数据的私密性,数据脱敏及结构化清洗也会在入库前完成。各种日志自动化解析工具即插即用,大大提升了日志解析的便捷度。日志平台同时支持分析时解析, 避免了入库后无法解析的情况,充分保证了日志平台的健壮性。

日志大数据分析平台在银行业的应用

技术落地要面临的首要问题便是业务契合。如下是银行业利用日志分析平台实现数据分析及运营的实例。

1. 安全分析场景

日志分析平台通过覆盖安全团队负责运维的安全类设备运行产生的日志,可帮安全团队实现可用性检查和安全事件分析功能。针对接入的WAF、IPS 、防火墙等日志,通过安全事件的关联分析,将疑似攻击事件进行来源分析,可发现攻击事件并对正在进行的攻击进行防御。

2. 合规审计

通过还原业务的访问过程,精准分析业务流程的时延,精准识别基于业务逻辑的攻击行为,可为工作人员提供清晰的可视化业务分析报表和业务攻击告警。在满足审计记录规范化的需求方面,由于全网设备种类繁多,各设备日志信息存储格式、字段含义、通信协议差异较大,日志平台会对采集到的各种设备日志进行归一化处理,提取审计记录完整信息,为后续审计分析提供依据。

3. 业务流程监控

针对企业关键业务系统,通过将日志中交易请求与响应关联,分析出交易量、交易耗时、交易成功率、交易码分类等关键指标,基于指标能够掌握业务实时运行状态,针对特殊失败码能够进行失败事件数阈值告警,对交易成功率低的时段进行告警。对业务交易的实时把控,解决了客户无法及时了解应用运营情况的痛点,有效减少了因业务故障被用户投诉的场景,提高了用户的满意度。

4. 应用性能监控

通过日志分析可让应用运行状况尽在掌握之中。如银行业的统一调度平台日均执行上万个作业流任务,业务高峰时往往造成应用服务器负载过大,可能造成程序无法及时处理作业等情况,所以需要对应用服务器性能指标实时分析。日志平台可以采集服务器磁盘使用情况、磁盘 IO、CPU、内存、网络等指标,准实时监控应用主机运行状况,结合业务峰值、并发与服务器负载情况,实现合理配置服务器资源。

日志大数据分析平台实现效果

日志数据入库后,可在 WEB 页面方便快捷地查询日志数据。基于交互友好的提取字段功能,用户可使用鼠标划选日志内容,由系统自动生成正则表达式,帮助用户将日志中的有效信息划分为一个个字段,方便查看和检索。

使用日志平台的搜索处理语言( SPL,Search Processing Language )可进行复杂统计及关联分析,方便于海量数据中快速定位问题(见下图)。

基于日志平台,还可对日志分析结果进行告警,如分时段交易监控告警,可在交易量低于阀值时实时告警,方便运维人员及时发现异常并进行处理。

用户还可自定义仪表盘,实时展示各种分析图形,并根据需求定期输出统计报表。此外,平台完善的权限管理体系在保障客户数据安全方面同样不可小觑。

展望

目前,江苏银行在建设智能日志分析平台的过程中,已能够在满足基础架构管理要求的情况下,覆盖现有服务器基础资源,完成日志的异步获取、集中存储,能够通过可视化、告警、报表等,掌握各个系统的运行状态,并能基于日志数据分析进行告警和排障。

日志数据的价值远远不止于此。企业级数据运营管理体系的建设应随着企业业务的演进,不断被赋予新的内涵。在这个数据为王的时代,我们需要深度挖掘数据价值并反馈于生产,通过数据促进运营并推进智能管理。