番摊平台





技术人生系列——新趋势:图技术赋能贷款资金流向追踪

日期:2020-05-18

 

 
 

人民银行开出“天价”罚单

 

今年年初,某银行因为被人行开出超两千万元的“天价”罚单上了热搜而被广泛讨论。它被处罚的主要原因为未对客户进行尽调,并涉及房地产资金运作行为违法违规。

 

事实上,人行对资金流入房地产的严管已经持续多年,仅过去两年就有4家银行及金融机构因为涉及相关问题而被处以千万元的罚款。

 

种种事实都在释放着这样的信息:资金追溯是每一家银行和金融机构都必须去面对和解决的问题。

 

本期技术人生,我们就来解析一下这种新趋势:图技术赋能贷款资金流向追踪。

 
 
 
 

海量资金流水数据,传统方法难以追踪

 
 

传统的关系型数据库以表格的方式储存和呈现数据,十分抽象。

 

图片

银行流水示意

 

银行每月交易流水都达百万到百亿的数量级。使用传统的查询方法在茫茫数据中搜寻蛛丝马迹,不仅耗时耗力,最终结果也未必理想,这成为了许多银行等金融机构开展资金追踪的障碍。


 

 
 
 

图技术+规则:追踪资金流向新思路

 
 

1、简单直观的图数据库

而图分析则能很好地解决数据不直观、难以追踪的问题。假设在关系型数据库中有下表所示的一段交易流水:

 

序号

……

转出方

收入方

金额(RMB

……

……

……

……

……

……

……

XXXX

……

公司A

公司a

2,000,000.00

……

XXXX

……

公司A

公司b

3,000,000.00

……

XXXX

……

公司A

公司c

3,000,000.00

……

XXXX

……

公司a

公司B

1,980,000.00

……

XXXX

……

公司b

公司B

2,960,000.00

……

XXXX

……

公司c

公司B

2,980,000.00

……

……

……

……

……

……

……

关系型数据库存储数据示意

这些数据在图分析中,将有完全不同的存储方式。

以TigerGraph图分析为例:将交易过程中的每一个实体(银行或公司)作为节点、每一条交易流水作为两点之间的一条边,我们便能构建一张包含所有交易数据的关联图,其中的数据将被存储在图数据库中。

 

图片

图数据库存储数据示意

 

可以看到数据中的“公司A”、“公司B”都从三条数据合并为了一个节点,转账行为成为了带数据的有向边,利用点边关系即可清晰地描述实体间的交易行为。

 

并且通过构建图,我们发现公司A转出的金额和公司B收入的金额接近,有助于业务人员对两公司之间的交易行为进行进一步甄别和判断,而这在传统的关系型数据库中是很难直接看出的。

 

人脑天生就对图更加敏感。以图的形式进行数据存储,构建实体之间的关联关系,这样的方法符合人类认知数据的直觉。

 

2、基于图的资金流向追踪

我们利用TigerGraph图技术,构建知识图谱(以图的形式存储)设置业务规则以进行资金流向查询和追踪。

 

图片

存储实体和交易数据的图分析示意

 

假设根据业务人员的经验,如果申请贷款的公司在贷款发放后的短时间内(例如3天内)就将款项大部分(例如80%以上)转出公司,那么这家公司极有可能将款项用于购买房产:

 

采用图技术,我们可以将以上这项特征总结为一条规则,将它编写为查询:

 

在全景知识图谱上设置查询条件:1、发放贷款与转出交易的时间差为3天内;2、转出的金额总额大于等于贷款发放金额的80%。编写代码后在知识图谱上运行,就能输出我们想要的结果。

 

                                        图片

 

3、基于图的优势

相比基于关系型数据库的查询,TigerGraph图查询的条件设置直观且简便,无论从图形上还是业务逻辑上,都有较强的可解释性

 

关系型数据库目前尚无法解决数据不足的问题。而利用图技术,即使是在数据量不足的情况下,我们也能将业务人员的经验总结为更多的规则,编写多种查询,使查询输出的结果具有更高的覆盖度,有利于业务人员进行资金的追踪和监控。

 

                                      图片

 
 
 
 

图技术在各场景中的应用探索

 

除了追踪资金流向,图还能有效地搜索链路、回路等结构,对反金融欺诈场景的业务应用具有天然的优势。在发现洗钱链路、套现团伙等场景中,图都有出色的表现。

 

                                          图片

发现洗钱资金回路示意

 

在信用卡的套现侦测案例中,我们采取多部图及高密子图侦测等方法,基于百万级的数据量进行查询代码的运行。相比传统查询方法,图技术将代码运行时间从2-3缩短为1小时,输出结果覆盖的黑样本从总量的58%提高到77%,运行效率和结果覆盖率都有显著提升。

 

近些年,我们在基于图的算法研发和深度学习挖掘方面做了诸多探索,它们能够发现一些人工无法归纳的特征和结构。结合业务人员的经验,从而得出更多有用的结论。

 

我们还将持续推出图技术在各类应用场景中的深度解析,欢迎持续关注!

 


锻造凝炼IT服务 助推用户事业发展
地址:北京市西城区百万庄大街11号粮科大厦3层
电话:(010)58523737
传真:(010)58523739