【终端数据防泄密】【指纹工具】指纹原理

2线-周庆喜发表于:2020年09月02日 14:17:43更新于:2020年09月15日 11:23:00

文件内容指纹:将大量数据分成多个小片段,对这些小片段的数据计算校验值作为比对依据

在获取文件的文件内容指纹时,采用工具获取,工具对文件的大小有限制,且只能获取word,excel,pdf等类型的文件指纹

原理:按照纯文本字符进行分割,类似切片(切片大小:最小匹配长度)而后将文件根据细粒度进行提取(字符长度:指纹提取粒度)因此当文件内容小于切片大小的时候,无法进行计算


image.png

如上,根据最小匹配长度及提取粒度,对分片的内容进行类似hash算法的加密,即可生成相应的指纹信息

因此,细粒度越小,计算越复杂,所需时间越多

文件指纹是依靠两部分完成判断的
1.至少匹配次数:计算外发文件的指纹信息,与敏感文件的指纹信息匹配了多少条

2.相似度:要传输文件的指纹与库中的指纹匹配成功的数量/要传输指纹的总数

image.png