在典型的钓鱼电子邮件或者手机短信攻击中,攻击者经常会冒充受害者的同事、客户或者服务平台,并使用与其冒充的个人或机构非常相似的域名。识别钓鱼域名最常见的方法是使用规则对已知域名进行对比,如果存在的差异比较小即相似度比较高,就可以判断为可疑的钓鱼域名。最简单可使用Levenshtein Distance(莱文斯坦距离)来判断两个域名的差异度。但如果使用该准则用来判断钓鱼域名,就会产生阈值的不确定性问题,即不同长度、不同分布的正常域名与之对应钓鱼域名的差异度往往是不同的,很难通过简单的数学公式进行表示,阈值设置的过高,则容易产生漏报问题;阈值设置过低,则容易产生