到2008年5月3日,垃圾邮件已经陪我们走过30个春秋,没有人知道这个挥之不去的幽灵到底还要烦扰我们多久。但不可否认的是,伴随着互联网信息和带宽的高速成长,垃圾邮件也有了更“广阔”的用武之地。到底该如何更有效的防范这些垃圾呢?而对于企业管理员和用户,又该采取何种策略来应对垃圾邮件持续不断的攻击呢?
一、反垃圾邮件策略
当然人们不能坐以待毙!最开始,技术专家们采取了白名单和黑名单策略来防范垃圾邮件的骚扰,但随着发送垃圾邮件的源头越来越多,黑名单策略显然不能满足需要。于是,简单关键字搜索成为一种简单有效地方式,比如国内某些邮局提供商会将一些重复性的、全英文的信件标示为垃圾邮件。紧接着就遭遇对手的挑战,垃圾邮件制造者采取内容插入和随机数列来防止被搜索引擎捕获到。
紧接着,反垃圾邮件技术出现了一次变革——贝叶斯过滤算法出现,并且直到今天,我们仍然可以看到这种过滤算法在客户端和WEB邮箱上出现。它过滤垃圾邮件的步骤如下:
1.收集大量的垃圾邮件和非垃圾邮件,建立不同的集。
2.提取邮件主题和邮件体中的独立字串,然后获取频率。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。
3.每一个邮件集对应一个哈希表,hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。
4.计算每个哈希表中关键字符串出现的概率P=(某字频)/(对应哈希表的长度)
5.综合考虑hashtable_good和hashtable_bad,推断出当新邮件中出现某个字串时,该新邮件为垃圾邮件的概率。
6.建立新的哈希表 hashtable_probability
7.至此,垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表 hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性。
其实在今天的反垃圾邮件技术中,则融合了以前大部分实用技术的精华,采用权重算法让判断垃圾邮件的工作更精确、更智能。但保守的人们还是不愿把规则设置的过严,因为没有任何一个用户希望把自己正规的邮件当作垃圾邮件处理掉。