网页信息指纹(Fingerprint):通常是指搜索引擎将一个网页净化后进行分词而得到的一组关键词或一个句子,可以是关键字、词、句子或者段落及其在网页里面的权重等,再将这些信息进行加密(如md5)从而得到的一个字符串,这个字符串和人的指纹一样的具有独特性,每个网页的信息指纹都不一样。
一般搜索引擎进行净化时会把网页中的导航,版权,LOGO等信息过滤,然后再对剩下的文本内容进行分段签名,形成多个信息指纹。
信息指纹主要用于搜索引擎对于两个页面的相似程度进行比较,判断一个网页是否是复制而来,如果两个网页,他们有多个信息指纹是相同的,那么就会被认为是相似页面,从而降低网页的权重。
本文【网页信息指纹】来自创亿互动,原创文章请注明转载来源,谢谢合作!
