网易标签页404页面被收录的秘密 黑帽SEO这波操作真绝了
近期我在查看有关网站日志之际,发觉有不少流量源自网易那呈现为404状态的页面,紧接着顺着所给出的链接点击进入查看,嘿,真是令人惊讶,一串经过加密处理的ID之后所跟随着的居然是各种各样热门关键词相关的文章。显而易见这是存在有人借助网易的标签页系统实施了黑帽SEO行为,致使原本理应显示报错的页面摇身一变成为了被收录的页面,对于这般技术实在不得不佩服。
网易标签链接的加密规律
随意开启网易当中一个没问题的子栏目的列表页面,将鼠标挪动到热门关键词之上,左下角所展示出的链接结构具备显著特点,比如,像刘涛、鬓边并非是海棠红这类词汇,与之相对应的皆是相似的三级目录加上1.html这种格式。
通过对比发觉,这些链接后续的那两个数字目录乃是关键词自身加密之后的产物,并且加密之后的字符长度与原词的字数全然成正比。一个汉字对应四个字符,这样的规律性太过显著,一眼便能看出并非随机的。
16进制加密的识别过程
瞧见加密之后的结果全部都是小写的字母以及数字,并且其中字母仅仅出现了从a到f这六个,这不就是合乎标准的16进制所具备的特征吗。再额外添加进先前发现的长度所存在的对应关系,基本上能够确定这便是把汉字转化成为16进制编码。
都清楚编码的友人都晓得,在计算机当中汉字均存在对应的Unicode编码,转变成16进制恰恰是四位数字。比如说某个汉字的编码是U+5F20,那么在链接里便会显示成5f20,与这个规则完美契合。
字母类关键词的处理方式
但是问题出现了,要是关键词当中含有英文字母该如何处理呢?字母转化成16进制后代码一般只有两位,就像A的ASCII码是41,转化成16进制之后便是41。这与汉字的四位长度并不相匹配呀。
以网易的处理办法来看,其是于前面补上零,将41转变为0041,借此使得所有关键词于加密之后皆为四位的倍数,进而确保了链接结构的统一性,而这个细微的环节表明他们的技术的确考虑得极为周全。
加密算法的代码实现
明晰道理之后,撰写一段Python代码予以验证是极为简易的。首先借助ord函数去获取字符的Unicode码点,接着运用hex将其转换为16进制数,随后采用zfill对其进行四位的补足。运行若干测试词,把得到的结果与网易所生成的链接进行一番对比,结果完全相同。
成功验证代码之后将其封装成函数,输入任意的关键词都能够直接生成与之对应的加密目录,比如说给出输入条件为刘涛,输出的便是那两个加密ID,把这两个加密ID组合起来便形成了完整的tag页面链接,其效率相较于手工查找要快出许多。
批量生成链接做外链
具备了这个生成函数之后,余下的便是去撰写一个循环,以此来对关键词列表展开批量处理。将准备妥当的热门词库运行一遍,仅仅几分钟的时间便可以生成几千个网易tag页面的链接,随后就能够把这些链接拿去用于发布外链、刷取收录了。
此类借助高权重平台去铺设外链的方式极为普遍,然而要探寻详细加密规律的确得具备一定技术。网易这种大型站点权重颇高,只要网页被收录,所产生的外链效应相较于普通小型站点要强出许多。
为何404页面会被收录
故而便引出了这么一个技术的问题情况为,于常理而论这404是属于错误的页面,按道理来讲是不应该存在被收录如此情况才对的。我据此进行猜测推测存在有着两种可能情形,其一为网易针对的是这些tag页面采取了特殊的处理方式手段,哪怕其内容呈现是为空的状态也依旧返回200状态码;其二是爬虫当在进行抓取这个操作行为的时候发现其链接结构符合正常文章页所具备的模式样式,于是就直接将其纳入数据库之中了。
不过,不论是何种缘由,黑帽SEO钻了空子这确是事实。网易理应赶快修补此漏洞,再者对于加密ID进行严格校验,或者给这些页面添加上noindex标签。
平日里,你尚有哪些大网站的SEO方面的漏洞被发觉过?欢迎于评论区域将其分享出来,大家伙一块儿展开讨论去学习一番,可别忘了点个赞予以支持一下。


还没有评论,来说两句吧...