深度解剖百度的工作原理!

      生活中到处都是搜索,当我们看到这些搜索框的时候,何曾想到这些搜索的意义何在,它们为什么存在。。。。。

记得08年以前没有获取流量的各种方式,也没有这么多的数据让我们使用,每个站长做完网站的第一件事就是使自己的网站在百度上有排名,那么怎么才能在搜索量大的关键词有排名呢,很多人开始分析百度和谷歌的搜索引擎,只有知道了他们的搜索引擎的工作原理才能真正的知道怎么获得排名。



       百度和谷歌的工作习惯是不一样的,百度是唯一一个先存后取的搜索引擎,算法也很不相同,谷歌有自己的权重算法,因百度指数强大的数据库,所以百度有自己的独特的绿萝算法,工作原理见上图

640.webp (2).jpg

       百度蜘蛛是依据两大规则抓取网页并储存到索引库的,广度优先就是蜘蛛到达一个页面后,发现锚文本不是直接进去,而是把整个页面所有都爬行完毕,再一起进入所有锚文本的另一个页面,直到整个网站爬行完毕。深度优先就是指蜘蛛到达一个页面后,发现一个锚文本链接,就是爬进去另个一页面,然后又在另一个页面发现另一个锚文本链接,接着往里面爬,直到最后爬完这个网站。从而看出我们应该把链接做的更加树状更加使爬虫在我们网站里面多停留一会,爬虫都会对链接多的网站感兴趣。

       对URL进行设计时应该从浏览者和搜索引擎的双重角度进行考虑,在总体上边应该做到URL 简短、清晰、友好、方便记忆,然后还要适当的考虑对于搜索引擎排名的影响。简短是对url的基本要求,建议不要超过三层。像很多排名较好的网站其网站文章页面都放置在网站根目录下面,在进行URL规划的时候,需要我们尽可能使用静态的URL,一定的优势。如果一定要采用动态URL,也静态URL还是具有应该尽可能的减少URL中的参数,最好保持在三个以内。

       上图是baiduspider抓取到的网页内容,在中国baiduspider抓取的只是文字和字母,数字,和一些简单的符号。

我们要把关键词放在网站里面才能被百度抓取且放在百度的索引库里面,站内有的关键词在用户搜索的时候才能有排名。

       

索引库我们可以看做是一个表格,刚进到索引库的时候是每个URL地址对应着一大堆关键词,就是正向索引,因为展现的时候是每个关键词对应每个网页,索引库会做成每个关键词对应哪些网页,呈献给用户。



所以,我们必须要有规范的url地址才能被收录,我们要有合理的关键词布局,才有排名。这就是我们所说的站


转载请注明:刘思扬-思扬小站 » 深度解剖百度的工作原理!

分享到

发表评论

分享:

支付宝

微信