• 027-87317566
  • 3229745657@qq.com

站多多網絡

當前位置:首頁 > 手機網站
新聞資訊

力求視覺與交互的完美契合,以規範的流程和專注的态度,為您提供全方位的設計服務

【山東網站制作】網站在優化過程中頁面抓取過程簡述

來源:武漢網站建設  浏覽量:  發布時間:2018-11-08 09:31:20

url,即統一資源定位符,通過對url的分析,我們可以更好地理解頁面抓取過程。今天,小小課堂SEO學網帶來的是《頁面抓取過程簡述》。希望本次的SEO技術培訓對大家有所幫助。

一、url是什麼意思?

URL,英文全稱為“uniform resource locator”,中文譯為“統一資源定位符”。

網站優化中要求每一個頁面有且僅有一個唯一的統一資源定位符(URL),但往往很多網站同一頁面對應了很多個URL,如果都被搜索引擎收錄且未做URL轉向,就會産生權重不集中的情況,通常稱為URL不規範。

二、url的組成

統一資源定位符(URL),由三部分組成:協議方案、主機名和資源名。

例如:

https:// www.x**.org /11806

其中https為協議方案,www.***.org 為主機名 ,11806為資源,不過這個資源不太明顯,一般資源後綴為.html,當然還可以是.pdf、.php、.word等格式。

三、頁面抓取過程簡述

無論是我們平時用的互聯網浏覽器,還是網絡爬蟲,雖然是兩種不同的客戶端,但獲取頁面的方式卻是相同的。頁面抓取過程如下:

① 連接DNS域名系統服務器

客戶端都會先連接到DNS域名服務器上,DNS服務器将主機名( www.***.org )轉換為IP地址,并反饋給客戶端。

PS:本來我們通過111.152 . 151.45 的地址來訪問某網站,為了方便記憶和使用,才利用DNS域名系統轉換為了 www.***.org 。這也就是DNS域名系統的作用。

② 連接IP地址服務器

該IP服務器下可能會有很多程序(網站),可以通過端口号來做區分,同時每個程序(網站)都會監聽端口是否有新的連接請求,HTTP網站默認為80,HTTPS網站默認為443。

不過通常情況下,端口号80和443是默認不出現的。

舉例來講:

https://www.***.org:443/ = https://www.***.org/

http://www.***.org:80/ = http://www.***.org/

③ 建立連接并發送頁面請求

客戶端與服務器建立連接後,會發送頁面請求,通常為get,也可以是post。

get 11806 HTTPS/1.0

獲取HTTPS協議下的頁面11806 返回給客戶端。之後如需繼續獲取更多頁面,則發送其他請求,否則将關閉該連接。

PS:通常情況下 ,/seo/11806.html 可能會更清晰。也就是發送 https://www.***.org/ 下的 seo文件夾下的 11806.html 的頁面請求。

如未特殊注明,文章均來源于網絡! 轉載請注明來自:http://www.juhua353528.cn

這篇文章太贊了我也要點贊!

11

鄭重聲明 Solemn Statement
本文來源:http://www.juhua353528.cn 作者:武漢網站建設@武漢站多多 網絡營銷策劃,本文由武漢站多多版權所有,未經批準轉載必究。

武漢站多多 - 武漢網站建設終極解決方案

或許,我們能為您做的還很多...

400-8084-027 / 027-87317566
http://m.juhua353528.cn|http://wap.juhua353528.cn|http://www.juhua353528.cn||http://juhua353528.cn