網站第一次上線會順手幫客戶設定Search Console Sitemap提交和Google analytics數據統計。
後續基本上只會監控流量是否異常、檢查外掛或是佈景主題是否須更新,除非有支付額外費用才會針對SEO去做關注、優化。
某次客戶反應Google 搜尋上面突然找不到他們先前更新的資料,就連網站首頁也不見了!
這時直覺就是Search Console的Sitemap出問題,只需要重新提交就好,但事情沒想像的如此簡單。
在Search Console畫面顯示 Sitemap索引已送出,狀態則是「無法擷取」, 所以先進入查看是什麼原因
這邊顯示「HTTP 錯誤:403」,不用懷疑問題一定是在我們這邊,先點擊右上角 開啟 Sitemap 確認網站資料是可以看見的
使用 Validate XML Sitemap 也確認網站Sitemap是沒問題,唯一的可能就是防火牆阻擋Google的索引
在目前上線的網站大部分會在前面掛Cloudflare,一方面是省錢、二來可以阻擋很多惡意流量,結果問題就是出在這邊!
Cloudflare 有提供「機器人對抗模式」和「封鎖 AI 機器人」,這兩項功能會將大部分的爬蟲阻隔在外避免網站被搞癱瘓,就連Google bot也被擋了,只能額外設定讓爬蟲能夠索引網站資料。
這時要前往WAF使用「自訂規則」建立新規則,規則名稱可以填寫用途、欄位選擇 已知的機器人
動作選擇「跳過」,要跳過的WAF元件勾選「所有剩餘的自訂規則」,選取幕次「第一」,接著點擊 部署 即可。
這時只要是CF認可的爬蟲就能正常讀取我們的資料
最後回到Search Console重新提交一次就會出現如下圖成功畫面,經過約1~3天就會發現索引增加、網站曝光數也增加。