Forum Posts

nehar
Jul 31, 2022
In New Zealand & Kiko Goats
面以及是否需要修复任何内容。 当您确切知道日志文件告诉您的内容时,您将获得有关 Google 如何抓取和查看您的网站的宝贵见解,这意味着您可以针对这些数据进行优化以增加流量。网站越大,解决这些问题的影响就越大。 什么是服务器日志? 日志文件是进出服务器的所有内容的记录。将其视为爬虫和真实用户发出的请求的分类帐。您可以确切地看到 Google 在您的网站上抓取了哪些资源。 您还可以查看需要注意哪些错误。例如,我们在分析中发现的一个问题是,我们的 CMS 为每个页面创建了两个 URL,而 Google 发现了这两个 URL 这导致了重复内容问题,因为具有相同内容的两个 URL 相互竞争。 分析日志不是火箭科学——逻辑与在 Excel 或 Google 表格中处理表格时的逻辑相同。最难的部分是访问它们——导出和过滤这些数据。 第一次查看日志文件也可能会让人感到有 号码表 些畏惧,因为当您打开一个日志文件时,您会看到如下内容: 冷静下来,仔细看看一行(结果) 11179是传输的字节数(大小) “-”是 Referrer URL(来源)——它是空的,因为这个请求是由爬虫发出的 户代理(签名)——这是 Googlebot(桌面)的用户代理 一旦你知道每一行是由什么组成的,它就不会那么可怕了。这只是很多信息。 但这就是下一步派上用场的地方。 您可以使用的工具 您可以选择许多工具来帮助您分析日志文件。我不会为您提供可用工具的完整介绍,但了解静态工具和实时工具之间的区别很重要。 静态— 这仅分析静态文件。你不能延长时间范围。想分析另一个时期?您需要请求一个新的日志文件。我最喜欢的用于分析静态日志文件的工具是 Power BI。 实时- 让您可以直接访问日志。我真的很喜欢开源ELK Stack (Elasticsearch、Logstash 和 Kibana)。实现它需要适度的努力,但一旦堆栈准备好,它允许我根据我的需要更改时间框架,而无需联系我们的开发人员。 开始分析 不要只是为了找到一些东西而潜入日志——开始提问。
它将显示正在抓取的页
 content media
0
0
4

nehar

More actions