Robots.txt 测试工具

从域名加载 robots.txt：

或手动输入/粘贴：

要测试的 URL 路径

用户代理

用户代理	指令	路径

理解 Robots.txt

robots.txt 文件是网站与搜索引擎爬虫和其他网络机器人沟通的标准。它告诉机器人您网站的哪些部分可以访问，哪些部分不能访问。

Robots.txt 是放置在您网站根目录的纯文本文件（例如，example.com/robots.txt），遵循机器人排除协议。它包含规则，告诉爬虫可以访问您网站上的哪些 URL。

将您的 robots.txt 内容粘贴到文本区域（或从域名获取），输入您想要测试的 URL 路径，选择用户代理，然后点击 '测试 URL'。该工具将立即告诉您该路径是否被允许或阻止。

此工具完全在您的浏览器中运行。您的 robots.txt 内容和测试 URL 永远不会发送到任何服务器。非常适合测试包含敏感路径的规则。

robots.txt 匹配是如何工作的？

Robots.txt 使用路径前缀匹配。像 '不允许: /admin/' 的规则会阻止所有以 '/admin/' 开头的 URL。可以使用通配符 (*) 进行模式匹配，美元符号 ($) 将匹配锚定到 URL 的末尾。

允许和不允许哪个优先？

当允许和不允许规则都匹配一个 URL 时，最具体（最长）的规则优先。如果它们长度相同，则允许优先。这遵循标准的 Google 解释。

robots.txt 是否会阻止页面被索引？

不，robots.txt 只控制爬虫，不控制索引。被 robots.txt 阻止的页面仍然可以出现在搜索结果中，只要其他页面链接到它。使用 'noindex' 元标签来防止索引。

如果没有 robots.txt 会发生什么？

如果不存在 robots.txt 文件，爬虫会假设它们可以访问您网站的所有部分。这是行为良好的机器人的默认行为。

我可以测试通配符规则吗？

是的，此工具支持通配符 (*) 匹配和 URL 末尾锚定 ($)，如 Google 和其他主要搜索引擎所使用。