理解 Robots.txt
robots.txt 文件是网站与搜索引擎爬虫和其他网络机器人沟通的标准。它告诉机器人您网站的哪些部分可以访问,哪些部分不能访问。
什么是 robots.txt?
Robots.txt 是放置在您网站根目录的纯文本文件(例如,example.com/robots.txt),遵循机器人排除协议。它包含规则,告诉爬虫可以访问您网站上的哪些 URL。
如何使用此工具
将您的 robots.txt 内容粘贴到文本区域(或从域名获取),输入您想要测试的 URL 路径,选择用户代理,然后点击 '测试 URL'。该工具将立即告诉您该路径是否被允许或阻止。
为什么要测试您的 Robots.txt?
- 防止意外阻止重要页面被搜索引擎索引
- 确保私密或管理页面正确隐藏不被爬虫访问
- 在影响搜索排名之前调试爬虫问题
- 在部署到生产环境之前验证更改
隐私保障
此工具完全在您的浏览器中运行。您的 robots.txt 内容和测试 URL 永远不会发送到任何服务器。非常适合测试包含敏感路径的规则。