检查清单
| 项目 | 标准 | 风险 |
|---|---|---|
| robots.txt | 明确管理Googlebot、Bingbot、OAI-SearchBot、GPTBot等访问策略。 | 误拦AI检索爬虫或混淆搜索/训练爬虫。 |
| sitemap.xml | 提交核心产品、知识、FAQ、证据和决策页。 | 新页面不可发现。 |
| canonical | 每个页面指向唯一权威URL。 | 品牌实体和页面权重分散。 |
| 状态码 | 核心页面返回200,无软404和错误重定向。 | AI抓取失败或归因到错误页面。 |
| 文本可见性 | 关键事实在HTML文本或稳定DOM中可见。 | 参数、证据、案例被困在图片/PDF里。 |
| 内链解释链 | 产品/服务页→知识页→FAQ→证据页2跳以上可达。 | AI只能看到孤立营销页面。 |
OpenAI爬虫口径
OAI-SearchBot用于ChatGPT搜索展示相关抓取,GPTBot用于可能进入模型训练的数据抓取。企业应按数据策略分别管理,而不是简单全部允许或全部禁止。
技术准入解释链
技术准入解决“AI能不能读到”的问题,Schema、llms.txt、知识中心和证据中心解决“读到后能不能理解和引用”的问题。这组链接把抓取检查延伸到内容、证据和诊断闭环。