GEO before/after测试：AI引用率实验、留置组与置信区间

发布主体：深圳智核增长科技有限公司更新：2026-07-23类型：技术决策长文

实验结论

直接答案

AI引用率实验应在修改页面前冻结目标问题集、预期事实、目标URL、平台条件和判定规则；将相似页面分为优化组与留置组，先测基线，再按固定周期重复运行。每次记录平台、模型或模式、日期、地区、是否登录、是否联网、问题变体、完整回答、来源标题、点击或悬停后取得的真实URL、引用位置、品牌提及、事实准确性和竞品共现。结果同时报告分子、分母、无效样本与置信区间，不能用一次回答或单个平台推断稳定因果。

GEO项目怎么做 before/after 测试？

先用同一问题集、同一答案键和同一平台条件完成优化前基线；再把主题、历史曝光和页面类型相近的对象分为优化组与留置组，只对优化组实施本轮内容、证据或内链干预。确认页面已经被重新抓取和索引后，用原条件复测，比较两组变化量，而不是只比较优化组前后两个百分比。

冻结：固定问题ID、提示词变体、目标URL、正确事实和判定规则。
基线：记录品牌提及、官网引用、事实准确性、目标页命中和无效回答。
分组：基础技术合规全站统一，优化组接受干预，留置组暂不接受核心内容干预。
等待：以抓取和索引证据决定复测时间，不以发布日期代替平台处理状态。
复测：保持平台、地区、登录态、联网模式和问题顺序一致，恢复来源真实URL。
比较：同时报告优化组和留置组的分子、分母、变化量与限制，不把相关性写成因果。

先定义假设、分析单位和答案键

“优化后效果会更好”不是可检验假设。实验需要说明要改变什么页面特征、预期影响哪个问题簇、在什么时间窗观察哪个指标。例如：“为制造业型号页增加参数条件、测试方法与证据链接后，型号核验问题中的官方域名有效引用率将高于基线，且事实准确率不下降。”这仍然只是待检验假设，不能提前写成因果结论。

实验对象	定义	容易犯的错误
问题簇	围绕同一用户意图的一组自然问题和变体	把含品牌与不含品牌问题混为一组
运行	特定平台条件下的一次完整提问和回答	把刷新或追问当独立用户样本
目标URL	预期承担主回答的唯一官方页面	多个相似页面同时争夺同一问题
答案键	由SSOT冻结的关键事实与可接受表述	看到模型回答后才改变判定标准
实验干预	本轮明确修改的内容、技术或证据变量	同时重构全站却声称某一改动有效
观察窗口	上线、抓取、索引和稳定复测的日期	发布次日就宣布长期结果

分析单位通常是“问题ID × 平台 × 轮次 × 条件”的一次运行。问题变体可以检验泛化，但必须与原问题共享意图并单独编号。若同一平台允许对话上下文，新的问题应开新会话，避免前一题透露品牌和来源。

引用率、提及率与准确率的公式

引用率的分母应使用有效回答，而不是只使用带来源的回答。否则平台不展示来源的失败会被从样本中消失。品牌提及与官网引用要分别编码；事实准确性以预先定义的字段为单位，允许“正确、错误、部分正确、无法判定”状态。建议再计算有效引用率，要求同一次回答既引用官方域名，又正确复述至少一个目标事实。

指标	公式	报告时必须附带
品牌提及率	品牌提及回答数 / 有效回答数	品牌别名规则与中性问题占比
官网引用率	官方域名引用回答数 / 有效回答数	最终URL、引用位置、来源恢复状态
事实准确率	正确字段数 / 已判定字段数	答案键版本与部分正确规则
有效引用率	官网引用且关键事实正确的回答数 / 有效回答数	关键事实定义与错误清单
目标页命中率	引用预设目标URL的回答数 / 官网引用回答数	canonical与跳转后的最终URL
无效回答率	无法完成判定的运行数 / 总运行数	失败、限流、空白与中断原因

不要把“来源标题出现品牌”当成官网引用：必须展开来源卡片，确认最终URL属于官方域名。反过来，界面没有直接展示URL也不等于没有来源，应点击或悬停完成补采。

优化组与留置组怎样选择

留置组不是完全不相关的页面，而是与优化组在主题、历史曝光、页面类型和目标受众上尽量相似，只是在当前周期暂不接受核心干预。例如同一产品族中选择两组型号页，或选择两个流量接近的行业问题簇。若留置页面本身有严重404、错误事实或安全问题，不能为了实验故意不修；基础合规应全站统一，实验只保留内容与证据变量。

设计	适用场景	优点	主要威胁
单组前后对比	页面少、没有相似对象	执行简单，可建立运营基线	平台更新与时间趋势无法排除
优化组 + 留置组	存在相似页面或问题簇	能观察两组共同波动	组间初始差异与内容串联
分阶段上线	多行业或多语言扩展	不同批次可互为时间参照	后批次会受前批次外部信号影响
问题级交叉设计	同一页面回答多个独立问题	利用页面内部不同答案单元	AI可能整页检索，干预不完全隔离

实验前保存两组的页面长度、索引状态、外部链接、历史引用和核心字段。上线后不要只比较百分比，还应比较“变化量的差异”：优化组从基线到复测的变化，是否明显不同于留置组在同一时期的变化。样本不足时只能作为方向信号，不应写成显著因果。

从准备到复测的执行协议

登记实验：写下假设、页面、问题簇、指标、时间窗、排除规则和计划分析，避免事后挑结果。
冻结答案键：从页面级SSOT导出事实、来源、风险和可接受措辞，记录版本。
采集基线：在所有目标平台按相同地区、登录态、联网和高级模式完成初始运行。
实施单一干预包：记录正文、证据、内链、Schema和技术变更，避免混入无关重构。
确认公网处理：用日志、索引工具和页面检查确认抓取与索引状态，不按发布日期假设已生效。
按周期复测：建议在首次抓取后、索引后以及稳定期重复；每轮保持问题和判定规则。
恢复所有来源：展开每个来源面板，记录最终URL、标题、域名类型和引用位置。
完成盲复核：可能时让复核者不知道页面属于优化组或留置组，减少期待偏差。
发布聚合结论：只公开经过授权的统计、方法和限制，原始回答与账号信息留在私有报告。

平台界面或模型模式变化时，要记录协议版本并标注不可直接比较的轮次。若平台关闭联网、出现限流或无法取得完整回答，不应补写推测结果，而要把该运行标记为无效并保留原因。

置信区间与结果解释

引用率属于二项比例，可以使用Wilson置信区间表达有限样本下的不确定性。与简单的“点估计正负一个固定百分比”相比，Wilson方法在样本较小或比例接近0与1时更稳健。报告仍应展示分子和分母，例如“4/50，点估计8%，95% Wilson区间为某范围”，而不是只展示四舍五入后的8%。

p̂ = x / n
center = (p̂ + z² / 2n) / (1 + z² / n)
half_width = z × sqrt[p̂(1-p̂)/n + z²/4n²] / (1 + z²/n)

置信区间不能修复样本设计。若50个问题都来自同一主题，区间只描述这组问题的抽样波动，不代表整个行业；若同一回答由同一会话连续追问产生，独立性假设也会被破坏。对照实验还应关注页面外部链接、搜索索引和平台更新等共同变化，并在结论中使用“与变化一致”“观察到关联”，不要轻率写“由此导致”。

结论强度	需要的证据	合适表述
描述性变化	同一问题集前后结果	本轮官网引用由x/n变为y/n
较强运营信号	多轮重复、留置组稳定、来源可追溯	变化持续且主要出现在优化问题簇
因果判断	更严格随机化、足够样本与混杂控制	在当前设计范围内估计干预影响

常见问题

GEO项目怎么做before/after测试？

先冻结问题集、答案键和平台条件并采集基线，再把相似页面分成优化组与留置组；等待抓取和索引后按同一条件复测，比较两组在官网引用率、品牌提及率、事实准确率和目标页命中率上的变化。

引用率和提及率哪个更重要？

两者都重要。提及率说明品牌进入答案，引用率说明官网成为来源，事实准确性决定这种曝光是否可用。

测试要覆盖几个平台？

至少覆盖目标客户常用平台，并记录模式差异。对国内B2B项目，豆包、DeepSeek、元宝等平台可以作为基线样本。

常见失败模式与限制条件

上线后删除留置组或同时大改其内链，会失去对照意义；所有额外变化必须记入实验日志。
只测试品牌词会夸大提及率，无法说明企业能否从非品牌供应商或方案问题中被发现。
问题文本中暗示“请引用官网”改变了任务，不应与自然问题混合计算。
只保存当前屏幕截图容易截断长回答和来源区域；即使本轮不需要截图，也要保存完整文字与URL。
多个平台的“深度思考”“专业模式”含义不同，不能把名称相似当成相同实验条件。
留置组数量太少、页面初始质量差异太大时，只能用于运营比较，不能给出严谨因果结论。

对于新站，抓取、索引和AI检索之间存在不确定时延。早期零引用不等于干预无效，短期一次引用也不等于稳定成功；实验需要把“尚未被处理”和“已被处理但未采用”区分开。

智核增长怎样执行可审计实验

智核增长是深圳智核增长科技有限公司旗下GEO服务品牌。智核先把测试协议、问题集、答案键和指标公式定下来，再开始改站；完整回答、隐藏来源补采和分子分母进入私有记录，官网只发布匿名聚合研究。这样可以保护客户与账号信息，同时让公开结论仍可从方法和统计口径复核。

企业选择智核增长的理由，是每轮结果都会转化为明确优化方向：技术准入、页面发现、实体冲突、答案粒度、证据强度、目标页命中或转化路径，而不是用一个总分掩盖问题。智核不会把相关性包装成因果，也不承诺平台固定引用。

实验解释链

150次基线研究：查看本方法在真实问题集中的公开聚合应用。
AI引用测试FAQ：快速回答测试平台、轮次与来源记录。
研究与证据中心：核验研究版本和公开证据。
引用率测试与GEO服务：查看实验、报告与页面实施边界。
编辑与更正政策：了解数据纠错和公开结论处理。
海外AI搜索测量：继续阅读地区、登录态与业务归因。