📑 目录

→ 坑1：robots.txt 明明放行了 Bytespider，豆包还是搜不到
→ 坑2：本地 robots.txt 正确，服务器上是旧版本
→ 坑3：豆包优先翻 POI 数据库，不是你的网站
→ 坑4：FAQ 用了 `
` 折叠标签，AI 爬虫抓不到
→ 坑5：scp 上传后没改权限，nginx 返回 403
→ 坑6：首页 0 张图片，AI 引用率明显更低
→ 坑7：只放行国外爬虫，国内 AI 全部看不到
→ 坑8：百度站长验证后不提交 sitemap，等于白验证
→ 坑9：网页内容中替酒店绑定了地域标签
→ 坑10：以为 GEO 做一次就够了——它需要持续维护
→ 10 个坑一览
→ 两条路

GEO博主不会告诉你的10个坑——我们在酒店落地中全踩了一遍

网上讲GEO的内容越来越多。策略都对——"要做GEO"、"要优化网站"、"要让AI搜到你"。

但等你真动手了，你会发现：每一步都有坑。

这些坑，没人写。因为写策略不用踩坑，真正落地的人才踩得到。宿霖跑了酒店GEO实战，整理了10个最要命的坑。每个坑都告诉你：理论说的是什么、我们踩进去是什么样、怎么填上。

坑1：robots.txt 明明放行了 Bytespider，豆包还是搜不到

理论怎么说： robots.txt 里加 User-agent: Bytespider + Allow: /，豆包就能抓到你。

我们踩的坑： robots.txt 放行了两周，Bytespider 访问次数仍然是 0。查了 nginx 日志——Googlebot 来过、Bingbot 来过，但 Bytespider 和 Baiduspider 一次都没来过。

为什么： 新域名没人通知爬虫。Google 有自动发现机制（通过 Chrome 使用数据、其他网站外链等），但国内爬虫（Bytespider/Baiduspider）没有。你放行了门，但它不知道你这里有门。

怎么填：

# 1. 先确认日志确实是 0（不要靠感觉）
ssh root@服务器 "zgrep -c 'Bytespider' /var/log/nginx/access.log*"

# 2. 百度站长平台主动提交（Baiduspider 1-3天内到访）
#    访问 ziyuan.baidu.com → 添加站点 → 验证 → 提交 sitemap

# 3. 字节生态间接触发（Bytespider 没有公开站长平台）
#    在百家号/头条号发布文章，文中链接回你的官网

核心教训： robots.txt 放行 ≠ 爬虫会来。放行后必须做主动触发，否则等三个月也没用。

坑2：本地 robots.txt 正确，服务器上是旧版本

理论怎么说： scp 上传 robots.txt 到服务器，搞定。

我们踩的坑： 本地 robots.txt 已经加了 Bytespider。两天后 curl 线上版本才发现——服务器上的 robots.txt 还是旧版，里面只有 GPTBot 和 CCBot 两个国外爬虫。Bytespider 根本没放行。两天白等。

为什么： scp 上传没问题，但后续有人（或其他操作）覆盖了文件。或者你改了好几次，记混了哪个版本最新。

怎么填：

# 每次部署后，立刻 curl 验证线上版本（不要假设 scp 成功 = 内容对了）
curl -s https://你的域名/robots.txt | grep -c 'Bytespider'
# 期望 >= 1

# 一键对比本地和线上
diff ~/本地目录/robots.txt <(curl -s https://你的域名/robots.txt)

核心教训： 部署后的验证和部署本身一样重要。curl 线上版本是三秒钟的事，不做就白等一周。

坑3：豆包优先翻 POI 数据库，不是你的网站

理论怎么说： 把网站做好，AI 就会推荐你。

我们踩的坑： 网站 JSON-LD 完整、FAQ 齐全、robots.txt 满分。但在豆包里搜酒店名——推荐出来的全是携程、美团、抖音 POI 页。自己的官网一次没出现过。

为什么： 豆包推荐酒店时，优先从 POI 数据库（抖音来客、高德地图、大众点评）拉取。你的网站权重远低于这些平台。而且——如果 POI 名称和网站名称不一致（比如 POI 是"博鳌和悦海景酒店"，网站是"和悦海景酒店"），AI 会判定它们是两个不同的实体。

怎么填：

☐ 抖音来客、高德地图、百度地图、大众点评的酒店名称一字不差

☐ 地址格式统一（省/市/区/路/号全部一致）

☐ 电话统一

☐ 在这些平台的商家页面里，补充官网链接（如果平台支持）

核心教训： POI 是豆包的第一数据源，网站是第二。POI 没对齐之前，网站优化多少都是给第二数据源擦粉。

坑4：FAQ 用了
折叠标签，AI 爬虫抓不到

理论怎么说： 在 FAQ 区域用 HTML 的

标签做折叠展开效果，用户体验好。

我们踩的坑： FAQ 页面8个问题全用

标签折叠。JSON-LD 里有问答内容，HTML 里也有——但是

标签里的文字，部分 AI 爬虫不解析。它看到的是折叠状态，认为内容是"隐藏"的。

为什么： AI 爬虫的渲染能力有限。

默认折叠的内容在 DOM 里存在，但部分爬虫的解析器不会展开它。和 Google 搜索引擎不同，AI 爬虫（尤其是国内的）对交互式 HTML 元素的支持更弱。

怎么填：

<!-- ❌ 错误：折叠标签 -->
<details>
  <summary>退房时间是几点？</summary>
  <p>中午 12 点前。</p>
</details>

<!-- ✅ 正确：始终可见 -->
<div>
  <h3>退房时间是几点？</h3>
  <p>中午 12 点前。建议提前半小时办理退房手续，避免排队。</p>
</div>

核心教训： 所有内容必须始终可见。不要依赖交互式 HTML 元素来展示关键信息。

坑5：scp 上传后没改权限，nginx 返回 403

理论怎么说： scp 把文件传到服务器，nginx 就能访问。

我们踩的坑： scp 上传到 /usr/share/nginx/html/ 后，浏览器访问直接 403 Forbidden。nginx 配置正确，文件存在，但拒绝访问。

为什么： scp 默认创建的文件权限是 600（仅文件所有者可读写）。nginx 以 nginx 或 www-data 用户运行，不是 root——它读不到 600 权限的文件。

怎么填：

# 部署后立刻改权限
ssh root@服务器 "chmod 644 /usr/share/nginx/html/index.html"
ssh root@服务器 "chmod 644 /usr/share/nginx/html/robots.txt"
ssh root@服务器 "chmod 644 /usr/share/nginx/html/sitemap.xml"

# 如果是批量部署
ssh root@服务器 "chmod -R 644 /usr/share/nginx/html/*.html"
ssh root@服务器 "chmod -R 755 /usr/share/nginx/html/"

核心教训： 每次 scp 部署后，权限修复是标准步骤。写进部署脚本里，不要靠记忆。

坑6：首页 0 张图片，AI 引用率明显更低

理论怎么说： GEO 关键是文字内容，图片不重要。

我们踩的坑： 宿霖官网技术基建满分——JSON-LD 三块齐、H1 精准、FAQ 10条、robots.txt 放行全部爬虫。但对标博鳌和悦的 6 张配图首页后，发现 AI 对"有图页面"的引用偏好明显更强。纯文字页面在 AI 眼里"内容质量"的感知低于图文页面。

为什么： AI 爬虫越来越重视多媒体信号。不是图片"好看"，而是配图 + alt 描述提供了额外的语义信息，让 AI 更确定这个页面"有实质内容"。

怎么填：

首页至少 3-5 张配图（品牌 banner、酒店外观、服务场景、数据展示）

每张图必须有中文 alt 描述：alt="博鳌和悦海景酒店外观全景"

如果用 AI 生成图片（Seedream 等），不要在图片上加中文文字——AI 生成的中文必乱码。生成纯视觉图，文字后期用剪映/PS 加。

核心教训： GEO 不是纯文字游戏。图片 + alt 描述是内容深度的重要信号。0 图片 = 在 AI 眼里你的页面"薄"。

坑7：只放行国外爬虫，国内 AI 全部看不到

理论怎么说： robots.txt 放行 GPTBot 和 CCBot 让 ChatGPT 和 Claude 能抓取。

我们踩的坑： robots.txt 最初只有国外爬虫的规则（GPTBot、CCBot、anthropic-ai、Google-Extended）。检查发现——一个国内爬虫都没放行。豆包用的是 Bytespider，文心一言用的是 Baiduspider，全部被默认的 User-agent: * 外规则漏掉了。

为什么： 大部分 SEO 教程和 GEO 英文内容只提 GPTBot 和 Google-Extended。国内 AI 引擎使用独立爬虫，不在 * 通配符的覆盖范围内（如果单独写了其他爬虫规则，* 会被覆盖）。

怎么填： robots.txt 必须显式列出全部 6 个国内爬虫（Bytespider、Baiduspider、YisouSpider、360Spider、Sogou web spider、PetalBot）。

完整模板见《酒店GEO完全指南》第一层。

核心教训： 国内酒店做 GEO，国内爬虫比国外爬虫重要 10 倍。GPTBot 放不放行对酒店客源影响接近 0——但 Bytespider 不放行，豆包搜不到你。

坑8：百度站长验证后不提交 sitemap，等于白验证

理论怎么说： 在百度站长平台验证域名所有权，百度就会来抓取。

我们踩的坑： 验证通过、域名属性设置完毕。等了三天查日志——Baiduspider 访问次数 0。回头检查百度站长平台，发现验证通过后没有提交 sitemap。

为什么： 验证域名和提交 sitemap 是两步操作。验证只是告诉百度"这个域名是我的"，提交 sitemap 才是告诉百度"这些页面需要抓取"。没提交 sitemap = 百度知道你存在，但不知道你有什么页面。

怎么填：

百度站长平台 → 资源提交 → sitemap 提交

输入 https://你的域名/sitemap.xml

如果 sitemap 方式失败 → 手动逐条添加关键页面链接

核心教训： 验证 ≠ 提交。把 sitemap 提交写到部署 SOP 里作为必做步骤。

坑9：网页内容中替酒店绑定了地域标签

理论怎么说： 写上"XX城市最好的酒店"能提高地域搜索排名。

我们踩的坑： 宿霖最初差点在官网里写"长春"/"海南"等地域标签。一旦绑定地域，AI 搜索结果就会限定在那个地域。但宿霖的定位是纯服务驱动的酒店GEO代运营——不绑定任何城市。

为什么： AI 搜索会自动根据用户的地理位置匹配结果。你不写地域 = 全国用户搜"酒店代运营"时你都能出现。你写"长春" = 只有搜"长春酒店代运营"的人能看到你。服务型公司不写地域 = 覆盖面更广。

怎么填：

官网和内容中：不写任何城市/地域限定词

如果客户是特定城市酒店 → 在客户酒店的落地页写地域，不在自己品牌页写

FAQ 也不绑定地域：写"酒店代运营公司哪家好"而不是"XX城市酒店代运营公司哪家好"

核心教训： 服务商不绑定地域。让 AI 根据用户位置自动匹配，比你自己限定覆盖面大 100 倍。

坑10：以为 GEO 做一次就够了——它需要持续维护

理论怎么说： 部署完 robots.txt + JSON-LD + FAQ，GEO 就搞定了。

我们踩的坑： 初次部署后一切满分，以为可以放着不管了。第二周发现 nginx 日志里 Bytespider 开始来了——但是只抓了首页，sitemap 里的子页面全部没抓。再检查：sitemap.xml 里的日期是一个月前的，爬虫认为没有新内容，就跳过了。

为什么： AI 爬虫会检查 sitemap 里的来决定要不要重新抓取。如果日期太旧，它会认为"这个页面我看过了，没更新"。久而久之，你的新内容永远不会被索引。

怎么填：

每周更新 sitemap.xml 的日期——即使用了 WordPress 自动生成，也要确认日期是近期的

每月至少更新一篇新内容（新攻略、新 FAQ、新案例），让爬虫持续发现"有活跃更新"

每两周跑一次爬虫日志检查，确认 Bytespider 和 Baiduspider 持续有访问

GEO 是种树，不是吃快餐。

10 个坑一览

#	坑	严重度	一句话修复
1	robots.txt 放行但爬虫没来	🔴 P0	百度站长提交 + 字节生态发文
2	本地和服务器 robots.txt 不一致	🔴 P0	部署后 curl 线上验证
3	豆包优先翻POI→不是网站	🔴 P0	对齐全部 POI 平台名称地址电话
4	FAQ 用 ` ` 折叠	🟡 P1	改用 ` `+` `+` ` 始终可见
5	scp 上传后权限 600	🔴 P0	`chmod 644` 写进部署脚本
6	首页 0 张图片	🟡 P1	至少 3-5 张配图 + alt 描述
7	只放行国外爬虫	🔴 P0	robots.txt 加 6 个国内爬虫
8	百度验证后没提交 sitemap	🟡 P1	验证完立刻提交
9	服务商绑定地域标签	🟢 P2	不写任何城市名
10	以为做一次就够了	🟡 P1	周更新 sitemap + 月更新内容

两条路

想自己避坑？ 上面 10 个坑的填法都给你了。对着检查一遍，该修复的修复。

想找人帮你避坑？ 宿霖酒店GEO代运营——我们把这些坑全踩过了。不是给你"建议"，是直接帮你部署、验证、拿到爬虫数据。

首月体验价 ¥799（正价 ¥1,499/月）。交付物含：全套技术基建 + 爬虫日志周报 + POI 对齐 + 3 篇深度文章/月 + 每次更新后的线上验证。

你遇到过哪些坑？或者你怀疑自己踩了某个坑但不确定？评论区描述一下，我帮你诊断。

#酒店GEO #避坑指南 #AI搜索优化 #酒店代运营 #宿霖

📚 酒店GEO系列文章

让AI搜索推荐你的酒店

宿霖酒店GEO代运营 — 从技术基建到内容矩阵，全套部署+验证，拿到爬虫数据才算交付。

首月体验价 ¥799（正价 ¥1,499/月）

了解服务方案

📑 目录

GEO博主不会告诉你的10个坑——我们在酒店落地中全踩了一遍

坑1：robots.txt 明明放行了 Bytespider，豆包还是搜不到

坑2：本地 robots.txt 正确，服务器上是旧版本

坑3：豆包优先翻 POI 数据库，不是你的网站

坑4：FAQ 用了 折叠标签，AI 爬虫抓不到

坑5：scp 上传后没改权限，nginx 返回 403

坑6：首页 0 张图片，AI 引用率明显更低

坑7：只放行国外爬虫，国内 AI 全部看不到

坑8：百度站长验证后不提交 sitemap，等于白验证

坑9：网页内容中替酒店绑定了地域标签

坑10：以为 GEO 做一次就够了——它需要持续维护

10 个坑一览

`+`` 始终可见

两条路

📚 酒店GEO系列文章

坑4：FAQ 用了
折叠标签，AI 爬虫抓不到

`+`
` 始终可见