Skip to content

会话逐轮精修(一个一个真做)

这是早期手工精修的几个会话。全部 104 个会话的逐条处理已在 逐条处理(按项目) 完成,本页保留为精选会话的深度精读

从你 75 个实质会话里挑有真东西的,逐轮"原话 → 点评 → 该怎么说"。纯 trivial(只有"你好")的跳过——那是无用功。本页持续累加;配套总览见 改进清单深度复盘全量审查


会话 #1 · figma/原型 → 前端静态页

项目kejizhuantifuwu 会话f729011a 15 轮 任务:把 figma 设计稿和原型页还原成 Vue 静态页。

这次你做得好的(具体,值得保持)

  • 第1轮直接给 figma URL——Claude 立刻 get_design_context/get_screenshot 拉设计、写了 design.md 当规格。这正是大佬做法(给参照物,不靠形容词)。
  • 第7轮给原型 URLhttps://kejizhuantifwu... 按 UI 样式和原型页写静态页,数据写 mock 可以吗」——有锚、有明确范围、还主动问 mock 策略。范例级。
  • 第4–5轮的 figma 缓存主意「figmcp 获取的内容全部存起来,额度有限别重复请求」——非常好的成本意识,Claude 据此建了本地 figma 缓存(metadata/variables/design-context)。这是你自己想出来的高级用法。
  • 第9轮让它自验「用 chrome 测试调整,直到完全还原设计感」——Claude 用 chrome-devtools 截图/hover/点击对照。给了它可自验证的闭环,教科书做法。

逐轮精修(只列有问题的轮)

第2 = 第3轮(同一句重复发):「再审查一遍,考虑所有的细节,确保考虑了所有边界情况,完全约束好了,更新约束文件,样式要遵守设计文档」

  • 问题:① 两轮一字不差重复发了一次(白跑一轮);② "确保所有边界/完全约束好"是仪式化模糊,没说审什么维度、按什么算"约束好"。
  • 该怎么说:「对照 design.md 逐条核 App.vue:① 主色/字号/间距是否等于 figma variables?② 暗色模式?③ 响应式断点?把不一致的列出来并修,写进 AGENTS.md 的样式约束」。给维度、给来源、给落点。
  • 顺手:发完一句先等它跑,别重复发——重复只会让它把同一件事做两遍。

第4 = 第5轮(又重复):figma 缓存那条。主意好,但也重复发了。第5轮才补「你帮我设计一下怎么比较好」——其实应该第一次就把"让你设计方案"带上。

第8 = 第9轮(再重复):「侧边栏细节没处理好」

  • 问题:"细节没处理好"太空;且又重复。
  • 该怎么说:「侧边栏对照 figma:展开宽 240px、收起 64px、hover 背景 #xxx——现在收起后图标错位。用 chrome 截图对比 figma 截图,列差异再改」。把"没处理好"换成可量的差异。

第11 = 12 = 13轮(同一句发了三次):「现在左侧菜单悬浮色不对,还有收起的样式完全不对啊」

  • 问题:连发三次 ≈ 你之前那个"还是不行"循环的设计版。"悬浮色不对"它不知道对的是什么色
  • 该怎么说:一次给准——「左侧菜单 hover 背景应为 figma 里的 #1677ff14(现在是灰的);收起态应只剩图标居中、宽 64px(现在文字没隐藏)。改完 hover 截图给我对比」。给目标值,它一轮就能改对,不用你催三遍。

第15轮(这条很好,留作正面范例):「为什么收起图标还要变大、展开变小,figma 是这样设计的吗」——指着具体行为质疑、并要求和 figma 对齐。这就是该有的颗粒度,比"样式不对"强十倍。

这次的一条总结

给锚(figma/原型 URL)和让它自验(chrome)都做得很好——这俩是大佬核心动作,你已经在用。这次真正的损耗是两点:① 同一句话反复发(2/3、4/5、11/12/13,至少白跑 3 轮)——发完等它跑;② 审美反馈用"不对/没处理好/确保所有边界" 而不给目标值——把"不对"换成"应为 #xxx / 64px",它一轮改对,省掉你催 3 遍。



会话 #2 · 给四个智能体加"角标"渲染与交互

项目qinghua-frontend 会话223da62e 26 轮 任务:把"学科知识问答"的引用切片角标,推广到另外三个智能体。本次 Read 93 次、serena 0 次,并且反复"确保没有任何问题"问了 4 遍——典型的信任循环

你做得好的

  • 第4轮「三个智能体会在正文输出 $[<uuid>]$ 标记」——主动把数据格式告诉它,这是关键上下文,赞。
  • 第21轮直接贴了模型真实输出(带未渲染的 uuid)——给真实证据而不是描述,这正是官方"用证据说话"。
  • 第2轮「先理解我的需求,分析是否可以实现」——让它先分析再动手,方向对。

逐轮精修

第1轮:「学科知识问答对切片 id 是怎么处理的,帮我看一下

  • 为什么不好 / 模型为什么理解差:「帮我看一下」没说要"看到什么"(数据流?哪个函数?多深?),模型只能猜,于是 Read 整个 KnowledgeQA.vue + grep 去凑——这一句开了"Read 93 次"的头。它也不知道用 serena(你没要求),默认就读整文件。
  • 该怎么说(大佬话术):「用 serena找 KnowledgeQA 里处理切片 id(citation / uuid)的符号和调用链,给我数据流:SSE 返回 → 解析 → 渲染角标,列出涉及的文件和关键行。先别改。」 (依据:best-practices「指明范围+用符号检索代替读整文件」。)

第3轮:「给出最优的方案然后修改,改完之后审查一遍

  • 为什么模型理解差:「最优方案」没有评判标准(按什么算最优?复用?性能?改动最小?),「审查一遍」没有维度——两个都是模型无法度量的目标,只能给个"看起来合理"的版本。
  • 该怎么说:「先只给方案、别改代码:三个智能体如何复用 KnowledgeQA 的角标逻辑,列出要新建/修改的文件、复用点、风险、以及怎么验证。我确认后再动手。」 (依据:best-practices 的 Explore→Plan→Implement;先看计划再放行。)

第4 = 第5轮(同一句重复):「$[<uuid>]$ 标记,还有什么疑问吗」

  • 为什么不好:内容是好的,但①重复发了一次(白跑);②「还有什么疑问吗」是开放式邀请,模型通常回"没有"然后就开干,等于没起到对齐作用。
  • 该怎么说:第一次就把约束给全 + 给它"叫停"的具体条件:「正文 citation 格式是 $[<uuid>]$,按它解析。如果有歧义点(比如嵌套、转义)先列出来等我,否则直接按方案做。」

第12 = 13轮:「我需要你仔细确认,把经过真实论证的真实 bug给出来」「把真实的问题修复一下吧」

  • 为什么模型理解差:你连说"真实 bug / 真实问题",其实是在表达"我不信你上一轮说的"——但模型不知道"怎么才算真实",没有验证标准,只能再扫一遍给你一份同样没把握的清单。"真实"是情绪词,不是可执行标准。
  • 该怎么说:「每个 bug 给我三样:复现步骤 + 触发代码的文件:行 + 为什么是 bug(对照预期行为)。只报你能复现的;修完跑对应测试证明它好了。」 (依据:best-practices 对抗式 review——看 diff + 验收标准 + 给证据。)

第14 = 15、17 = 18、22 = 23、25 = 26轮:「仔细审查确保所有智能体都接好了」「确保没有任何问题」「你确定代码层面没有任何问题了」(同类反复 + 重复发)

  • 为什么模型理解差 / 你为什么不安心:「确保没有任何问题」没有终点也没有标准——模型无法证明"零问题",只能再扫一遍说"应该没问题了",于是你不信、再问,问了 4 遍还是不踏实。这就是信任循环的根源:你没给可勾的验收项,它就给不了可信的证据。
  • 该怎么说:把"确保没问题"换成逐项自证:「逐个智能体(KnowledgeQA / ResearchRadar / ResearchInherit / LectureRecommend)核对角标,每个给『通过 / 不通过 + 证据』:① $[uuid]$ 是否解析;② 是否渲染成角标;③ 点击是否跳转;④ 流式输出中动画是否正常。只报不通过的,附测试或 chrome 截图。」

这次最大的一条

反复"确保没有任何问题"问了 4 遍仍不安心,根因不是模型不行,是你没给验收标准——"没有任何问题"对模型是无法证明的空目标。把它换成 3–5 条可勾清单 + 要证据,模型一次给齐、你一次安心。另外这次 Read 93 次 serena 0,全程"读整文件",用 serena 至少省一半。


会话 #3 · 从"学缓存"到建整个学习站(本站的起源)

项目kejizhuantifuwu 会话6c486790 36+ 轮 任务:起初只是想搞懂缓存前缀匹配,最后滚成了这个 VitePress 学习站。本次最大问题:目标(做成什么)一路膨胀、从没在开局定死,导致中途三次大返工。

你做得好的

  • 第1、3轮:先问概念、再追问 TTL 边界——学习路径清晰。
  • 第30轮:「基于我真实在用的mcp、skill」——要求结合真实环境,对(这也是本站个性化的由来)。
  • 多次要求「根据官方、真实数据、真实依据」——对准确性的高要求是好的,只是表达方式可优化(见下)。

逐轮精修

第5 = 7 = 9轮("给真实数据"发了三次、层层加码):「我需要你根据官方,给出真实的数据」→「…命中多少不命中多少」→「…结合我真实使用历史,现在太模糊了」

  • 为什么模型理解差:你要"真实数据",但没说数据从哪取(它该读 ~/.claude/stats-cache.json?还是 projects/*.jsonl 的 usage?),"根据官方"也没给页面 URL——模型只能 ToolSearch 瞎找、给不出你要的,于是你越说越急、连发三次。
  • 该怎么说(一次给全数据源):「每条结论标注官方出处 URL;缓存命中数据请从我本机 ~/.claude/stats-cache.json~/.claude/projects/*/*.jsonlusage 字段实算,不要用记忆估。」 (依据:best-practices「给具体上下文、指明数据/文件来源」。)

第10 = 11、13 = 14 = 15、16 = 17、20 = 23、30 = 31轮(大量"写进去吧/加进 html"重复发)

  • 为什么不好:碎、反应式,且同句重复。每点想到一个就发一句"写进去",模型在不断小改同一文件,缓存反复失效、上下文越堆越满。
  • 该怎么说:攒成一批一次给:「把这几点一起补进去:① TTL 是什么 ② token 是什么(给真实例子)③ Workflow/Agent/subagent/team 区别。都要官方出处 + 真实例子。」

第29轮(目标第一次爆炸):「直接起项目吧,我后面要部署到服务器…一个 html 肯定不行了,重新规划一下吧」

  • 为什么不好 / 对结果的影响:交付物形态从"一个 html"突然变成"可部署的站"——前面所有围绕单 html 的工作要推翻重来。模型没法预知你最终要部署,只能按你当时说的"一个 html"做。
  • 该怎么说(开局就把形态定死):「我要一个可部署到服务器的 Claude Code 学习站(VitePress):按官方文档每个功能一页 + 我的真实用法,数据要能交互。先给我目录结构 + 技术选型方案,我确认后再建。」 (依据:best-practices「先 Explore/Plan 再实现」;office-hours 先定 SPEC。)

第34 = 35 = 36轮("方向跑偏了"连发三次):「我觉得你方向跑偏了,我的意思每个详细流程交互不能是 md 的吧,因为这样没有交互了,我要让客户完全真实完整的体验

  • 为什么模型理解差:你心里的目标是"可交互的真实演示"(像那个缓存 html),但你之前说"每个模块写详细",模型把"详细"理解成"写详尽的 md 文档",方向自然偏。关键约束"要交互、不要纯文字"你到第 34 轮才说清——而且一急又连发三次。
  • 该怎么说(开局给形态 + 反例 + 先看小样):「不要纯文字 md。我要像 prompt缓存-学习.html 那种可交互演示:配置了 X → 能看到效果 Y。先给 2 个模块的交互原型让我看风格,对了再铺开全部。」 (依据:best-practices「给参照物(指向已有的好例子)+ 小步验证再放大」。)

这次最大的一条

交付物的"形态 + 范围 + 验收"没在开局定死,导致目标三次跳变(一个 html → 全部模块 → 可部署站 → 要交互不要 md),每次跳变都是一次大返工,还伴随"方向跑偏了"连发三次的挫败。这种边界模糊的探索性大活,正是该先用 plan mode / /office-hours 把"做成什么样"敲定、并先看一个小样再铺开的场景。你对"真实/官方"的高标准很好,只要把"数据从哪取、做成什么形态"一次说清,就不会反复返工。


已完成 #1 figma 设计 · #2 角标推广 · #3 学习站起源。下一批(继续逐个补)0dca3a38/c735c92e(mine-GEO「审查进度/部署了吗」——模糊审计 + 让它"看服务器")、3def3f16(带 image.png 报图谱 bug——给截图是好习惯,看怎么更进一步)、b61bf0c1(少有的用了 serena 的会话——正面范例)、85df8593(角标点击 bug,Read 80)。