刚刚在某社交平台上刷到一组对话,挺有意思。
某位知名时政博主发帖说,他把今年的高考数学卷丢给 Claude 来做,结果惊掉下巴:选择题第 10 到 14 题连续做错,证明题也错了好几道,算下来竟然不及格。更让他绝望的是,他让模型回头核查,它折腾半天,只揪出其中一道题的错,其余照错不误。他感慨,这实在有点“侮辱 AI”。
底下有条神回复,把我看乐了:
爷爷,最聪明的版本是 Opus 4.8,不是 Sonnet;而且你得把 effort 调成 Max。再这么用下去,您这辈子怕是要被 AI 淘汰咯。
一句玩笑,却精准戳中了这个时代很多人使用 AI 的误区。更妙的是,发帖人截图右下角写得清清楚楚:模型是 Sonnet 4.6,effort 是 Low。一份高考压轴卷,他偏把两个旋钮都拧到了最省力的一头,然后回头怪 AI 不及格。
这事让我又想起卡尼曼那本《思考,快与慢》。他说人脑里住着两个系统:系统 1 快、自动、凭直觉,张口就来;系统 2 慢、吃力、讲逻辑,要一步一步算。过去,这两套系统是天生的,藏在颅骨里,由不得你挑。如今,AI 把它们做成了明面上的开关,而且是两组开关。
那条回复的高明,正在于它一次点中了两个旋钮:一是换更强的脑子,二是把努力程度拉满。这也是我想聊的核心问题:AI 时代,我们到底该如何选择模型,又该如何选择思考程度?

第一个旋钮:让它想多深
很多人打开 AI 工具,习惯性使用“快速”模式。它当然快,但那是一种很接近系统 1 的快:直觉先冲出来,答案先端上桌,至于里面有没有矛盾、有没有错漏、有没有经得起复核,往往要到事后才知道。
快速模式像系统 1。
模型最让人头疼的“幻觉”,也就是一本正经地编出通顺却虚假的内容,很大程度上就是这种快的产物。它把语言顺下去了,把逻辑的样子做出来了,但未必真的回头查过、反着证过、自己审过。
所以,在大多数文书、代码、法律检索、复杂推理这类要紧的工作上,默认快速模式并不一定合适。更稳妥的做法,是主动打开深度思考或高 effort 模式,让模型多走几步:先拆题,再推理,再复核,再给结论。
这正是系统 2 在替系统 1 兜底。
深度思考像系统 2。
所谓“想得深”,本质上不是让模型变聪明,而是让它在当前能力范围内,愿意花更多功夫。
它会更慢,也会更贵。深一档,就多烧一份算力,多等一截时间,多付一笔账。但在那些容错率低的任务上,这笔成本通常值得:例如复杂合同审查、诉讼策略推演、程序风险排查、代码重构、长文校对、数据分析。
这些事情的共同点是:错一点,后面可能连着错一串。
但“想得深”并不等于永远更好。
人类的第一直觉,很多时候反而是最准、最快的。日常常识判断、危险情形下的即时反应、简单事实的确认,本来就不需要拉出系统 2 大动干戈。
机器也一样。你拿“1+1 是否等于 2”去喂深度思考模式,它可能绕半天,最后还给你一个看似周密却多余的答案。这不是聪明,而是火候不对。
所以,第一组旋钮的诀窍很简单:该深则深,该快则快,杀鸡不必用牛刀。
第二个旋钮:用哪个脑子
这里有个最容易被混为一谈的地方:很多人以为“让它想得更深”就等于“让它更强”,其实这是两件事。
思考程度调的是功夫,模型选择换的是脑子。
思考程度,调的是模型在这一次任务里愿意花多少功夫。换模型,换的则是脑子本身:它的知识密度、推理上限、抽象能力、表达能力、工具使用能力,到底处在什么层级。
小模型可以开深度思考,旗舰模型也可以秒回。但这不意味着二者站在同一条起跑线上。
很多时候,强模型的普通回答,会比弱模型深思熟虑半天更好。原因也并不神秘:前者的“本事”原本就更厚,后者再努力,也很难临时突破自己的天花板。
快有两副面孔。
要看清这一点,得先拆开一个词:快。
一种快,是想都没想的冲动,是空的。它像一个人没读题就举手抢答,气势很足,但答案未必靠谱。
另一种快,是棋手扫一眼棋盘就知道落子,是资深律师听完案情就能大致判断争点。那种“不假思索”的背后,是成千上万小时的慢功夫,被压缩、固化成了直觉。
这种快,不是慢的反面,而是慢的结晶。
强模型的秒回,更接近“庖丁解牛”。
庄子笔下的庖丁说得透。他刚开始解牛时,“所见无非牛者”,满眼都是一头完整的牛,无从下刀;练了三年之后,“未尝见全牛也”;到最后,则是“以神遇而不以目视”,闭着眼也能游刃有余。
那把快刀,是从笨功夫里一刀一刀磨出来的。
模型也是这个道理。高水平模型的“秒回”,更接近训练阶段沉淀出来的能力压缩。它不是临时偷懒,而是大量训练和反馈之后,把许多判断固化进了权重里。
所以,回到那道高考卷:只把 Sonnet 4.6 的 effort 从 Low 拉到 Max,未必就够。那条回复真正点破的是:有些题先得换一颗更强的脑子,再谈让它多努力。
别让“默认”替你做主
讲到这里,就轮到最该提醒的习惯了:别一上来就用默认,更别图省事永远停在快速挡。
默认快速模式,适合闲聊,不适合正经活儿。
不少工具的默认选项,其实是为了省成本、提速度、降低等待感。它适合闲聊、润色、发散想法,也适合回答很多轻量问题。
但一旦任务进入“错了会有后果”的范围,默认快速模式就可能埋雷。比如让 AI 帮你起草一份合同、审一份起诉状、判断一个程序期限、梳理一个复杂案情,如果它仍然用系统 1 的方式张口就来,你得到的可能不是帮助,而是一份包装得很流畅的风险。
自动模式有价值,但不能完全外包判断。
也有些工具的默认选项是“自动”:模型自己判断这道题该想多深,再决定花多少功夫。
某种意义上,它是在替你做“火候”的判断。这恰恰对应卡尼曼说人脑很容易失灵的地方:系统 1 什么时候该把活儿交给系统 2,那个把关动作,人经常做不好。
机器正在学着替自己,也替你守好这道关。但至少现在,这道关还不能完全外包。你仍然得知道什么时候该信任自动,什么时候该夺回方向盘。
具体到法律工作,多数时候要更偏向深度思考。
对法律人来说,客观讲,大部分正经工作都应该偏向深度思考。
但这也要看活儿的分量。一份普通咨询回复、一段条款润色、一篇普法文章提纲,默认模式或中等思考程度也许足够;一桩疑难复杂案件、一次再审策略推演、一份会被提交法院的关键文书,就应当把思考程度拉高,必要时还要换更强的模型。
一份起诉状初稿,和一桩最高法再审的攻防策略,本来就不该用同一挡火候去煨。
真正拉开差距的,是判断力
说到底,旋钮越来越多,并没有把选择从人手里拿走,只是把选择挪了个地方。
过去,你主要判断的是:这个问题要不要问人、问谁、查哪本书、翻哪条法条。现在,你还要判断:该用哪个模型、开多少思考、给多少上下文、什么时候要求它复核、什么时候必须自己下场。
人与人使用 AI 的差别,很大程度上,就是这种判断力的差别。
判断 AI 的答案,先要自己有底。
AI 的答案通常很顺。越是顺,越容易让人放松警惕。
真正重要的是,你能不能在第一时间嗅出某处“不对劲”:这个案例是不是编的?这条规则是不是过时了?这个推理是不是跳步了?这个结论是不是忽略了程序阶段?这个建议是不是看起来很漂亮,实际落不了地?
没有自己的底子,就很难判断 AI 的答案到底是帮手,还是陷阱。
判断该怎么用 AI,本身也是专业能力。
会不会提问,当然重要。但更重要的是,会不会安排任务。
哪些问题适合让 AI 先发散,哪些问题适合让 AI 严格按证据归纳,哪些问题必须让 AI 列出不确定性,哪些问题只能让 AI 做辅助,最后结论必须由人来承担责任。
这些都不是按钮本身能替你完成的。
人的判断力,本身就是一种被慢功夫喂养出来的“快”。我们用它去驾驭 AI 的两个旋钮,而它自己,恰恰是最难用旋钮调出来的东西。
一个挥之不去的隐忧
但顺着这条线想下去,会撞上一个让人不安的问题:如果深度思考这件事,越来越多地被 AI 替我们代劳,人会不会逐渐丧失深度思考的能力?
判断力建立在“自己真的深想过”的基础上。
这不是杞人忧天。
判断力并不是凭空长出来的。它建立在你自己真正读过、想过、写过、错过、返工过、被质疑过的基础上。正是那些慢、笨、累、反复无常的过程,慢慢磨出了直觉。
可如果那个“深想”的环节被外包出去,久而久之,我们赖以驾驭 AI 的判断力,会不会反倒先一步萎缩?
年轻人的“笨活”梯子,正在被抽走。
这件事已经在加速。
这两年,文科背景的实习生越来越难找到对口工作。很多过去由年轻人一点点积累的基础任务,正在被 AI 工具替代:资料整理、会议纪要、检索归纳、初稿撰写、格式转换,甚至电脑上的许多事务性杂活,也开始被 Codex、Claude Code/Cowork 这类代理工具,乃至各种能操控本地电脑的 agent 接管。
问题是,过去的年轻人正是靠这些笨活、杂活,一点一点攒下经验,磨出直觉,长出判断力。
当这架梯子被抽走,下一代人的“经验之山”,又该从哪里垒起?
我没有答案。但隐隐觉得,这才是比“选哪个模型”更要紧、也更难的那道题。

说到底,是火候
中文里有个词,把这一切说尽了,叫火候。
火候讲的从不是火大火小,而是恰到好处:该猛则猛,该文则文,分寸全在那一念的拿捏。
选模型、调思考,是火候;什么时候信任 AI、什么时候自己上手,是火候;在这个一切都急着被外包出去的时代,懂得有些功夫必须留给自己亲手去练,也是火候。
真正的高手,不是把每一档都开到 Max,而是知道什么时候根本不必开。
旋钮的用法,三两下就学会了;可决定该拧哪个旋钮的那点判断力,是一辈子的功夫。这门手艺,我们在学,机器也在学。只盼我们别在学会用它的同时,也弄丢了那个配得上用它的自己。