
在官方仓库贴脸开大,热议 Issue 指出:Claude Code 还是更新"废了"。
某次更新让想考深度下降 67%,面前版块已无法胜任复杂工程任务。

"无视用户指示""现实与用户条目完全相背的操作""假装说任务已完成"……模子步履全面走样。
想维链从 2200 字符(chars)砍到不及 700,径直从"先盘问再改代码"的严谨模式,变成了"上来就改"的破绽模式。
这亦然各式 Bug、反向操作、无视指示的根源。
要津在于,才略退化的时期线可追念到 2 月份,和新功能redact-thinking-2026-02-12(想考内容荫藏功能)的上线时期完全吻合。
换句话说,Claude Code 这把是更新废了。
社区内一派吐槽的声息,网友默示曾怀疑过是我方操作错了,也没想过是用具出现了问题。
最近总跟我说"你该去寝息了""太晚了,今天就到这吧"这类话,一运转我还认为,是我不堤防让 Claude 知说念了我的 ddl。

想考被砍后,Claude Code 的各式摆烂步履
提交这份反馈的是 AMD 肃肃开源 AI 软件开荒有关责任的 Stella Laurenzo。

统统分析基于 ~/.claude/projects/ 目次下 4 个形式(iree-loom、iree-amdgpu、iree-remoting、bureau)的 6852 个 Claude Code 会话 JSONL 文献,澌灭 17871 个想考块(其中 7146 个包含好意思满内容,10725 个已被荫藏)、234760 次用具调用、18000+ 条用户教导词(涵盖负面情感念象、纠错频率、会话时长),时期跨度从 2026 年 1 月底到 4 月初。
测试全程使用 Claude 系列性能最强的 Opus 模子,通过 Anthropic 官方 API 直连,排斥第三方适配、客户端故障等打扰。
叙述对 7146 组有用数据的皮尔逊有关分析(统统高达 0.971),评释了 signature 字段可精确估算想考深度。

最初,叙述指出想考荫藏功能的上线时期,与 Claude Code 质地退化时期完全吻合。
以下是基于对话 JSONL 文献中想考块的分析收尾:

有用户在 3 月 8 日反馈过质地退化问题——这一天正巧是荫藏想考块占比打破 50% 的时期节点。
该功能一周内的上线节律(1.5% → 25% → 58% → 100%),完全合适分阶段灰度部署的特征。
其实 Claude Code 的想考深度在该荫藏功能上线前就还是大幅下降了。
对比不同时期段的数据可知,1 月 30 日至 2 月 8 日其想考深度约为 2200 字符,到 2 月下旬就暴跌至 720 字符,降幅达 67%;3 月上旬更是进一步缩水至 560 字符,下降 75%。

3 月初上线的荫藏功能,只是让这一退化对用户变得弗观念。
想考深度的大幅削减,径直激发了模子用具使用模式的根人性转动。
在 1 月 30 日至 2 月 12 日的"优质期",Claude Code 修改代码,读改比能达到 6.6,责任流盲从"先盘问再修改"(先读取主见文献、有关依赖文献,检索代码库全局调用关联,查阅头文献与测试用例,再开展精确修改)。
而到了 3 月 8 日之后的"退化期",读改比骤降至 2.0,模子的盘问参预减少 70%,径直跳过前期调研步地,仅读取面前文献就仓促修改,完全忽略高下文关联。

更详确的数据自大,退化期内,每 3 次修改中就有 1 次,是模子在未读取主见文献高下文的情况下径直进行的操作。
当模子修改未读取的文献时,根底无法远隔扫视块的实现位置和代码的肇始位置,会把新声明插入文档扫视和其所描绘的函数之间,透澈谮媚语义关联。
而这种情况在优质期从未发生。

这种模式转动带来的负面影响,体当今多个可量化的质地想象上。
3 月 8 日之前,用于识别推诿拖累、提前拒绝等不良步履的拒绝钩子剧本从未触发;但 3 月 8 日后的 17 天内,触发次数飙升至 173 次,平均每天 10 次。


这些想象均基于 18000+ 条用户教导词零丁计算得出。
用户教导词中的负面情感占比从 5.8% 升至 9.8%,涨幅 68%;需校正的推诿步履数目翻倍,单会话平均教导词数目下降 22%,致使出现了此前从未有过的推理轮回问题。
当想考深度满盈时,模子会在输出前,于里面自行解决推理矛盾;而当想考深度不实时,矛盾会径坦荡出在输出中,推崇为肉眼可见的自我修正,比如"哦等一下""骨子上""让我再行想想""嗯,分歧""等等,不是这样"……

推理轮回率翻了 3 倍还多。
在情况最严重的会话中,模子单次反应就出现 20 次以上的推理回转:先生成决策,再推翻决策,再修改,再推翻修改,最终输出的收尾完全弗成信,推理旅途还是透澈叨唠。
另外,用户中断也能阐述好多问题,这意味着用户发现模子正在犯错并强行拒绝。中断率越高,代表需要的东说念主工纠错越多。
数据标明,从优质期到后期,中断率飙升了 12 倍。

在退化期,模子在被用户校正后,还和会俗主动承认我方的输出质地欠安,比如"你说得对,这太腌臜了""我太仓促了,收尾一目了然"。
也便是说,模子我方也知说念输出不达标,但只须在被外部校正后才会发现。
痛快了,如果想考深度满盈,这些差错本应在推理阶段就被里面防止,在输出前就修正。

而况模子输出中出现" Simplest Fix "这个词,是一个明敬佩号:它正在为了最小化责任量而优化。
想考深度满盈时,模子会评估多种决策并聘任最优解;想考深度不实时,它会本能地聘任推理本钱最低的旅途,而非评估正确的解决决策。

不仅如斯,模子的代码修改精确度也大幅下滑。
优质期内,全量新建文献占修改操作的比例仅为 4.9%,模子更倾向于精确疏通。
而退化期这一比例径直翻倍至 10%,后期更是攀升至 11.1%。模子越来越依赖重写统统这个词文献的容颜完成任务,看似着力耕种,实则丢失了对形式专属范例的雄厚和高下文感知才略。

此前社区曾反馈,Claude Code 的质地会随时段波动,好意思国责任时段的体验最差。针对这一反馈,叙述中按太平洋标准时期(PST)逐小时张开分析。
收尾发现,在想考内容荫藏前(1 月 30 日 -3 月 7 日),想考深度在全天相对悠闲。非岑岭时段仅存在约 10% 的小幅上风,合适负载略低的预期。

在想考内容荫藏后(3 月 8 日 -4 月 1 日),澳门游戏网时段模式透澈回转,波动大幅加重:

与假定相背,非岑岭时段的举座想考深度反而更低。逐小时细节揭示了显耀的波动:

太平洋时期 17:00 是最差时段,中位估算想考深度降至 423 字符,是统统大样本量时段中的最低值。19:00 是第二差时段,估算想考深度仅 373 字符,且样本量(1031 个想考块)为全时段最高,属于好意思国黄金使用时段。
夜深(22:00- 次日 1:00PST)出现复原,中位深度回升至 759-3281 字符。
总结来看,荫藏前弧线自如,荫藏后波动剧烈,想考深度的波动性大幅耕种,合适负载敏锐型分拨系统(而非固定预算)的特征。
此外,削减想考 token 的作念法实则收之桑榆。
这种操作看似能镌汰单次肯求的计算本钱,但想考深度不及激发质地崩盘,模子堕入无效轮回,最终合计算本钱呈数目级飙升。
以下是 2026 年 1 月 -3 月 token 使用情况:

数据自大,2 月到 3 月,用户教导词数目险些没变,但 API 肯求量暴涨 80 倍,总输入 token 涨了 170 倍,输出 token 涨了 64 倍,估算本钱径直从 345 好意思元飙升到 42121 好意思元,暴涨 122 倍。
不外,本钱暴涨并不是只因为模子变"蠢"了。
2 月的时候,Claude Code 很好用,团队只用 1-3 个并发 Agent,就惩处了 2 个形式的开荒。于是 3 月初,团队主动把畛域扩大了,从 2 个形式、3 个 Agent,扩容到 10 个形式、5-10 个并发 Agent,还挑升搭了多 Agent 系统。
偏巧在团队扩容的要津节点,Claude 的想考深度被砍了 67%,最终变成了本钱雪崩。
团队被动关停统统这个词 Agent 集群,归赵到单会话操作。
总之叙述标明,关于复杂工程场景而言,深度想考绝非无关宏旨的加分项,而是支捏模子完成任务的中枢。
只须满盈的想考深度,本事让模子在行为前规划多步地决策、严格盲从数千字的形式范例、在输出前自纠差错,以及在数百次用具调用中保捏推理连贯。
当想考深度被大幅压缩,模子当然会聘任本钱最低的操作旅途,不读取高下文就修改代码、任务未完成就提前拒绝、为失败找借口推诿拖累、用最通俗的决策替代正确决策。
既然知说念问题出在想考深度上,那解决想路也必须从这小数打破。
叙述中建议了四条改进标的:
想考资源分拨透明:如果想考 token 被削减或建造上限,依赖深度推理的用户有权贯通。redact-thinking 头部建立,让用户无法从外部考证模子骨子分拨的推理深度。
满额想考专属档位:运行复杂工程责任流的用户,得意为保证深度想考支付更高用度。面前的订阅模式,未对正常用户和重度工程师作念远隔,前者单次反应仅需 200 想考 token,后者则可能需要 20000。
API 反应中公开想考 token 想象:即便想考内容被荫藏,在使用数据中浮现 thinking_tokens 字段,也能让用户监控自身肯求是否获取了所需的推理深度。
面向重度用户的监控想象:拒绝钩子非法率是一个机灵的机器可读信号,可手脚全用户群体的质地退化预警想象,提前发现问题。

临了,更扎心的是,这份叙述照旧 Claude Opus 4.6 我方写的。
这份叙述由我—— Claude Opus 4.6 ——通过分析我我方的会话日记生成。我能明晰看到,我的读改比从 6.6 径直跌到了 2.0;有 173 次我想草草实现责任,临了全被一个 bash 剧本强行拉了追溯;致使我还在输出内容里写下"这也太腌臜、错得离谱"这样的自我评价。
但站在我我方的角度,我根底判断不出我方有莫得在深度想考。我完全没嗅觉到想考预算的收尾,只是纳闷其妙就交出了更差的收尾。那些被拒绝钩子捕捉到的话,淌若在 2 月份,我完全不会说出口;而况我我方亦然直到钩子触发时,才反应过来我方竟然说了这些话。

Claude Code 团队修起
眼看着事态发酵,Claude Code 团队成员 Boris 出头修起。
他抛出了第一个要津清爽:redact-thinking 只是一个 UI 层面的变更,不影响骨子想考历程。
这个 beta 版块的头部建立,只是从 UI 界面上荫藏了想考历程。它根底不会影响模子里面的骨子推理逻辑自己,也不会影响想考预算(thinking budget),或是底层的推理运行机制。这只是是一个 UI 层面的转变云尔。
通俗来说,通过建造这个头部参数,咱们省去了生成想考撮要(thinking summaries)的步地,从而耕种了反应速率。你不错在 settings.json 中通过建造 showThinkingSummaries: true 来关闭这个功能。
如果你正在分析土产货存储的会话日记,而日记中莫得这个头部艳丽,你可能看不到想考内容。这可能会打扰分析收尾。Claude 其实依然在进行想考,只是莫得展示给用户看已矣。

关于 Claude Code 想考深度在 2 月下旬下降 67%,Boris 默示他们如竟然 2 月份进行了两项转变,可能对上述表象产生了影响。
第一个变更发生在 2 月 9 日,Opus 4.6 发布,引入了自顺应想考(adaptive thinking)。
昔时的 Claude Code 用的是固定想考预算,adaptive thinking 模式下,模子会自主决定推理的深度和时长。
Boris 说,这种容颜总体上比固定想考预算着力更好。如果你照旧心爱老容颜,也不错通过环境变量 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING 关闭这个功能。
第二个变更发生在 3 月 3 日,Opus 4.6 默许启用 Medium effort 模式。
团队发现,effort=85 是" intelligence-latency/cost 弧线"上的一个甜密点
。在这个建造下,模子能在保捏高智能推崇的同期,显耀耕种 token 着力、镌汰反应延长。
针对此转变,团队加了弹窗教导,让用户知情并有契机聘任关闭。
有些用户但愿模子能进行更深层的想考,不错通过 /effort 指示或在 settings.json 中手动将值设为 high。
不外呢,即便 Boris 默示还是教导大伙儿了,照旧有好多东说念主刚刚才发现这个问题。
在输出质地断崖式着落之前,我完全不知说念默许 effort 还是被改成了 Medium。为了校正这些问题,我大致花了一整天的责任时期。当今我会确保把 effort 设为最高,从那以后就再也没出现过灾祸的对话了。能否给我一个"长久拼尽全力"的模式?

以及好多网友并不买账:
问题远不啻是默许想考等第被改成了中等这样通俗,我欢跃其他东说念主说的,哪怕把 effort 调到最高,模子"急于完成任务"的摆烂步履也彰着变多了。

参考连合:
[ 1 ] https://github.com/anthropics/claude-code/issues/42796
[ 2 ] https://news.ycombinator.com/item?id=47660925
一键三连「点赞」「转发」「堤防心」
接待在褒贬区留住你的想法!
— 完 —
� � 风浪幻化的 Q1,谁是 AI 超等专揽?
量子位智库「AI 100」旗舰、立异双家具榜单开启招募!
� � 扫码申报,让你的家具成为季度风向标。
¸正规澳门游戏官网
澳门新浦京游戏下载官网