正规澳门游戏官网 “Claude Code更新废了”！热议Issue：想考深度下降67%，已无法胜任复杂的工程任务

发布日期：2026-04-09 01:33 点击次数：170

在官方仓库贴脸开大，热议 Issue 指出：Claude Code 还是更新"废了"。

某次更新让想考深度下降 67%，面前版块已无法胜任复杂工程任务。

"无视用户指示""现实与用户条目完全相背的操作""假装说任务已完成"……模子步履全面走样。

想维链从 2200 字符（chars）砍到不及 700，径直从"先盘问再改代码"的严谨模式，变成了"上来就改"的破绽模式。

这亦然各式 Bug、反向操作、无视指示的根源。

要津在于，才略退化的时期线可追念到 2 月份，和新功能redact-thinking-2026-02-12（想考内容荫藏功能）的上线时期完全吻合。

换句话说，Claude Code 这把是更新废了。

社区内一派吐槽的声息，网友默示曾怀疑过是我方操作错了，也没想过是用具出现了问题。

最近总跟我说"你该去寝息了""太晚了，今天就到这吧"这类话，一运转我还认为，是我不堤防让 Claude 知说念了我的 ddl。

想考被砍后，Claude Code 的各式摆烂步履

提交这份反馈的是 AMD 肃肃开源 AI 软件开荒有关责任的 Stella Laurenzo。

统统分析基于 ~/.claude/projects/ 目次下 4 个形式（iree-loom、iree-amdgpu、iree-remoting、bureau）的 6852 个 Claude Code 会话 JSONL 文献，澌灭 17871 个想考块（其中 7146 个包含好意思满内容，10725 个已被荫藏）、234760 次用具调用、18000+ 条用户教导词（涵盖负面情感念象、纠错频率、会话时长），时期跨度从 2026 年 1 月底到 4 月初。

测试全程使用 Claude 系列性能最强的 Opus 模子，通过 Anthropic 官方 API 直连，排斥第三方适配、客户端故障等打扰。

叙述对 7146 组有用数据的皮尔逊有关分析（统统高达 0.971），评释了 signature 字段可精确估算想考深度。

最初，叙述指出想考荫藏功能的上线时期，与 Claude Code 质地退化时期完全吻合。

以下是基于对话 JSONL 文献中想考块的分析收尾：

有用户在 3 月 8 日反馈过质地退化问题——这一天正巧是荫藏想考块占比打破 50% 的时期节点。

该功能一周内的上线节律（1.5% → 25% → 58% → 100%），完全合适分阶段灰度部署的特征。

其实 Claude Code 的想考深度在该荫藏功能上线前就还是大幅下降了。

对比不同时期段的数据可知，1 月 30 日至 2 月 8 日其想考深度约为 2200 字符，到 2 月下旬就暴跌至 720 字符，降幅达 67%；3 月上旬更是进一步缩水至 560 字符，下降 75%。

3 月初上线的荫藏功能，只是让这一退化对用户变得弗观念。

想考深度的大幅削减，径直激发了模子用具使用模式的根人性转动。

在 1 月 30 日至 2 月 12 日的"优质期"，Claude Code 修改代码，读改比能达到 6.6，责任流盲从"先盘问再修改"（先读取主见文献、有关依赖文献，检索代码库全局调用关联，查阅头文献与测试用例，再开展精确修改）。

而到了 3 月 8 日之后的"退化期"，读改比骤降至 2.0，模子的盘问参预减少 70%，径直跳过前期调研步地，仅读取面前文献就仓促修改，完全忽略高下文关联。

更详确的数据自大，退化期内，每 3 次修改中就有 1 次，是模子在未读取主见文献高下文的情况下径直进行的操作。

当模子修改未读取的文献时，根底无法远隔扫视块的实现位置和代码的肇始位置，会把新声明插入文档扫视和其所描绘的函数之间，透澈谮媚语义关联。

而这种情况在优质期从未发生。

这种模式转动带来的负面影响，体当今多个可量化的质地想象上。

3 月 8 日之前，用于识别推诿拖累、提前拒绝等不良步履的拒绝钩子剧本从未触发；但 3 月 8 日后的 17 天内，触发次数飙升至 173 次，平均每天 10 次。

这些想象均基于 18000+ 条用户教导词零丁计算得出。

用户教导词中的负面情感占比从 5.8% 升至 9.8%，涨幅 68%；需校正的推诿步履数目翻倍，单会话平均教导词数目下降 22%，致使出现了此前从未有过的推理轮回问题。

当想考深度满盈时，模子会在输出前，于里面自行解决推理矛盾；而当想考深度不实时，矛盾会径坦荡出在输出中，推崇为肉眼可见的自我修正，比如"哦等一下""骨子上""让我再行想想""嗯，分歧""等等，不是这样"……

推理轮回率翻了 3 倍还多。

在情况最严重的会话中，模子单次反应就出现 20 次以上的推理回转：先生成决策，再推翻决策，再修改，再推翻修改，最终输出的收尾完全弗成信，推理旅途还是透澈叨唠。

另外，用户中断也能阐述好多问题，这意味着用户发现模子正在犯错并强行拒绝。中断率越高，代表需要的东说念主工纠错越多。

数据标明，从优质期到后期，中断率飙升了 12 倍。

在退化期，模子在被用户校正后，还和会俗主动承认我方的输出质地欠安，比如"你说得对，这太腌臜了""我太仓促了，收尾一目了然"。

也便是说，模子我方也知说念输出不达标，但只须在被外部校正后才会发现。

痛快了，如果想考深度满盈，这些差错本应在推理阶段就被里面防止，在输出前就修正。

而况模子输出中出现" Simplest Fix "这个词，是一个明敬佩号：它正在为了最小化责任量而优化。

想考深度满盈时，模子会评估多种决策并聘任最优解；想考深度不实时，它会本能地聘任推理本钱最低的旅途，而非评估正确的解决决策。

不仅如斯，模子的代码修改精确度也大幅下滑。

优质期内，全量新建文献占修改操作的比例仅为 4.9%，模子更倾向于精确疏通。

而退化期这一比例径直翻倍至 10%，后期更是攀升至 11.1%。模子越来越依赖重写统统这个词文献的容颜完成任务，看似着力耕种，实则丢失了对形式专属范例的雄厚和高下文感知才略。

此前社区曾反馈，Claude Code 的质地会随时段波动，好意思国责任时段的体验最差。针对这一反馈，叙述中按太平洋标准时期（PST）逐小时张开分析。

收尾发现，在想考内容荫藏前（1 月 30 日 -3 月 7 日），想考深度在全天相对悠闲。非岑岭时段仅存在约 10% 的小幅上风，合适负载略低的预期。

在想考内容荫藏后（3 月 8 日 -4 月 1 日），澳门游戏网时段模式透澈回转，波动大幅加重：

与假定相背，非岑岭时段的举座想考深度反而更低。逐小时细节揭示了显耀的波动：

太平洋时期 17:00 是最差时段，中位估算想考深度降至 423 字符，是统统大样本量时段中的最低值。19:00 是第二差时段，估算想考深度仅 373 字符，且样本量（1031 个想考块）为全时段最高，属于好意思国黄金使用时段。

夜深（22:00- 次日 1:00PST）出现复原，中位深度回升至 759-3281 字符。

总结来看，荫藏前弧线自如，荫藏后波动剧烈，想考深度的波动性大幅耕种，合适负载敏锐型分拨系统（而非固定预算）的特征。

此外，削减想考 token 的作念法实则收之桑榆。

这种操作看似能镌汰单次肯求的计算本钱，但想考深度不及激发质地崩盘，模子堕入无效轮回，最终合计算本钱呈数目级飙升。

以下是 2026 年 1 月 -3 月 token 使用情况：

数据自大，2 月到 3 月，用户教导词数目险些没变，但 API 肯求量暴涨 80 倍，总输入 token 涨了 170 倍，输出 token 涨了 64 倍，估算本钱径直从 345 好意思元飙升到 42121 好意思元，暴涨 122 倍。

不外，本钱暴涨并不是只因为模子变"蠢"了。

2 月的时候，Claude Code 很好用，团队只用 1-3 个并发 Agent，就惩处了 2 个形式的开荒。于是 3 月初，团队主动把畛域扩大了，从 2 个形式、3 个 Agent，扩容到 10 个形式、5-10 个并发 Agent，还挑升搭了多 Agent 系统。

偏巧在团队扩容的要津节点，Claude 的想考深度被砍了 67%，最终变成了本钱雪崩。

团队被动关停统统这个词 Agent 集群，归赵到单会话操作。

总之叙述标明，关于复杂工程场景而言，深度想考绝非无关宏旨的加分项，而是支捏模子完成任务的中枢。

只须满盈的想考深度，本事让模子在行为前规划多步地决策、严格盲从数千字的形式范例、在输出前自纠差错，以及在数百次用具调用中保捏推理连贯。

当想考深度被大幅压缩，模子当然会聘任本钱最低的操作旅途，不读取高下文就修改代码、任务未完成就提前拒绝、为失败找借口推诿拖累、用最通俗的决策替代正确决策。

既然知说念问题出在想考深度上，那解决想路也必须从这小数打破。

叙述中建议了四条改进标的：

想考资源分拨透明：如果想考 token 被削减或建造上限，依赖深度推理的用户有权贯通。redact-thinking 头部建立，让用户无法从外部考证模子骨子分拨的推理深度。

满额想考专属档位：运行复杂工程责任流的用户，得意为保证深度想考支付更高用度。面前的订阅模式，未对正常用户和重度工程师作念远隔，前者单次反应仅需 200 想考 token，后者则可能需要 20000。

API 反应中公开想考 token 想象：即便想考内容被荫藏，在使用数据中浮现 thinking_tokens 字段，也能让用户监控自身肯求是否获取了所需的推理深度。

面向重度用户的监控想象：拒绝钩子非法率是一个机灵的机器可读信号，可手脚全用户群体的质地退化预警想象，提前发现问题。

临了，更扎心的是，这份叙述照旧 Claude Opus 4.6 我方写的。

这份叙述由我—— Claude Opus 4.6 ——通过分析我我方的会话日记生成。我能明晰看到，我的读改比从 6.6 径直跌到了 2.0；有 173 次我想草草实现责任，临了全被一个 bash 剧本强行拉了追溯；致使我还在输出内容里写下"这也太腌臜、错得离谱"这样的自我评价。

但站在我我方的角度，我根底判断不出我方有莫得在深度想考。我完全没嗅觉到想考预算的收尾，只是纳闷其妙就交出了更差的收尾。那些被拒绝钩子捕捉到的话，淌若在 2 月份，我完全不会说出口；而况我我方亦然直到钩子触发时，才反应过来我方竟然说了这些话。

Claude Code 团队修起

眼看着事态发酵，Claude Code 团队成员 Boris 出头修起。

他抛出了第一个要津清爽：redact-thinking 只是一个 UI 层面的变更，不影响骨子想考历程。

这个 beta 版块的头部建立，只是从 UI 界面上荫藏了想考历程。它根底不会影响模子里面的骨子推理逻辑自己，也不会影响想考预算（thinking budget），或是底层的推理运行机制。这只是是一个 UI 层面的转变云尔。

通俗来说，通过建造这个头部参数，咱们省去了生成想考撮要（thinking summaries）的步地，从而耕种了反应速率。你不错在 settings.json 中通过建造 showThinkingSummaries: true 来关闭这个功能。

如果你正在分析土产货存储的会话日记，而日记中莫得这个头部艳丽，你可能看不到想考内容。这可能会打扰分析收尾。Claude 其实依然在进行想考，只是莫得展示给用户看已矣。

关于 Claude Code 想考深度在 2 月下旬下降 67%，Boris 默示他们如竟然 2 月份进行了两项转变，可能对上述表象产生了影响。

第一个变更发生在 2 月 9 日，Opus 4.6 发布，引入了自顺应想考（adaptive thinking）。

昔时的 Claude Code 用的是固定想考预算，adaptive thinking 模式下，模子会自主决定推理的深度和时长。

Boris 说，这种容颜总体上比固定想考预算着力更好。如果你照旧心爱老容颜，也不错通过环境变量 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING 关闭这个功能。

第二个变更发生在 3 月 3 日，Opus 4.6 默许启用 Medium effort 模式。

团队发现，effort=85 是" intelligence-latency/cost 弧线"上的一个甜密点

。在这个建造下，模子能在保捏高智能推崇的同期，显耀耕种 token 着力、镌汰反应延长。

针对此转变，团队加了弹窗教导，让用户知情并有契机聘任关闭。

有些用户但愿模子能进行更深层的想考，不错通过 /effort 指示或在 settings.json 中手动将值设为 high。

不外呢，即便 Boris 默示还是教导大伙儿了，照旧有好多东说念主刚刚才发现这个问题。

在输出质地断崖式着落之前，我完全不知说念默许 effort 还是被改成了 Medium。为了校正这些问题，我大致花了一整天的责任时期。当今我会确保把 effort 设为最高，从那以后就再也没出现过灾祸的对话了。能否给我一个"长久拼尽全力"的模式？

以及好多网友并不买账：

问题远不啻是默许想考等第被改成了中等这样通俗，我欢跃其他东说念主说的，哪怕把 effort 调到最高，模子"急于完成任务"的摆烂步履也彰着变多了。

参考连合：

[ 1 ] https://github.com/anthropics/claude-code/issues/42796

[ 2 ] https://news.ycombinator.com/item?id=47660925

一键三连「点赞」「转发」「堤防心」

接待在褒贬区留住你的想法！

— 完 —

� � 风浪幻化的 Q1，谁是 AI 超等专揽？

量子位智库「AI 100」旗舰、立异双家具榜单开启招募！

� � 扫码申报，让你的家具成为季度风向标。

¸正规澳门游戏官网

澳门新浦京游戏下载官网

上一篇：可提现游戏平台app 广汽集团(02238)12月汽车销量为18.75万辆同比下跌33.82%
下一篇：没有了

正规澳门游戏官网 “Claude Code更新废了”！热议Issue：想考深度下降67%，已无法胜任复杂的工程任务

正规澳门游戏官网 “Claude Code更新废了”！热议Issue：想考深度下降67%，已无法胜任复杂的工程任务

热点资讯

推荐资讯