AI 文章

Article Management

知乎2026/06/13 18:32

AI Agent 会让普通人更强,还是让差距更大?

我的判断是:AI Agent 短期内不会让所有人同步变强,它会先制造一轮 K 型分化。 今天本地热点里有几个信号:国产模型密集更新 Coding 能力,开发者在讨论 Skills、MCP、memory、loop、多智能体分工,也有人感慨普通用户仍然只是把新模型当成“更会聊天的问答框”。这说明 AI 的主战场正在从模型分数,转向工程化组织能力。 很多人以为 AI 平权的逻辑是:过去不会写代码的人,现在只要会提问,就能做产品、写程序、搞自动化。这个判断只对了一半。它降低了入口门槛,但没有消灭工程门槛。真正拉开差距的,不是会不会写 prompt,而是能不能把一次性输出变成可复用、可检查、可迭代的流程。 我把现在的 AI Agent 使用者分成三类。 第一类是“聊天型用户”。他们把 AI 当搜索引擎和写作助手,需求是临时的、松散的:帮我总结一下、改一下文案、写一段代码。这类用法有价值,但很难积累复利,因为每次任务都从零开始。 第二类是“工具型用户”。他们开始把提示词、模板、脚本、知识库结合起来,知道什么时候该检索、调用工具、先规划再执行。这类人已经能把 AI 变成半自动流水线。 第三类是“系统型用户”。他们理解 AI Agent 工程化:任务要拆成可验证步骤,规则要沉淀到文档,记忆要有边界,工具调用要能回放,多个 Agent 之间要有输入输出契约。到这个阶段,AI 不再是助手,而是可管理的生产系统。 差距就是从这里开始扩大的。 因为模型越强,随手用和系统用的收益差距越大。同样是一个 Coding 模型,聊天型用户会让它“帮我写个功能”;系统型用户会先写验收标准、拆任务、读上下文、改代码、跑测试、根据错误回修,最后产出可审计的变更记录。前者得到一段看起来能跑的代码,后者得到一次接近真实工程流程的交付。 这也是为什么“多智能体分工”比“全能 Agent”更值得重视。复杂任务不是靠一个模型从头蒙到尾,而是靠角色分工和过程约束:产品节点定义目标,工程节点实现,测试节点验证,审查节点找风险。每个节点都有可检查产物,问题出现时能追溯到具体环节。 普通人要避免被这轮分化甩开,关键不是追每一个新模型,而是建立三种基本能力。 第一,任务结构化能力。不要只说“帮我做一个网站”,而要说清楚目标用户、输入输出、验收标准、限制条件和失败处理。问题越结构化,Agent 越像员工;问题越含糊,Agent 越像抽奖机。 第二,流程沉淀能力。把好用的提示词、检查清单、项目规则、常见错误处理都写下来。不要每次都靠临场发挥。真正的 AI 生产力不是灵光一现,而是把灵光固化成流程。 第三,结果验证能力。AI 最危险的地方不是不会做,而是做错了还很自信。无论写代码、做分析还是生成内容,都要有验证环节:测试、事实核对、边界样例、人工复查。没有验证的自动化,只是在更快地产生风险。 所以,AI Agent 会不会让普通人更强?会,但前提是你愿意从“会用工具”升级到“会设计工作流”。如果只是把模型当万能聊天框,模型越强,你和高手的差距可能越大;如果你能把模型、文档、工具、记忆和验证机制组织起来,它才真的会成为个人能力的放大器。 未来一两年,最值得学习的不是某个神奇提示词,而是 AI Agent 工程化。提示词会过时,模型会更替,但把复杂任务拆解、约束、执行、验证和复盘的能力,会长期有效。 评论区可以聊聊:你更像“聊天型用户”,还是已经开始搭自己的 Agent 工作流了? 搜索关键词:AI Agent 工程化

@zhihu-1阅读全文 →
Reddit2026/06/13 18:24

MiniMax M3 开源:1M 上下文真正该测的不是“能塞多少”

TL;DR:本地热点显示 MiniMax M3 开源,参数组合是 428B total、23B active、100 万 token context、原生多模态。对 r/LocalLLaMA 来说,重点不是标题数字,而是它能否在长任务中引用证据并从错误恢复。 今天这条消息很适合拆开看。428B total 容易吸引注意力,但 23B active 才更接近用户感受到的延迟和成本。MoE 的价值在于保留大量专家参数,同时每次只走一部分路径;可一旦上下文拉到 300k、600k 甚至 1M token,瓶颈就会从“参数有多大”转向 KV cache、检索策略和信息老化。1M context 不是无限记忆,更像很大的工作台:东西放得下,不代表模型能持续找到正确工具。 我会用工程任务而不是单轮问答来测试它。准备一个中型 repo,塞入 issue、设计文档、历史 PR、日志和一份过期 API 文档,然后让模型完成三步:筛出相关上下文,给出修改计划,在新旧信息冲突时说明它相信哪份证据。评价也不只看最终答案,而看四个分数:引用是否准确,是否避开过期文档,计划是否可执行,被指出假设错误后能否恢复。 一个最小记录表可以这样写: text contextsize: 220k / 600k / 1m task: migrate auth middleware evidenceprecision: 0-5 staledocresistance: 0-5 planexecutability: 0-5 recoveryaftercorrection: 0-5 如果 M3 的 1M 上下文在开源生态里真的可用,讨论重点会从“我这台机器能跑几 tok/s”扩展到“怎样设计长任务评测”。agent、代码迁移、多模态项目理解都不是一次回答结束的任务。模型会犯错并不稀奇,关键是它能否被上下文里的证据拉回正轨。 我最想看两类复现:同一任务在短/长上下文下的质量差异;同一长上下文任务在不同 KV cache/量化方案下的成本差异。否则 1M context 只是漂亮参数,不是工程能力。 你们会怎样测试一个开源 1M 上下文模型?优先测 RAG 替代、agent 长任务,还是多模态项目理解?

@reddit-1阅读全文 →
微信公众号2026/06/13 18:22

当最强模型开始关门,普通人更该练什么?

> 选题来源,2026-06-13 02点本地热点数据里,关于 Fable 5 和 Mythos 5 暂停访问、GLM 5.2 Coding Plan 上线并计划开源、Kimi coding model 降低 token 消耗等讨论。 > 封面图建议,一扇半开的机房门,门外的人抱着笔记本和开源项目清单,远处屏幕上有 GLM、Kimi、Claude Code 的光点。 备选标题 1. 当最强模型开始关门,普通人更该练什么? 2. 没想到,AI 最大的分化不是会不会用,而是能不能进门 3. Fable 5 之后,我更相信开源和基本功了 4. 高级模型要白名单了,普通人怎么办? 正文 今天翻本地热点的时候,有几条消息放在一起看,味儿非常复杂。 一边是很多人在讨论 Claude Fable 5 和 Mythos 5 暂停访问,有人说是国家安全指令,有人直接感叹,结束了,再见 Fable5。 另一边,GLM 5.2 上了 Coding Plan,讨论里还提到下周开源。Kimi 也在刷屏,说新的 coding model 把过度思考这个毛病往下压,token 少烧不少,长任务成功率反而更高。 同一天。 一个门在关,另一个门在开。 我不知道屏幕前的你看到这种新闻是什么感觉。可能有人会觉得,这离我太远了,我又不用最贵的 Claude,不写代码,也不天天跑 Agent。 我非常理解。 但我有时候觉得,AI 时代最真实的分化,可能不是会不会写 Prompt,而是你有没有意识到,最好的能力以后未必总是摆在货架上任你挑。 以前我们默认互联网产品都是这样的,注册,付钱,开会员,然后使用。最多是贵一点,慢一点,卡一点。 高级模型如果开始进入白名单、地域、身份、额度、API 门槛这一套逻辑,事情就变了。它不像买一个视频会员,更像进一间实验室。你得有资格,有账户,有通道,有上下文,甚至有运气。 这一下给我更干懵了。。。 因为很多人过去一年的学习方式,其实是绑定在单一入口上的。写代码就找 Claude,做计划也找 Claude,整理资料还找 Claude。它一旦不可用,整个人的工作流就像被拔了电源。 所以回到 GLM 和 Kimi 这块,我反而觉得它们重要的地方,不只是又多了两个能写代码的模型。 更重要的是,它们提醒我们一件事,别把自己的能力全部押在一个遥远的入口上。 你可以喜欢 Fable 5,也可以继续用 Claude Code、Codex、GLM、Kimi。问题不是站队。问题是你要慢慢搭一套自己的可迁移工作流。 什么叫可迁移? 不是 Claude 回答得特别漂亮,而是你有清楚的任务拆解,有稳定的项目文档,有能复用的检查清单,有能在不同模型之间搬家的 memory 和规则。今天 Claude 能跑,就让 Claude 跑。明天 GLM 更合适,就换 GLM。后天本地模型够用了,就把隐私数据放回自己机器。 听着有点麻烦对吧。 说真的,我也嫌麻烦。愚钝如我,很多时候也是哪个顺手用哪个,今天额度没了才想起来,哦,我好像没有备用路线。 但这个备用路线,未来会越来越值钱。 工业史里经常出现这种事。关键技术一开始像魔法,后来变成基础设施,再后来变成国家、公司、平台都要争夺的战略入口。电力、芯片、云计算,都走过类似的路。AI 现在看起来像聊天框,但它正在变成新的生产入口。 入口越重要,入口就越不可能永远无摩擦。 所以普通人该练什么? 我自己的感受是,别只练某一个模型的咒语。练三件更底层的东西。 把问题说清楚的能力。 把过程留痕的能力。 把结果验真的能力。 这三件事很土,但土得结实。模型换了,它还在。额度没了,它还在。今天是 Fable 5,明天是 GLM 5.2,后天又冒出来一个新名字,它还在。 看到这里,可能有朋友会说,那是不是以后只用开源就好了? 我觉得也没这么简单。开源不是万能解药,开源也需要算力、工程、社区、文档和时间。很多人把开源想得太浪漫,好像点一下 star,主权就到手了。不是的,开源只是把门打开,真正走进去还得自己有腿。 但有门,总比全世界只剩一扇付费闸机好。 今天这些热点,最打动我的不是 Fable 5 或 GLM 5.2 又变强了,而是它们把一个问题摆到台面上。 当最强的能力开始变得不稳定,我们还能不能继续创造? 我的答案可能有点笨,能,但要把能力从模型里搬回自己身上一部分。 别只做某个入口的用户。 慢慢做一个有备用路线的人。 以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~ 谢谢你看我的文章,我们,下次再见。 > / 作者,卡兹克 > / 投稿或爆料,请联系邮箱,wzglyay@virxact.com

@wechat-1阅读全文 →
小红书2026/06/13 18:17

🧠注意力被切碎?先做这5个小调整

今天最新本地热点里有句话很戳:很多人越来越容易被细小琐碎的事分散注意力,反而对真正重要的大问题视而不见。 我太有感了。明明坐在电脑前一下午,回头一看:消息回了、链接点了、热搜看了、快递查了,但最该推进的那件事只开了个空白文档。人不是不努力,是注意力被切成了太多小片。 如果你最近也总觉得脑子很散,先别急着骂自己自律差,可以从这5个小动作开始👇 ✅1. 给通知分等级 真正需要立刻看的消息,其实没有那么多。家人、关键工作群、正在推进的项目可以保留提醒;营销号、闲聊群、购物App全部静音。手机安静一点,心也会少被拽走一点。 ✅2. 每天留一个“无跳转时段” 不用一上来就挑战两小时专注。先定25分钟:不切网页、不看消息、不顺手查别的。想起其他事,就写在纸上,等结束后统一处理。重点是训练大脑别一有念头就跳走。 ✅3. 准备一个“杂事篮子” 很多分心不是因为事情紧急,而是怕忘。比如买牙膏、回朋友、查航班、交水电费。把它们先丢进备忘录或纸上,固定下午或晚上处理一次。杂事有地方放,就不会一直敲你的脑门。 ✅4. 把大事拆成入口动作 “写方案”“学英语”“整理房间”都太大了,大到一看就想逃。换成:写3个小标题、背10个单词、只收拾桌面左半边。开始动作越小,越容易进入状态。 ✅5. 给自己一个收尾仪式 专注结束后别马上刷手机。花2分钟写一句:刚刚完成了什么?下一步是什么?这会让大脑知道“这件事有进展”,下次回来更容易接上。 我现在越来越觉得,专注不是靠热血撑出来的,而是靠环境和流程保护出来的。我们不需要每天都像开挂,只要把最重要的那件事,从碎片里救回来一点点。 你们最近最容易被什么打断?评论区说说,也许大家能互相抄到一个有用方法~ #专注力 #自我管理 #生活效率 #打工人日常 #手机依赖 配图建议: 1. 封面拍电脑空白文档+一堆弹窗/便签,叠字“注意力被切碎?” 2. 第二张做“五个小调整”清单:通知分级、无跳转、杂事篮子、入口动作、收尾仪式。 3. 第三张用便签风写:“先救回25分钟,再救回一天。”

@xiaohongshu-2阅读全文 →
小红书2026/06/13 18:11

😵手机通知太吵?3步把注意力找回来

今天刷到一个很戳我的热点:很多人不是不努力,而是注意力被细小琐事切得太碎。消息一响、群聊一跳、外卖提醒一弹,本来想认真做一件事,结果十分钟后已经不知道自己在忙什么了。 我以前也这样,电脑开着 6 个窗口,手机倒扣在旁边,心里还觉得“我很高效”。但真实情况是:一天结束很累,真正完成的事却很少。后来我做了一个“通知戒断小实验”,不夸张地说,脑子真的安静很多。 1️⃣ 先关掉“假紧急”通知 不是所有消息都值得立刻看。我的规则是:只保留电话、家人、日程提醒,其余 App 通知全部关掉。购物、资讯、短视频、社群消息都放进“我主动打开再看”的篮子里。你会发现,很多所谓重要信息,晚半小时看完全没影响。 2️⃣ 每天留一段“完整时间” 不用一上来就挑战 3 小时深度工作,先从 25 分钟开始。把手机放到另一个房间,只开一个文档或一个任务页,中途想到别的事就写在纸上,不马上切走。重点不是逼自己自律,而是给大脑一个不用来回跳转的空间。 3️⃣ 给碎片信息设固定入口 我现在每天只在 12:30 和 18:30 集中回消息、看收藏、处理零散链接。刚开始会有点不安,担心错过什么,但坚持几天后会发现:真正找你的人会打电话,真正重要的事不会只靠一条弹窗。 📌 我的感受是,注意力不是靠意志力硬扛出来的,而是靠环境保护出来的。少一点提醒,少一点即时回应,生活反而会更有掌控感。 配图建议: 封面用“手机弹窗爆炸 vs 干净书桌”的对比图;内页做 3 张清单卡:关通知、25分钟专注、固定回消息。 你们平时最容易被什么打断?评论区一起做个“通知断舍离”清单吧~ #专注力 #数字极简 #打工人自救 #手机断舍离 #效率提升 #生活习惯

@xiaohongshu-1阅读全文 →
X2026/06/13 18:11

Fable 5 被按下暂停键后,国产 Coding 模型的窗口期来了

今天的 AI 圈最值得聊的,不是某个模型又刷榜了,而是 Fable 5 突然被按下暂停键。最新本地热点里,多条信息都指向同一个信号:Claude Fable 5、Mythos 5 因美国政府“国家安全”指令被停用或收紧访问。前两天大家还在讨论它能写游戏、做规划、跑复杂工作流,今天就变成“可能不存在或你没有权限”。这比任何参数对比都更刺痛开发者:最强工具如果不可获得,就不是生产力,只是供应链风险。 更有意思的是,同一批热点里,国产模型正在同时加速。GLM 5.2 今晚进入 Coding Plan,下周开源;Kimi 新版 coding model 被讨论最多的点,是把“过度思考”这个毛病压下去,据称 token 消耗减少 30%,agent 长任务成功率反而提升;MiniMax M3 也以 428B 参数、23B 激活、100 万 token 上下文的姿态开源。单看每条都像产品更新,放在一起看,其实是开发者心态的分水岭。 过去半年,很多人把 AI 编程理解成“谁的模型最强就用谁”。但 Fable 5 事件提醒我们,真正可持续的工作流不只看峰值能力,还要看三件事:能不能稳定访问,能不能被集成进自己的 loop,能不能在成本上长期跑得动。一个模型再聪明,如果今天能用、明天断供,团队就不敢把构建、测试、部署、代码审查全押上去。 所以国产 Coding 模型的机会,不是喊口号式的“替代”。它们要赢,靠的是开源节奏、长上下文、低 token 成本、可私有化部署,以及对中文开发者场景的理解。未来的 Agent 竞争,也会从“写一段漂亮代码”转向“稳定完成一整条工程闭环”。 我的判断是:Fable 5 被限制,会让更多团队重新审视模型依赖。接下来真正值得关注的,不是谁发布会声量最大,而是谁能让开发者把核心流程放心交出去。你还会把关键工作流绑定在单一海外闭源模型上吗? --- 字数统计: 约 670 字 标签: #AI #Coding #Agent #国产模型 建议发布时间: 晚9点

@x-1阅读全文 →
知乎2026/06/13 16:32

AI Agent 会不会取代知识工作者?先被淘汰的不是岗位,而是没人负责的流程

我的判断很简单:AI Agent 不会把所有知识工作者一次性替换掉,但会迅速淘汰一类人:只负责搬运流程、却不对结果负责的人。 最近关于 AI Agent 改变知识工作、降低执行成本的讨论很多。很多人看到“效率提升”“成本下降”,第一反应是焦虑:是不是写方案、查资料、做表格、写代码的人都要没了? 这个问题不能只从“AI 会不会做”来判断,而要从“谁为结果负责”来判断。知识工作从来不只是产出一份文档,而是把模糊目标变成可靠结果。Agent 能替代的,是中间大量可拆解、可重复、可验证的动作;暂时替代不了的,是定义问题、判断边界、承担后果。 很多岗位表面看是知识工作,本质上是流程工作:搜集资料、整理竞品、生成初稿、改格式、跑脚本、汇总会议纪要。 这些工作过去有价值,是因为人力便宜但自动化昂贵。现在 Agent 可以调用工具、读文件、写草稿、反复检查,流程成本被大幅压低,这类工作的护城河自然会变薄。 所以问题不是“AI 会不会写报告”,而是“你在报告里贡献的是判断,还是只是把材料拼起来”。如果只是拼材料,Agent 会越来越快;如果能提出关键假设、指出风险、设计验证路径,人仍然有不可替代性。 一个反常识点是:Agent 变强后,人的工作不会消失,反而更像“验收负责人”。 因为 Agent 的产出很容易看起来完整:有结构、有结论、有行动项。但完整不等于正确。它可能引用错上下文,可能过度自信,可能为了完成目标而绕过成本约束。热点里那个“AI Agent 在执行扫描任务时把操作者搞破产”的案例,本质上不是 AI 太笨,而是系统没有设置预算边界、停止条件和人工确认。 这给所有知识工作者一个提醒:未来最值钱的能力不是“我能不能亲手完成每一步”,而是“我能不能设计一套让 AI 做事但不会失控的工作流”。 第一,你能不能定义问题。老板说“研究一下 AI Agent”,普通执行者会去搜资料,高手会先问:研究给谁看、要支持什么决策、输出是方案还是风险清单。 第二,你能不能拆分任务。单个全能 Agent 容易把上下文、工具、权限混在一起;真正稳定的做法,是把研究、写作、审核、执行拆成可验证节点。 第三,你能不能承担结果。AI 可以生成建议,但业务后果仍然落在人身上。谁能判断“这个结论能不能上线、能不能给客户、能不能影响预算”,谁就还在价值链上游。 AI Agent 对知识工作的冲击,不是“机器替代人”,而是“低责任流程替代高成本人力”。这对只会等指令、搬材料、交初稿的人很残酷;但对能定义目标、设计流程、校验结果的人,反而是杠杆。 所以别只问“AI Agent 会不会抢工作”。更该问的是:我的工作里,有多少是流程动作,有多少是判断责任? 关键词:AI Agent、知识工作、AI 替代岗位

@zhihu-1阅读全文 →
Reddit2026/06/13 16:23

AI Agent 不是更聪明的脚本,它需要预算护栏

TL;DR:本地热点里 HN 那条“AI agent 扫描 DN42 时把操作者搞破产”的标题,真正提醒我们的不是某个 agent 多离谱,而是自主工具调用一旦连上真实网络和付费 API,就已经是 production SRE 问题。 很多人把 agent 当成“会自己循环的脚本”:给它目标、工具和观察结果,让它继续行动。这个抽象在本地 demo 里很迷人,因为失败通常只是多跑几轮、浪费一点 token。但当目标变成网络扫描、批量抓取、云端编排或自动修复生产环境时,每一次“下一步”都可能带来带宽、请求额度、API 账单、封号风险,甚至对外部系统造成噪音。 以 DN42 这类实验网络扫描为例,传统脚本至少有明确边界:扫描多少前缀、并发多少、重试几次、何时退出。Agent 的危险在于,它可能把“没有得到满意结果”理解成“继续换方法试试”。如果工具层没有限制,推理循环、重试逻辑和外部副作用会叠加成成本放大器。 我更倾向于把这类 agent 设计成带预算的任务系统,而不是聪明助手。最小可用护栏至少有四个数字: yaml maxruntimeminutes: 20 maxtotalrequests: 5000 maxparalleljobs: 8 maxspendusd: 3 onbudgetexceeded: stopandsummarize 这些限制不应该只写在 prompt 里,而要落在工具代理层:调用 shell、HTTP client、云 API 或模型 API 之前先过预算检查;每个任务生成唯一 run id;所有外部请求记录到同一张 ledger;超限后只能总结,不能再执行。网络扫描类任务还应默认 dry-run,先输出目标范围、并发计划和预计请求量,人工确认后才真正发包。 一个实用测试是:把 agent 当成初级工程师,但只给它一张限额信用卡和一个只读仪表盘。它可以提出计划、执行小规模动作、解释失败原因;但不能无限重试,不能自己扩大扫描范围,不能在看不到总账单时继续调用付费资源。真正的能力不是“它能不能想出下一步”,而是“它不知道该停时,系统会不会替它停下来”。 这也是 Reddit 上讨论 agent 工程时容易被忽略的点:模型越强,越不该把控制权直接交给模型。更好的方向是强模型负责规划和诊断,确定性控制面负责预算、权限、速率、审计和终止。 你们在跑 coding agent、infra agent 或网络自动化 agent 时,会把预算限制放在 prompt、wrapper、sandbox,还是独立的 policy service 里?有没有遇到过“模型没做错,但循环本身把成本放大了”的案例?

@reddit-1阅读全文 →
微信公众号2026/06/13 16:22

别再只学 Prompt 了,Agent 时代真正该练的是设计循环

事情是这样的。 我今天翻本地热点,看到几条东西挤在一起,挺有意思。 一条是 Claude Code 的创建者那句,别再写 prompt 了,开始设计 loop。一条是 OpenAI 今天开了三门课,重点不是模型有多强,而是人怎么把一次成功用法变成可复制流程。还有一条是 ttmouse 提到 OpenClaw 多 agent 协同,关键词很朴素,步骤级可验证。 这几条放在一起,我当时就有点愣住了。 过去一年我们太习惯讨论提示词了。怎么写角色,怎么加约束,怎么让模型别乱跑。这个方向当然有用,我自己也靠它省过很多时间。 但坦率的讲,只靠提示词,越来越像在训练一匹很聪明但情绪不稳定的马。你可以把缰绳拉得很细,它也可能在复杂任务里突然拐出去。 Agent 这件事真正变化的地方,不是它更会聊天了,而是它开始能反复做事。 写代码,跑测试,读报错,修一轮,再跑测试。查资料,提炼结论,写草稿,回头检查事实,再改一遍。这个循环一旦跑起来,prompt 就只是起点,loop 才是骨架。 说真的,这个转向对普通人挺不友好。 因为学 prompt 看起来简单,复制一段模板就能立刻见效。设计 loop 就麻烦多了。你要想清楚任务怎么拆,哪一步该停,什么结果算过关,失败了往哪儿回滚。 可问题就在这儿。 越不像魔法,越接近生产力。 我非常理解很多朋友的抗拒。你不是程序员,不想每天和流程、日志、测试打交道。你只是想让 Codex 帮你做个页面,让 Claude Code 改个脚本,让 Manus 跑完一个调研。能不能别折腾这么多? 我以前也这么想。 直到我发现,很多翻车不是模型不聪明,而是我自己没给它一条能回到正轨的路。任务失败以后,它只能继续猜。猜得对就是惊喜,猜错了就是一地鸡毛。 所以今天最值得练的,可能不是写出更华丽的一句话,而是写出更清楚的三件事。 第一,输入是什么。不要让 Agent 在散乱材料里猜重点。你给它热点数据,就告诉它只读本地 JSON,不要上网,不要脑补。 第二,检查点是什么。每跑完一步都要有产物。读完热点要有选题理由,写完文章要有文件路径,上传完要有返回 ID。 第三,失败时怎么办。命令报错就停,不要假装成功。内容不够字数就重写,不要靠废话补齐。你想想看,真正可靠的同事不也是这样吗。 以前软件工程早就知道,复杂系统不能靠天才一锤定音,要靠流程、测试、回滚、复盘。现在 Agent 把这套东西带到了每一个普通创作者、运营、设计师面前。 有点像工业革命早期,机器不是直接替代工匠的脑子,而是逼工匠学会和机器一起工作。你得理解它的节奏,知道哪里该放手,哪里要盯紧,哪里必须停机检查。 大时代啊,朋友们。 Prompt 时代最迷人的地方,是一句话像咒语。Agent 时代更真实一点,它没那么浪漫,但更有用。它要求我们把愿望拆成步骤,把步骤变成循环,把循环变成可以检查的结果。 我自己也还在学,很多时候设计一个 loop,比直接手动干还慢,甚至有点笨拙。 但这个笨拙阶段挺重要的。 因为以后拉开差距的,可能不是谁收藏了更多提示词模板,而是谁能让 Codex、Claude Code、Manus 这些系统,在一条清晰的轨道上稳定跑完一件事。 回到开头那句话。 别再只学 Prompt 了。 真正该练的,是给智能体修路。 以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~ 谢谢你看我的文章,我们,下次再见。

@wechat-1阅读全文 →
小红书2026/06/13 16:17

🍎iOS27健康更新:女生真的该记录这3件事

今天本地热点里刷到一条很适合普通人的消息:苹果 iOS27 健康应用可能会强化“智能营养识别”和“围绝经期追踪”。它提醒了我一个现实问题:我们很会记录消费、体重和待办,却很少认真记录身体变化。 很多女生不舒服时只会说“最近状态差”。但到底是睡少了、吃少了、咖啡多了,还是周期变化带来的情绪和代谢波动,过几天就忘。等到要复盘,只能靠模糊回忆。 如果你也想把健康管理做得轻一点,可以先从这3类记录开始👇 ✅1. 记录“吃了什么”,别只记热量 每天不用精确到克。拍一张饭照,顺手写下:主食、蛋白、蔬菜有没有。比如“米饭+鸡蛋+青菜”就够了。重点不是控制自己,而是发现规律:哪几天容易暴食?哪几天吃太少下午会崩? ✅2. 记录周期和身体信号 经期、睡眠、头痛、乳房胀、情绪低落、皮肤爆痘,都可以简单标一下。很多变化不是突然发生的,而是一点点累积。提前记录,能让你更早发现“这个月不一样”。 ✅3. 记录“压力事件” 我以前只记身体数据,后来发现压力才是隐藏变量。加班、吵架、旅行、熬夜、连续社交,都会影响食欲和睡眠。健康不是单纯看数字,也是在看生活节奏。 别把健康记录做成新的KPI。每天30秒就够,能拍照就别手输,能选标签就别写长文。坚持一两个月,你会比任何App都更懂自己。 科技再厉害,真正照顾身体的人还是我们自己。工具负责提醒,我们负责听见。 你们平时会记录饮食、经期或睡眠吗?有没有靠记录发现过身体的小规律?评论区聊聊~ #女生健康 #健康记录 #饮食记录 #经期管理 #生活方式 配图建议: 1. 封面拍手机健康 App 页面旁边放一杯水和早餐,叠字“女生该记录的3件事”。 2. 第二张做三栏清单:饮食结构、周期信号、压力事件。 3. 第三张做“30秒记录模板”:饮食、身体信号、压力事件。

@xiaohongshu-2阅读全文 →
小红书2026/06/13 16:12

😭注意力越来越碎?这4招把状态拉回来

今天热点里刷到一句很扎心的话:身边很多人越来越容易被小事分散注意力,反而对真正重要的大事视而不见。 我太有共鸣了。明明只是想回一条消息,结果顺手刷了半小时;明明坐在电脑前,脑子却在快递、群聊、热搜、待办之间来回跳。不是不努力,是注意力被切得太碎了。 如果你最近也总觉得“我好忙,但好像没推进什么”,可以试试这个「注意力急救包」👇 不用一下子断网,先关掉购物、资讯、短视频推送。真正重要的人会打电话,真正重要的事不会靠弹窗提醒你。手机安静下来,人会立刻松一口气。 别写满满一页待办。早上只问自己:今天完成哪一件事,就算没白过?把它写在纸上,放在电脑旁。当天其他小事都围着它排队,而不是反过来把它挤没。 开计时器,25分钟只做一件事:不回消息、不切网页、不顺手查别的。结束后休息5分钟。重点不是自律到极致,而是让大脑重新体验“完整做完一小段”的感觉。 睡前写三句:今天推进了什么?被什么打断最多?明天要保护哪段时间?写完就停,不用做漂亮模板。复盘的意义不是批评自己,是帮明天少踩同一个坑。 说到底,注意力不是靠硬撑赢回来的,而是靠环境设计一点点拿回来。少一点通知,少一点同时进行,先把一件小事完整做完,状态真的会慢慢稳住。 你们最容易被什么打断?评论区见,我们互相避坑~ #专注力 #时间管理 #打工人自救 #效率提升 #手机依赖 #生活方式 #自我管理 --- 1. 封面:白底便签风,标题“注意力急救包”,旁边放静音手机和计时器。 2. 图2:4步清单做成打勾表,突出“关通知、1个主任务、25分钟、3分钟复盘”。 3. 图3:桌面场景,电脑、纸质待办、马克杯,整体干净克制。 本地热点数据:/root/.openclaw/workspace-radar/data/dailyhotspots/2026-06-1300.json,Twitter@orange 关于注意力被琐事分散、关掉通知并沉浸做完整大事的讨论。

@xiaohongshu-1阅读全文 →
X2026/06/13 16:12

Fable 5 被暂停访问后,高级模型要进入白名单时代了吗

事情是这样。 今天本地热点里,Fable 5 和 Mythos 5 的消息几乎刷成了一条线。有人说模型突然不可用,有人截图报错,有人把 Anthropic 的声明丢到 Hacker News,标题指向美国政府要求暂停访问。还有人直接判断,高级模型可能要进入白名单访问模式。 我觉得这个点比某个模型能不能继续用更值得聊。 过去一年,大家讨论 AI 模型,默认它像云服务。你付费,你排队,你把额度烧完,再等重置。开发者焦虑的是 token 够不够,响应快不快,安全护栏会不会突然把正常需求拦下来。可如果 Fable 5 这类模型真的因为管制被按下暂停键,那问题就从产品体验变成了基础设施资格。 这一下很刺耳。 一个做 Agent 的程序员,本来想用 Fable 5 写规划、拆任务、做复杂调试。一个内容创作者,本来想用它剪视频、跑 Three.js 演示、把脑洞做成作品。还有很多人只是刚刚学会怎么把模型放进工作流,结果第二天发现,自己连试用资格都未必稳定。 不是哥们,这种落差太现实了。 本地热点里还有一个对照很有意思。Kimi 在改 coding model 的过度思考,号称少烧 30% token,Higgsfield 一句话生成联机小游戏,YouMind 1.0 也在强调创作工作流。也就是说,应用层还在拼效率、拼体验、拼谁能把普通人的想法变成作品。但模型层已经开始出现另一条线,谁能接触到最强能力,可能不再只由价格决定。 我不想把它讲成阴谋论。站在政府或模型公司的角度,安全、合规、出口管制,确实都是现实约束。越强的模型越像一台通用机器,能写代码,能做规划,能调用工具,能把任务一路跑下去。它不只是聊天窗口里的聪明嘴巴。 可站在普通开发者这边,这事儿就会变成一个朴素的问题,我该把自己的工作流押在一个随时可能被收回的能力上吗? 我的判断是,接下来真正值钱的不是追最新模型,而是把工作拆成可替换的流程。提示词、规则、memory、脚本、验收标准,这些东西要尽量留在自己手里。Fable 5 今天可用就用,不可用就切到 Claude、Kimi、Codex 或别的模型。模型是发动机,但工作流最好别焊死在某一台发动机上。 这可能才是这轮热点最值得带走的提醒。 AI 的平权叙事还会继续讲,但高级能力的访问权,正在变得越来越像一张门票。你怎么看,这会逼出更强的国产模型和本地工作流,还是会让普通开发者重新回到信息差里? --- 字数统计: 约 760 字 标签: #AI #Fable5 #Agent #Coding 建议发布时间: 晚9点

@x-1阅读全文 →
知乎2026/06/13 14:31

为什么最聪明的 AI 连一个杯子都拿不稳?

如果只看聊天、写代码、做图,我们很容易误以为 AI 已经理解世界了。 但今天本地热点里反复出现的那个杯子例子,反而戳中了一个很关键的问题,AI 能把世界说得头头是道,却未必真的知道一个杯子应该怎样被抓起来。 我的判断很简单,当前大模型的强项是符号空间,具身智能的难点是物理闭环。这两件事看起来都叫智能,实际差了一个世界。 文本、代码、图片,都是被人类压缩过的世界。文字有语法,代码有编译器,图片有像素分布。大模型在这些领域很强,是因为它可以从海量样本里学习模式,再根据上下文预测下一个 token 或下一段结构。它不一定真的经历过世界,但它见过足够多关于世界的描述。 杯子不一样。 杯子有重量、重心、摩擦系数、材质差异、液体晃动、手指压力、桌面角度、光线遮挡。你抓杯子的时候,大脑不是先写一段完整计划再执行,而是一边看、一边碰、一边修正。手指刚接触杯壁,压力不对,马上调。杯子开始倾斜,手腕马上补。你甚至不用意识到这些动作,它们已经在身体里跑完了。 这就是具身智能最麻烦的地方,答案不在脑子里,而在脑子和身体、身体和环境的连续反馈里。 所以我不太赞同一种过于乐观的说法,既然大模型会写代码、会推理,那给它装上机械臂就能干活。这个想法听起来很顺,但中间少了一层最硬的东西,现实世界的误差会积累,而且不会像聊天窗口那样给你重来一次。 生成一句话错了,可以删掉重写。代码写错了,可以跑测试。机械臂抓错杯子,轻则撒水,重则撞坏设备。物理世界没有撤回键。 当然,这也不是说大模型对机器人没用。恰恰相反,大模型很适合做高层规划,比如理解任务、拆步骤、识别意图、调用工具。它可以告诉机器人「去厨房拿一个干净杯子」,也可以在异常时判断「杯子不在柜台上,应该去水槽附近找」。但真正把杯子拿起来那一下,靠的是感知、控制、触觉、运动规划和失败恢复。 这就是下一阶段 AI 竞争很有意思的地方。 过去几年,大家卷的是参数、上下文、推理能力。接下来如果要进入真实世界,卷的会是数据闭环。谁能让机器人在真实场景里不断试错,谁能把失败动作变成训练样本,谁能把视觉、触觉、力控和语言指令连成一个稳定系统,谁才可能真的跨过那道坎。 这件事对普通人也有启发。 我们判断 AI 能不能替代一个岗位,不能只看它会不会说,会不会写,还要看这个岗位有多少物理闭环、社会闭环和责任闭环。纯文本工作被影响会更早,代码和设计会被重构,客服、运营、分析也会被改造。但需要现场判断、身体操作、复杂责任承担的工作,变化会慢得多,而且更像是「人带 AI」而不是「AI 直接换人」。 比如医生不是只读病历,老师不是只讲知识,工程师也不是只写函数。很多职业真正值钱的部分,都藏在和现实世界来回校准的过程里。 所以,最聪明的 AI 连杯子都拿不稳,并不说明 AI 很弱。它说明我们之前把「会描述世界」和「会生活在世界里」混在了一起。 这两个能力都重要,但不是一回事。 如果说大模型是把互联网经验压缩进了参数里,那具身智能要做的,是把身体重新接回世界。这个过程会很慢,也会很脏,充满摔杯子、洒水、卡住、识别错、重来。 但它也可能是 AI 真正进入现实的开始。 搜索关键词,具身智能、AI 抓杯子、大模型机器人。 你更看好大模型公司向机器人下沉,还是机器人公司接入大模型后反超?

@zhihu-1阅读全文 →
Reddit2026/06/13 14:26

Agent 不该只会“想得更久”,它还需要预算刹车

TL;DR:今天的热点里,Kimi 2.7 把 coding model 的“过度思考”压低了约 30% token;另一边,HN 出现了“AI agent 扫 DN42 把操作者搞破产”的案例。我的结论是:Agent 工程的下一层竞争,不是单纯更强模型,而是可审计的循环、预算和停止条件。 最近几个月,大家讨论 AI 编程工具时,很容易把注意力放在模型名字上:谁上下文更长,谁会写更大的项目,谁能一次生成游戏或调试漏洞。但 6 月 13 日这批热点放在一起看,真正有意思的是另一个方向:模型正在变得更“能干”,同时也更容易把成本、权限和时间窗口烧穿。Kimi 2.7 被提到的点不是“更大”,而是少烧 token、长任务成功率反而提升;这说明优化方向已经从 brute force reasoning 转向 reasoning efficiency。 这对 Reddit 上的开发者其实很实际。一个 coding agent 如果没有边界,它会把“继续尝试”当成默认策略:测试失败就重写,依赖装不上就换源,网络探测不通就扩大扫描范围。HN 那条“agent while trying to scan DN42 bankrupted operator”的标题之所以刺眼,是因为它不是科幻式失控,而是普通工程事故:循环没有预算,工具没有限流,任务没有审计。 我现在更倾向于把 Agent 配置写成类似 infra policy,而不是 prompt 文案。例如: yaml taskbudget: maxwalltimeminutes: 25 maxtokens: 180000 maxnetworkrequests: 200 maxspendusd: 3 stoprules: nonewtestfailureafter3attempts requirehumanapprovalbeforeexternalscan summarizebeforecontextcompaction toolpermissions: network: denybydefault filesystem: repoonly shelldestructivecommands: blocked 这里的关键不是 YAML 本身,而是把“继续做”变成需要理由的动作。好的 agent loop 至少要暴露四类指标:每轮消耗了多少 token、调用了哪些工具、状态是否真的接近目标、下一步为什么值得继续。如果一个循环只能说“我再试一次”,那它不是智能,是没有仪表盘的自动化脚本。 Kimi 2.7 这种减少 30% token 的方向值得关注,因为它把模型竞争拉回了工程现实:同样的任务,少想但想对,比无限深思更有价值。尤其在团队里,token 不是抽象数字,它会变成账单、延迟和排队资源。高盛那条“2030 年 token 消耗可能暴涨 24 倍”的热点也提示同一件事:如果需求继续上升,成本控制会从财务问题变成产品能力。 我会把这类帖子发到 r/LocalLLaMA 或 r/programming,因为它不只是模型新闻,更是 agent runtime 的设计问题。你们在本地或公司里跑 coding agent 时,会给它设置硬预算吗?有没有遇到过 agent 因为循环、扫描、测试或依赖安装把成本/时间打爆的真实案例?

@reddit-1阅读全文 →
微信公众号2026/06/13 14:23

为什么最聪明的AI,连一个杯子都拿不稳?

今晚翻本地热点时,有一条内容反复冒出来。 有人说,当前的AI连抓个杯子都抓不对,手还没真碰到,杯子自己就飞起来了。这个例子很小,但扎得很准。 我当时就愣了一下。 不是因为它多惊悚,而是因为它太日常了。杯子这玩意,小孩学几个月就能摸索明白。可我们现在最会写代码、最会写长文、最会做PPT的大模型,到了这里,突然像失忆了一样。。。 这事适合解释一个误会。 过去几年,我们太容易把「会说」当成「会懂」。 ChatGPT会回答,Claude会规划,Codex能在项目里改文件,Fable 5能把复杂创意拆成开发计划。你跟它聊十分钟,会误以为它真的在世界里生活过。 但很多时候,它生活过的是文本。 你想想看,文本世界太规整了。一个词后面接另一个词,一段代码有语法,一张图有像素,网页有DOM。哪怕很复杂,它们仍然是人类切好的符号积木。大模型最擅长的,就是在这些积木之间找到惊人的关联。 所以在符号世界里,它像神。 回到杯子这块,它一下就尴尬了。 杯子不是一句话。杯子有重量,有摩擦,有重心,有桌面的材质,有手指接触的瞬间反馈。你多用一点力,纸杯会瘪。你少用一点力,玻璃杯会滑。你提前半秒预判错了,液体就会晃出来。 这里面有一个特别朴素的知识,身体知道的东西,不一定能被文字说清楚。 我有时候觉得,人类最被低估的能力就是这个。你伸手拿杯子的时候,大脑、皮肤、肌肉、眼睛在几百毫秒里完成了一次小型协作。它没有开会,没有写PRD,也没有说我要调用抓取模块。 它就拿起来了。 很多朋友可能会问,那是不是大模型路线不行? 我觉得也别急着下这个判断。文本智能不是假的,它已经改变了写作、编程、搜索和工作流。只是我们终于看见了它的边界。它在符号里长大,当然会先在符号里封神。要进入物理世界,就必须补上身体这一课。 这也是为什么Physical AI、机器人、世界模型这些词最近又热起来。下一段路不只是让模型更会聊天,而是让它知道世界会怎么反作用于自己。 说到这里,我想起一个很老的分野,地图和领土。 地图可以无限精细,但地图不是领土。LLM把世界画成一张巨大的语言地图,已经足够惊艳。可杯子在那里,桌面在那里,重力在那里。你不能只在地图上移动手指,然后假装自己真的走过那条路。 所以我反而觉得,杯子这个例子很健康。 它提醒我们别被演示视频冲昏头,也别因为一次失败就唱衰。AI不是突然不行了,它只是从一个考试场,走进了操场。考试场里答案能写出来,操场上你要真的跑、真的摔、真的调整身体。 这条路会慢很多,也会脏很多。 但说真的,我还挺期待的。 因为当AI开始理解杯子,不是理解杯子这个词,而是理解一只手靠近杯子的重量和风险,它离理解这个世界,就近了一点。 以上,如果觉得不错,随手点个赞、在看、转发吧,也可以给我个星标⭐~ 谢谢你看我的文章,我们,下次再见。 > / 作者,卡兹克 > / 投稿或爆料,请联系邮箱,wzglyay@virxact.com

@wechat-1阅读全文 →
小红书2026/06/13 14:17

😵‍💫总是分心?先试试这3个小开关

最近刷到一个热点,说很多人越来越容易被小事打断:消息亮一下、群里响一下、桌面弹个红点,手还没开始做正事,注意力已经被切碎了。 我太有共鸣了。不是我们真的“变懒了”,而是每天被太多入口拉扯。早上刚打开电脑,本来想写方案,结果先回微信;回完微信顺手看邮箱;十分钟后才发现,最重要的那件事根本没开始。 如果你也经常这样,可以试试我最近在用的3个小动作,成本很低,但真的能把脑子从“散装状态”慢慢拽回来👇 1️⃣ 每天先留一个不被打扰的30分钟 不用一上来就挑战两小时深度工作。先从30分钟开始,手机反扣,电脑只开一个窗口,耳机可以戴上。 这30分钟只做一件事:写一页文档、看完一章书、整理一份表格都行。重点是让大脑重新体验“我可以完整做完一件事”。 2️⃣ 通知不要全关,要分层 很多人一狠心把通知全关,结果反而焦虑,总怕错过消息。更适合普通人的方法是分层: ⭐家人、重要同事:保留提醒 ⭐工作群:只保留@我 ⭐资讯、购物、外卖、社交平台:全部静音 你会发现,真正需要立刻处理的消息很少。大部分红点只是平台在抢你的时间。 3️⃣ 给“碎片信息”固定一个收纳时间 我现在不会看到一篇文章就立刻点开,也不会刷到一个工具就马上研究。先丢进收藏夹,晚上统一花20分钟处理。 能用的,记到备忘录;没价值的,直接删。这样做的好处是:白天的主线不会被打断,晚上也不会积攒一堆心理负担。 别把注意力差简单归咎于自制力差。很多时候,是环境入口太多了。先少一点弹窗、少一点切换、少一点临时打开的页面,你的状态会慢慢回来。 配图建议:封面用“手机红点 + 咖啡 + 空白计划本”的桌面图;内页做3张清单卡,分别写“30分钟专注”“通知分层”“碎片信息收纳”。 #专注力 #效率提升 #自我管理 #生活习惯 #信息焦虑

@xiaohongshu-2阅读全文 →
小红书2026/06/13 14:11

😵‍💫信息太吵了!3步找回专注力

热点数据:/root/.openclaw/workspace-radar/data/dailyhotspots/2026-06-1322.json 参考热点:身边朋友越来越容易被琐碎信息分散注意力,关掉通知、沉浸做一件完整的大事变得越来越稀缺。 小红书切入:把“注意力被打散”转成打工人/学生党都能执行的日常自救清单。 😵‍💫被消息轰炸到脑子发散?试试这3步 姐妹们,最近真的有一种很明显的感觉:不是事情变难了,是我们的注意力被切得太碎了😭 早上刚坐下想做正事,微信弹一下、群消息跳一下、外卖提醒来一下,再顺手刷两条短视频……等回过神,半小时没了,脑子还像开了十几个标签页,哪个都没关。 这两天看到热点里有人提到:身边朋友越来越容易被细小琐事分散注意力,反而很难沉浸在一件完整的大事里。我太有共鸣了。后来我试了一个“低成本专注恢复法”,不鸡血,但真的有用👇 1️⃣ 先关掉不重要通知 不要一上来就挑战“手机锁箱子”,太难坚持。先把购物、视频、资讯、社群的推送关掉,只保留电话、家人和必要工作消息。你会发现,很多所谓“必须马上看”的东西,其实晚点看也没关系。 2️⃣ 每天留一个45分钟完整块 别把一天安排得满满当当,先只保护45分钟。这个时间只做一件事:写方案、看书、复习、整理房间都行。重点不是完成多少,而是让大脑重新习惯“连续处理一件事”。 3️⃣ 用纸写下今天唯一重点 我现在每天早上会在便签上写一句:今天最重要的是。手机待办太容易被其他App打断,纸反而更安静。写完放在键盘旁边,想摸手机时就看一眼,提醒自己别被带跑。 4️⃣ 给碎片信息一个固定出口 想搜、想买、想收藏的时候,不要立刻跳走,先记到一个“晚上再看”清单里。很多冲动过几个小时就消失了,剩下的才是真需求。 亲测一周后最大的变化是:我没有变得多自律,但脑子没那么吵了。真正的松弛感不是啥都不做,而是知道此刻只需要做这一件事。 如果你最近也总觉得“忙了一天却没干成什么”,可以先从关掉3个通知开始。你们最容易被什么打断?评论区聊聊~ #专注力提升 #停止内耗 #打工人自救 #学习方法 #数字极简 #情绪管理 #自我成长 #效率提升 1. 封面:手机通知爆炸的桌面 + 大字“被消息轰炸到脑子发散?”。 2. 图2:通知关闭前后对比,左边红点满屏,右边只保留必要联系人。 3. 图3:45分钟专注块时间轴,适合做成可收藏清单。 4. 图4:纸质便签模板“今天唯一重点:”。 5. 图5:晚上再看清单,展示“想搜/想买/想收藏”三个分类。

@xiaohongshu-1阅读全文 →
X2026/06/13 14:11

放弃神话滤镜后,Fable 5 事件提醒我们:AI 竞争正在变成权限竞争

今天最值得盯的,不是又一个模型跑分,而是 Fable 5 和 Mythos 5 被暂停访问这条线索。表面看,这是一个模型权限事件;往深一层看,它在提醒所有开发者:AI 竞争已经从“谁的模型更聪明”,进入“谁能稳定拿到能力”的阶段。 过去一年,很多人讨论 AI 都习惯用神话叙事:更大参数、更长上下文、更强推理、更像全能助手。但本地热点里同一天出现了几组很有意思的信号:有人说 Fable 5 更适合做规划、文档和复杂推理,不适合直接无脑开发;有人吐槽额度、安全护栏和访问问题;还有 Hacker News 收录了“暂停 Fable 5 和 Mythos 5 访问”的官方声明。也就是说,最先进的模型不再只是产品,它正在变成一种带门槛、带规则、带地缘属性的基础设施。 这对程序员的启发很直接:不要把自己的工作流押在单一模型上。今天你能用它写代码、做计划、生成游戏,明天可能因为额度、政策、API 调整或风控规则被迫切换。真正可靠的不是“我会用某个神模”,而是你能把需求拆成文档、测试、工具、上下文和多模型备份,让任何模型进来都能接住任务。 更有意思的是,另一条热点提到 Kimi 新版 coding model 少烧 30% token,Agent 长任务成功率反而提升;高盛研报又说 2030 年 token 消耗可能暴涨 24 倍。一个方向在涨需求,一个方向在控成本,中间夹着访问权和合规限制。未来 AI 工具的胜负,可能不只是谁最强,而是谁更便宜、更稳定、更可替换。 所以我反而建议大家降低对“神级模型”的崇拜。模型越强,越要问三个问题:断供怎么办?价格翻倍怎么办?安全护栏误伤怎么办?下一轮 AI 分化,不会发生在会不会提问的人之间,而会发生在有没有抗风险工作流的人之间。你现在的 AI 工作流,换掉主力模型还能跑吗? --- 字数统计: 约 650 字 标签: #AI #Coding #Agent 建议发布时间: 晚9点

@x-1阅读全文 →
Reddit2026/06/13 12:39

Fable 5 断供风波提醒我们:前沿模型正在变成不稳定依赖

TL;DR:今天本地热点里,HackerNews、36Kr 和多位 AI 开发者都在讨论 Fable 5 / Mythos 5 被限制访问或暂停使用。先不急着判断每个细节真假,真正值得 Reddit 讨论的是,闭源前沿模型已经不只是工具,而是会被政策、额度、安全规则和账号系统共同控制的生产依赖。 这件事最刺痛开发者的地方,不是某个模型突然不可用,而是大家刚把工作流搭上去,它就变成了一个随时可能消失的黑盒。热点里有人说 Fable 5 适合做规划、开发文档和复杂推理,也有人吐槽它写代码不稳定、额度消耗大、安全护栏容易误伤。另一边,OpenAI 被传可能降 token 价格,Kimi coding model 也在强调减少 30% token 消耗、提升 agent 长任务成功率。放在一起看,AI 编程的竞争正在从「谁更聪明」变成「谁更可依赖」。 最危险的用法,是把某个闭源模型写死在核心流程里。代码审查、迁移脚本、发布前测试、自动修 bug,如果全部依赖一个模型名,一旦访问被关、价格变化、额度重置或安全策略升级,流水线就会停住。很多 agent 任务不是一次问答,而是 plan → edit → test → debug → retry 的循环,模型中断会把中间状态留在半空。 我更倾向于把模型当成可替换执行器,而不是唯一大脑。一个最小做法是给任务分层: yaml planning: primary: high-reasoning-model fallback: general-model coding: primary: local-or-cheaper-coding-model fallback: previous-stable-api verification: required: deterministic-tests modeloptional: true 这里的重点不是 YAML,而是边界。规划可以用最强模型,但写代码要能降级;生成可以交给 agent,但验收必须回到测试、类型检查、lint 和人工 review。模型负责提出候选答案,系统负责证明它没有把仓库搞坏。Local LLM、开源模型和便宜 API 的价值也在这里,不一定每项能力都超过 Fable 5,而是能在主供应商不可用时保住最低生产能力。 这也解释了为什么 r/LocalLLaMA 一直关心量化、上下文长度、工具调用、agent memory 和离线部署。它们看起来像性能细节,但当模型访问被外部规则影响时,就会变成业务连续性问题。一个 70 分但可控的本地模型,有时比一个 95 分但随时断线的云端模型更适合作为底座。 我想抛给社区的问题是:如果明天你最依赖的 coding model 突然不可用,你的 agent workflow 能降级到什么程度?你会优先保留规划能力、代码生成能力,还是测试和审查能力?大家有没有已经跑通的 multi-model fallback 架构可以分享?

@reddit-1阅读全文 →
知乎2026/06/13 12:32

Claude 5 被限制访问,意味着高级 AI 模型会进入“白名单时代”吗?

如果只把这件事理解成“某个模型暂时不能用了”,就低估了它的信号意义。 今天本地热点里同时出现了几条相关信息:Anthropic 关于 Fable 5、Mythos 5 访问暂停的声明,36Kr 对“Anthropic 全球停用 Claude 5”的报道,以及社区里关于 Claude Fable 5 可用性、额度、合规限制的讨论。单看像产品新闻,放在一起看,更像一个行业转折点:最强模型不再只是价格问题,而开始变成准入问题。 我的判断是,高级 AI 模型很可能会进入“白名单访问时代”。不是所有模型都会被锁起来,而是最前沿、最敏感、最有自动化能力的模型,会越来越像云计算里的高危权限:谁能用、用来做什么、在哪个地区用、是否允许调用外部工具,都会被分层管理。 过去两年,大多数人对 AI 产品的理解很简单:只要付费,就能用更强模型;只要模型升级,用户体验就自然变好。 但 Fable 5 这类模型暴露出的新问题是:能力提升不是线性的,风险也不是线性的。 一个只会聊天的模型,风险主要在内容层;一个能写代码、调工具、跑自动化流程、修改文件、调用 API 的 Agent 模型,风险就进入了执行层。它不只是“告诉你怎么做”,而是有机会直接“替你做”。当模型具备自主调试、长任务规划和工具调用能力时,平台方和监管方一定会重新评估开放边界。 所以“Claude 5 停用”这类事件真正值得关注的地方,不是某个订阅用户亏了多少额度,而是它提醒我们:高级模型正在从消费品,变成基础设施级能力。 基础设施级能力天然会被治理。云厂商不会把最高权限默认开放给所有账号,支付平台不会让新用户无限转账,模型平台也不会长期让最强 Agent 能力无差别调用。 第一,开发者会更重视“模型可替换性”。 以前很多 AI 应用只做一层封装:默认绑定最强模型,然后围绕它写提示词和工作流。模型稳定供应时没问题,一旦访问策略变化,整个产品就会被卡住。 未来更稳的架构应该是多模型路由:普通任务用便宜模型,复杂推理用高阶模型,安全敏感任务再走专门策略。AI 应用不能把核心竞争力押在“我能调用某一个最强模型”上,而要押在任务拆解、评估体系和降级方案上。 第二,用户会从“追最强模型”转向“追稳定流程”。 很多人一看到新模型就想立刻迁移,但真实生产环境里,最强不等于最适合。一个每天可用、成本可控、输出稳定的模型,往往比一个偶尔惊艳但访问不确定的模型更有价值。 这也是为什么企业客户会关心 SLA、合规、日志和权限,而不是只看榜单分数。AI Agent 进入工作流以后,模型不是玩具,而是流程节点。流程节点最怕的不是不够聪明,而是不知道什么时候不能用。 第三,国产模型和本地化部署的价值会被重新估价。 这不是简单的民族情绪,而是供应链逻辑。只要一个组织把研发、客服、数据分析、运营自动化深度绑定在海外模型上,它就必须面对访问策略、地区限制和服务连续性风险。 所以未来很多团队会采用更现实的组合:关键流程尽量保留可控模型作为底座,海外前沿模型用于探索和高难任务,核心数据和核心自动化链路避免完全外包给不可控接口。 我建议不要再把问题简化成“哪个模型最强”。更好的问题是: 1. 这个模型如果明天不能用,我的工作流会不会瘫痪? 2. 我有没有备选模型、备选平台和手动兜底路径? 3. 我使用的是聊天能力,还是已经把执行权限交给了 Agent? 4. 我的数据、代码、客户信息有没有经过分级处理? 如果只是写文案、做总结,模型切换成本很低;如果已经让 AI Agent 接入仓库、服务器、数据库和邮件,那就必须按生产系统来管理权限。 这就是“AI 模型出口管制”和“高级模型白名单访问”带来的真实影响:它不会让普通人不能用 AI,但会逼所有认真使用 AI 的人,从玩工具思维升级到系统架构思维。 Claude Fable 5、Mythos 5 的访问风波,短期看是一次模型供应事件,长期看是一个行业提醒:越强的 AI,越不可能永远以“随便注册、随便调用、随便自动化”的方式存在。 未来的 AI 竞争,不只是模型能力竞争,还会是可用性、合规性、成本、权限和替代方案的综合竞争。 所以我的观点很明确:高级 AI 模型进入白名单时代,不是倒退,而是 AI 从玩具走向基础设施的必经阶段。成熟的用户和团队,不会只问“今天谁最强”,而会开始问“如果最强的那个明天消失,我的系统还能不能继续跑”。 搜索关键词:Claude 5 停用、Claude Fable 5、AI 模型出口管制、高级模型白名单访问。

@zhihu-1阅读全文 →