AI 编程到底行不行？500+ 开发者的一线答案

一、1 小时出原型，100 小时上线

一个开发者用 AI 做了一个 Farcaster 上的 NFT 小应用 Cryptosaurus——用户上传头像，AI 生成恐龙风格的 NFT。

原型用了 1 小时。上线用了 100 小时。

那 99 小时花在哪了？AI 写的 UI 翻来覆去改了好几版配色，每次都过度设计。图片生成的 prompt 迭代了 200 多轮（背景里冒出随机文字、恐龙的胡子长得不对、帽子消失）。部署到 AWS 时，AI 不断创建新的 S3 桶，而不是用已有的那个。上线当天，AI 写的智能合约忘了处理并发交易的 nonce 问题，用户付了钱没收到东西，开发者不得不退款并额外补偿 1 美元。

他最后写道："那些说自己 30 分钟 vibecode 出一个 app 的人，要么是在做已有项目的翻版，要么做出来的东西一堆 bug，要么就是在刷流量。"

最终成绩：1000+ 下载，180 个付费用户。代价：100 倍于原型的时间。

二、大厂 0 收益，小团队 10 倍——真实数字

HN 455 条评论里最出乎意料的发现：AI 编程的效果跟团队规模严重相关，而且几乎是反过来的。

先看真实自报数据：

开发者	背景	AI 提效倍数	备注
FAANG 工程师	大型已有代码库	0x	"到现在没一个 AI commit 能直接提交"
Amazon 工程师	Kiro + Opus 4.6	2-4x 工作 / 10x 副业	吐槽内部工具不如 Claude Code
10 年经验全栈	3 人团队 10 万 DAU	3 人 = 以前 10 人	"没有 bug 清单，代码质量不比手写差"
20 年 DevOps 老兵	金融科技	原型 10x / 生产 2-3x	"测试该跑多久还是多久"
独立开发者	Terraform，全新+已有项目	5x	"每周丢两次线索，每月倒退一周以上"

最后那个人的自述特别诚实："我一开始只在讨厌的事情上用 AI，后来到处都用。速度确实快了 5 倍。大部分时候我能跟上。每周两次我意识到自己完全不知道代码在干嘛。每月一次它让我倒退一周以上。"

而那个 3 人 10 万 DAU 的案例特别值得细看。这个团队不是在"vibe coding"——3 个人里 2 个完全理解代码库，产品人员可以直接从 Slack 提交配置修改的 PR。过去同样的事至少要 10 个工程师。

但马上有人泼了冷水："10 万 DAU——你们的竞争对手 1-2 个人抄一份，卖你十分之一的价，6-9 个月你就没了。"

这个分裂不是偶然。AI 擅长绿地开发，不擅长维护已有系统。 项目越新、架构越简单、约束越少，AI 越猛。代码库越老、历史包袱越重，AI 的幻觉造成的破坏越大。

三、"代码清洁工"——2026 年最惨的岗位

455 条评论里点赞最高的主题之一。一位中级工程师的讲述让人心凉：

"现在上面的人什么都用 AI 做——不只是代码——然后丢给我收拾。代码库一团糟。有一次我要合并另一个团队的功能，但那个功能是 AI 写的，完全不遵守主项目的 API 设计。还包含了一堆第一版根本不需要的东西——大量手写的错误处理和解析器。我花了一周多时间拆解、精简、重新设计。而那个团队 '几乎一瞬间' 就写出来了，我看起来慢得要死。"

然后他做了一个沉重的预测："我觉得对我这个位置的人来说，未来很暗淡——不是初级，但也不是带队的。中间层会被掏空，只剩下设定方向的 principal 和执行的 AI。"

另一个人回复："这大概是近期最吃力不讨好的活了。你做的很难，但得到的认可跟工地上打扫卫生的差不多——即使你实际上是在修结构缺陷。"

而管理层那边？一位开发者吐槽：领导用 Claude 生成 50 页设计文档、PRD、幻灯片，发过来说"尽快审阅"。没人读，包括写的人自己。 被问到具体问题就含糊其辞。

另一位更具体："以前 30 分钟搞定的事，现在要一周。比如数据库有性能问题，以前我直接建个索引就完了。现在变成了 37 页的文档——解释、风险评估、迁移计划、部署方案、障碍分析、一堆评论。看起来确实很专业。"

有人一针见血地总结了这个新社交契约："你花多少精力生产信息，我就花多少精力消费它。你用 AI 拉了一堆数据出来，我也用 AI 来处理这些数据。"

回复："经典囚徒困境！"

四、"最后 20% 最难，是因为前 80% 埋的坑"

这可能是所有评论里最深刻的一条（mrothroc）：

"最后 20% 不只是难。它之所以难，是因为前 80% 发生的事。当 AI 在前期走了一个捷径，下一步并不知道那是个捷径……到了第 80 小时，你坐在那试图修一个看起来是 UI 的 bug，然后发现真正的问题在三层之下。"

另一位开发者 stainlu 补充了一个很少有人提到的角度：

"人类写的代码通常有一套固定的坏习惯，你学会了作者的盲点就能快速排查。AI 生成的代码表面上更正确，但出错的地方是随机的、不相关的——没有规律可循。而且'为什么这么写'的原因，存在于一段没保存的聊天记录里。"

还有人用了一个绝妙的比喻："我越深入用 Claude Code，越觉得它像世界上最不稳定的高尔夫球手。一杆就能打到离洞口几步的距离，然后花几小时、几天、几周来推最后那一杆。"

评论区的真实恐怖故事也不少：

同事用 AI "修复"竞态条件——方法是加 200 毫秒延迟。AI 贴心建议："不够的话改成 300ms"
"我见过 SQL 注入和把 API token 泄露给网站所有访客的情况"
一个公司裁掉了 4 个外包，因为他们交的全是 AI slop——出得快但完全不能上生产

五、"全公司 100% AI 代码"——一个正在发生的实验

最震撼的可能是这条（来自一家上市公司员工）：

"我们公司（上市公司，知名品牌，＜5000 人）全面押注 AI，目标是一年内 100% 的代码由 AI 生成。跟其他地方一样的成功和失败……但技术领导层坚信这既可行又必要，听不进反对意见。各个层级不同意的人都被请走了。"

"说到底，如果我在那坚持说 AI 质量有多差，但旁边用 AI 的同事已经发了六个中型功能，这个争论我赢不了。"

"领导对事故的态度是'那就写更好的代码'……确实，AI 写的代码有问题、漏掉业务需求。但在产品团队眼里？这不就是跟工程师打交道的日常嘛，他们根本分不出区别。"

有人回复点出了两难："要么他们是对的（100% AI 代码很快实现），那你反正要失业。要么他们是错的，但到那时候聪明人早走光了。你能看到第三种未来吗？"

六、真正高效的人在做什么？

同样是用 AI，为什么有人体验 10x，有人体验 0？

独立开发者 Stavros 在博客上分享了他的工作流——用 AI 构建了多个产品，数万行代码，稳定运行。秘诀不是"更好的 prompt"，是一套四角色分工：

角色	模型	职责
架构师	Opus	反复讨论方案（有时 30 分钟），说"approved"才往下走
开发者	Sonnet	严格按计划执行，不自由发挥
审查者	Codex / Gemini	用不同模型审查——"让模型审查自己的代码，它基本会同意自己"
仲裁	Opus	审查者意见冲突时做最终决策

100 小时那个帖子里也有人总结："他停止用 prompt 直接写代码、打开 Figma 开始真正设计的那一刻，Claude 的实现质量飞跃了。瓶颈从来不是代码生成，是在生成之前就该发生的思考。"

HN 上另一个很好的做法来自 citizenkeen："我们团队都用 Claude，但我有一条严格规定：我们不说'我问了 Claude'。用可以，但你必须为产出负责。"

高效使用 AI 编程的人有一个共同点：他们把 80% 的时间花在 AI 动手之前。

七、你以为你更快了，其实更慢了

METR 做过一个随机对照实验：让有经验的开发者分两组，一组用顶级 AI 编程工具，一组不用。

结果：用 AI 的那组反而慢了 19%。

更扎心的：同一批人自我评估觉得自己快了 20%。

所有人的直觉偏了 40 个百分点。

Stack Overflow 2025 年调查也印证了这一点：超过 70% 的开发者在用 AI 工具，但只有不到 30% 觉得它在生产代码上持续有用。66% 的人经历了"生产力税"——AI 省下的时间，被审查和修正吃回去了。

Faros AI 追踪 10,000 名开发者给出了更精确的数字：用 AI 的团队代码产量增加 98%——但代码审查时间也增加了 91%。最终实际多完成的有效工作？只有 21%。

一位不用 AI 的开发者观察同事后说了一段话，听起来像在描述上瘾：

"六个月前一个同事就跟我承认了这件事——他在试着不再用 AI 写代码，但很难停下来，因为太容易顺手就用了。听起来有点像药物成瘾。 另一个初级同事过去一年好像变笨了，提交的 PR 根本没解决问题。"

八、一张决策表

基于这上千条评论，我整理了一张表：

场景	效果	建议
全新个人项目	⭐⭐⭐⭐⭐	原型放心用，但留 100 倍时间给上线
理解陌生代码库	⭐⭐⭐⭐⭐	公认最佳用途，几乎无副作用
小团队新功能	⭐⭐⭐⭐	先设计后实现，别让 AI 从零自由发挥
Code Review 辅助	⭐⭐⭐⭐	让 AI 先扫一遍标可疑点，人再看
写测试	⭐⭐⭐⭐	生成测试骨架很好用
生产环境调试	⭐⭐⭐	当 rubber duck 用，别直接信结论
大型已有代码库	⭐⭐	局部辅助可以，别指望大改
不熟悉的技术栈	⭐	危险——你无法判断 AI 的错误

九、最后一个问题

"当 AI 能瞬间生成代码，瓶颈就转移到了知道该要什么，和判断结果对不对。"

一位高级开发者 Dragos Nedelcu 写了篇文章，说自己 3 年用 AI 生成了 15 万行代码。直到有一天，AI 在 15 分钟内搞出了横跨 7 个文件的连锁 bug，他不得不 git reset 全部回滚。他写道："我慢慢看着自己的技术能力退化……一边像玩老虎机一样玩 ChatGPT。"

还有一个开发者遇到产品经理用 ChatGPT 查资料：PM 说规格文档要求用"阿拉伯数字"，但"根据 ChatGPT，这意味着要用阿拉伯文的数字符号"。花了好几轮会议、请来阿拉伯语翻译团队，才说服她 1234 就是阿拉伯数字。

这个开发者总结："人们宁可信 LLM 也不信领域专家。我们完了。"

这指向一个比效率更深的问题：软件工程师的核心能力正在从"编码"迁移到"判断"。 手速和语法记忆在贬值，系统理解力和"这里看着不对"的直觉在升值。

但如果你让 AI 写了足够多的代码，有一天可能发现自己已经没有能力判断 AI 写的对不对了。不是 AI 替代了你的判断力——是你自己把它交出去了。

HN 上有人用自动驾驶打了个比方："这让我想起那种要求你在不开车的情况下随时保持全神贯注、随时准备接管的自动驾驶。这显然不现实。"

数据来源：Hacker News 多个热帖（合计 1000+ 评论，2026/3/15）、Reddit r/ChatGPT & r/ClaudeAI、METR 随机对照实验、Faros AI 万人开发者报告、Stack Overflow 2025 调查、stavros.io

阅读原文：原文链接