OpenAI · 代码与软件工程 · 2026-02-11

工程技术：在智能体优先的世界中利用 Codex

OpenAI 这篇博客把 Codex 放进一个几乎完全由智能体生成代码的内部产品实验里，核心 insight 不是“让模型多写代码”，而是重新设计仓库、工具、反馈回路和架构边界，让智能体能读懂、验证并持续修复系统。

作者: Ryan Lopopolo
来源: https://openai.com/zh-Hans-CN/index/harness-engineering/

阅读原文

先抓住这篇文章的真正主题

OpenAI 这篇博客最值得读的地方，不是“他们用 Codex 写了很多代码”，而是它把一个更尖锐的问题摆出来：当代码主要由智能体产出时，工程师真正要设计的对象会从实现细节，转向让智能体能稳定工作的环境。

这个环境包括仓库里的知识地图、可运行的本地应用、浏览器验证能力、日志指标和 trace、架构边界、合并策略，以及持续清理技术债的机制。人类没有退出工程，只是工作重心上移：少直接改代码，多设计反馈回路、验收标准和约束系统。

关键章节亮点

这篇文章可以压缩成五个最值得带走的亮点。它们不是按目录平均摘要，而是按“对自己的 Agent 项目最可复用”的价值排序。

应用可读性：Codex 必须能运行、观察和验证应用，否则它只能靠静态猜测写代码。
仓库知识系统：AGENTS.md 不应该是百科全书，而应该是地图，真正的知识要被结构化、版本化、可检查。
Agent 可读性：Google Docs、聊天记录和人脑里的品味，如果没有进入仓库，对智能体就等于不存在。
架构和品味约束：高吞吐智能体会放大好模式，也会放大坏模式，所以边界和 lint 要更早出现。
熵管理：智能体生成不是一次性生产力问题，而是一个持续垃圾回收问题。

1给地图

把知识放进仓库并建立索引

2给感官

让 Codex 能跑应用、看 UI、查日志和指标

3给边界

用架构规则和 lint 缩小错误空间

4给清理循环

把反复出现的坏模式变成自动修复任务

亮点一：应用可读性决定 Codex 能不能闭环

原文最有工程含量的一段，是 OpenAI 把应用 UI、日志、指标和 trace 变成 Codex 可以直接读取的反馈信号。这个亮点来自 “Increasing application legibility” 一节和两张核心图：一张是 Codex 通过 Chrome DevTools MCP 驱动应用，一张是本地可观测性栈。

为什么重要？因为代码智能体最容易卡在“我以为修好了”的阶段。如果它只能看文件，就只能静态推理；如果它能启动应用、触发 UI 路径、读取运行事件、观察性能指标，它就能把“修复”变成可验证的闭环任务。这个差异会直接决定智能体是写补丁，还是能独立推进一个真实变更。

可复用模式很明确：先不要急着写复杂 prompt，先给智能体一套能跑起来的环境。每个任务最好能创建隔离实例，能打开浏览器，能保存截图或 DOM 快照，能查询日志和指标，能在失败后重启并重跑验证。提示词只是入口，运行时证据才是闭环。

误读边界也很重要：这不是说每个团队都要马上搭完整观测平台。更小的起点也可以是 npm run dev、一个端到端 smoke test、稳定的浏览器检查脚本、结构化错误日志和几条关键性能断言。

原文图：Codex 通过浏览器和 DevTools 信号驱动应用，把 UI 路径、运行事件和修复循环连成一个验证闭环。

只能读代码

智能体根据文件和测试结果猜测问题，容易停在“看起来合理”的补丁。

能观察应用

智能体能触发真实路径、收集运行证据、复现失败，再把证据写回修复循环。

亮点二：仓库不是代码容器，而是智能体的记录系统

另一个关键章节是 “We made repository knowledge the system of record”。这不是普通文档治理建议，而是在回答一个智能体时代的问题：什么知识会真的影响下一次代码生成？

OpenAI 的答案很硬：智能体运行时拿不到的知识，就不能稳定参与推理。口头约定、Slack 讨论、Google Docs、某个资深工程师的审美，除非被编码进仓库里的 Markdown、schema、计划、质量文档、架构规则或工具，否则对 Codex 来说都接近不存在。

这里最值得复用的设计是：让 AGENTS.md 做地图，而不是做巨型手册。入口文件短而稳定，只负责告诉智能体去哪里找更具体的真相；深层知识放在 docs/、执行计划、设计文档、产品规范、技术债清单和质量评分里。然后再用 lint、CI 和定期文档清理任务检查这些知识是否新鲜。

误读边界：这不是让团队写更多没人看的文档。恰恰相反，它要求文档变得可路由、可验证、可更新。对智能体友好的文档应该像 API 一样被维护，而不是像会议纪要一样沉没。

原文图：agent 知识边界提醒我们，未进入仓库的隐性知识很难稳定影响智能体行为。

亮点三：架构边界在智能体项目里要提前，而不是推迟

“Enforcing architecture and taste” 是这篇博客里最容易被低估的一节。很多团队会把严格架构、依赖方向、文件大小限制、结构化日志、命名约定视为后期治理。但 OpenAI 的经验恰好相反：在高吞吐智能体代码库里，这些约束是早期加速器。

原因是 Codex 会复用仓库中已经存在的模式。好模式会被复制，坏模式也会被复制。人类手写代码时，漂移速度相对慢；智能体高频提交后，漂移会更快进入系统结构。所以架构边界不只是“代码好看”，而是防止错误模式规模化扩散。

可复用模式是“边界上强约束，边界内给自由”。例如固定业务域分层、限制依赖方向、明确横切能力入口、在边界处解析数据形状、用 custom lint 把错误信息写成可执行修复建议。这样智能体不需要每次都重新理解团队品味，工具会把品味注入上下文。

误读边界：这不是把智能体当初级工程师严防死守。好的约束应该缩小错误空间，而不是规定每一行实现。真正要机械化的是边界、可观测性、可靠性和一致性，不是局部表达风格。

原文图：分层领域架构把依赖方向和横切能力入口固定下来，让智能体在清晰边界内高速工作。

亮点四：吞吐量会改变合并策略，但前提是纠错足够便宜

这篇文章的合并策略部分很短，却很关键。OpenAI 指出，当 Codex 能快速打开 PR、回应反馈、修复失败、重新验证时，传统的强阻塞人工 review 会成为主要瓶颈。高吞吐系统里，等待很贵，纠错如果足够便宜，就可以把一部分质量控制从“合并前人工审查”转移到“自动规则、后续修复和持续清理”。

这个亮点的重要性在于，它把工程管理问题重新建模了。人类注意力成为稀缺资源后，团队不应该把所有变更都推到人工队列前等待，而应该把高频、低判断含量的问题变成 agent review、CI、lint、结构测试和自动修复任务。人类只处理真正需要产品判断、架构取舍和风险评估的部分。

可复用模式：给变更分层。边界、数据迁移、安全权限、用户可见行为等仍然需要强门禁；局部清理、测试修复、文档更新、简单 UI 回归可以更多交给自动验证和快速回滚。合并策略不是“更松”，而是“把质量控制放到更适合机器执行的位置”。

误读边界：如果团队没有可靠 CI、没有可观测性、没有清晰边界、没有低成本回滚，就不要直接复制这种 merge philosophy。否则提高吞吐量只会让混乱更快抵达主分支。

亮点五：熵管理才是长期胜负手

“Entropy and garbage collection” 是整篇文章最像长期工程经验的一节。OpenAI 一开始需要人工定期清理智能体产出的残渣，后来把所谓的 golden principles 编码进仓库和后台 Codex 任务里，让清理变成持续过程。

这个亮点的价值在于，它承认智能体代码不是一次性生成后就结束。Codex 会复制已有模式，如果坏模式出现并停留，它就会继续被模仿。于是技术债不再只是人类工程师慢慢积累的问题，也可能被智能体吞吐量放大。

可复用模式是把 review 里的稳定意见升级成系统规则。比如偏好共享工具而不是重复 helper，偏好边界验证而不是猜数据形状，偏好结构化日志而不是随手字符串，偏好小额持续重构而不是大爆炸清理。只要某条意见反复出现，就应该问：它能不能变成 lint、测试、模板、文档、skill 或周期性 agent task？

误读边界：熵管理不是“把所有人类审美都自动化”。有些判断仍然需要人。但凡是稳定、重复、可机械检查的品味，都应该尽早从评论区迁移到工具链里。

1发现坏模式

从 review、bug 和返工里发现重复问题

2抽象成原则

判断它是不是稳定工程品味

3编码进工具

变成 lint、测试、文档或 skill

4后台清理

让 Codex 定期扫描并开修复 PR

5回写知识库

把修复经验写回仓库地图

工程机制或方法拆解

把这篇文章拆成工程系统，可以看到四层结构。第一层是任务入口：人类给意图、验收标准和优先级。第二层是知识层：仓库内的地图、文档、计划、schema、质量等级和技术债记录。第三层是反馈层：浏览器、日志、指标、trace、测试和 agent review。第四层是约束层：架构规则、lint、结构测试、合并策略和周期性清理。

这四层合在一起，才让 Codex 从“代码生成器”变成“能推进软件生命周期的执行者”。缺任何一层都会退化：没有任务入口，智能体不知道做什么；没有知识层，智能体不知道为什么这样做；没有反馈层，智能体不知道是否做对；没有约束层，智能体会把局部合理变成全局漂移。

原文图：本地可观测性栈把日志、指标和 trace 暴露给 Codex，让性能目标和故障复现进入同一个修复循环。

对 Agent 项目的复用启发

如果你正在做自己的 Agent 项目，这篇文章最值得转成一张优先级清单。

第一，先做仓库地图。不要把所有规则塞进一个超长 prompt，给智能体一个短入口，再把架构、产品原则、计划、质量要求和技术债放到可索引的仓库文档里。

第二，先做验证闭环。让智能体能启动项目、运行关键路径、看失败截图、读取日志、执行测试，并能把失败原因转成下一轮修改。

第三，提前机械化边界。依赖方向、数据边界、日志格式、文件规模、命名约定、可靠性要求，都尽量用工具检查，而不是靠每次人工提醒。

第四，把高频 review 意见升级成规则。只要一句评论出现三次，就不要再把它当评论处理，要考虑变成 lint、测试、文档模板或 skill。

第五，设计小额持续清理。智能体时代的技术债不是等到季度末重构，而是每天用后台任务、质量评分和小 PR 还掉。

边界与误读提醒

这篇文章的经验来自 OpenAI 内部产品实验，不能直接推导成“所有团队都应该零手写代码”。它依赖强模型能力、内部工具、工程文化、真实用户反馈和可以为智能体重构工作方式的团队条件。

更稳妥的读法是：先复用环境设计，而不是复用极端约束。你可以不要求“没有一行手写代码”，但可以先让智能体拥有更好的仓库地图、更可靠的验证路径、更清晰的边界和更机械化的品味规则。

本站 insight 的推断是：未来 agent 项目的分水岭，不只是模型能力，而是工程环境是否把“人类知道什么、系统发生了什么、边界允许什么、债务在哪里”变成智能体可读取、可验证、可执行的结构。