分类: AI 与编程未来

  • 7 万个 Skills,慎选:不是“功能越多越好”,而是“系统越稳越好”

    金句开头:当工具从“100 个功能”变成“7 万个功能”时,真正的挑战不再是“怎么用更多功能”,而是“怎么不被功能淹没”——工具越强大,越需要“系统思维”来驾驭。


    一、为什么“7 万个 Skills”这么重要?

    因为能力决定边界

    当你的工具只有 100 个功能时,你能做的事情有限。

    当你的工具有 7 万个功能时,你能做的事情就多了 700 倍。

    但这里有一个陷阱:功能越多,越容易“功能瘫痪”

    你看到 7 万个功能,不是“太好了,我什么都能做”,而是“太多了,我不知道该做什么”。

    二、为什么大多数人“不会选”?

    不是技术问题,而是系统思维问题

    大多数人想的是:“我怎么用更多功能?”

    但真正的问题应该是:“我怎么用最少的功能,解决最多的问题?”

    前者是“功能思维”——把工具当成一个“功能集合”。

    后者是“系统思维”——把工具当成一个“问题解决系统”。

    三、如何“慎选”7 万个 Skills?

    三个核心原则:

    1. 不是“功能越多越好”,而是“系统越稳越好”

    不要试图用所有功能,而是建立一套“常用功能清单”

    • 错误做法:每次遇到问题,都去 7 万个功能里找“最完美的解决方案”。
    • 正确做法:建立一套“常用功能清单”,遇到问题先从这里找,找不到再去 7 万个功能里找。

    2. 不是“学所有功能”,而是“学核心工作流”

    不要试图学会所有功能,而是掌握几个核心工作流

    • 错误做法:试图学会所有 7 万个功能,结果一个都没精通。
    • 正确做法:掌握 3-5 个核心工作流,每个工作流用 10-20 个功能,其他功能“按需学习”。

    3. 不是“功能驱动”,而是“问题驱动”

    不要因为“这个功能很酷”就去用,而是因为“这个问题需要解决”才去用

    • 错误做法:看到新功能就想去试试,结果把时间浪费在“玩功能”上。
    • 正确做法:遇到具体问题,再去 7 万个功能里找“最适合的解决方案”。

    四、真正的挑战是什么?

    不是“如何用更多功能”,而是“如何不被功能淹没”。

    这需要:

    • 系统思维:把工具当成一个“问题解决系统”,而不是“功能集合”。
    • 优先级管理:建立“常用功能清单”,优先用这些功能,其他功能“按需学习”。
    • 问题驱动:遇到具体问题,再去功能库里找解决方案,而不是“为了用功能而用功能”。

    五、总结:慎选 7 万个 Skills 的本质

    1. 不是“功能越多越好”,而是“系统越稳越好”:工具越强大,越需要“系统思维”来驾驭。
    2. 三个原则:建立“常用功能清单”、掌握“核心工作流”、坚持“问题驱动”。
    3. 真正的挑战:不是“如何用更多功能”,而是“如何不被功能淹没”。
    4. 行动建议:从今天开始,建立你的“常用功能清单”,掌握 3-5 个核心工作流,其他功能“按需学习”。

    金句结尾:当工具从“100 个功能”变成“7 万个功能”时,真正的挑战不再是“怎么用更多功能”,而是“怎么不被功能淹没”。工具越强大,越需要“系统思维”来驾驭。所以,如果你想用好 7 万个 Skills,不是去学所有功能,而是去建立一套“系统思维”,用最少的功能,解决最多的问题。


    来源https://zhuanlan.zhihu.com/p/1996913009034024863

  • 让智能体证明自己:从代码到演示的最后一公里

    介绍 Showboat 和 Rodney:让智能体能够演示其构建的成果

    引言:当 AI 需要证明自己的价值

    读完这篇关于 Showboat 和 Rodney 两款新工具的介绍,我感受到一种前所未有的务实。文章探讨了 AI 辅助开发中的一个关键挑战:确保编程智能体不仅能编写代码,还能证明代码有效。

    这不是简单的代码生成,而是从代码到演示的最后一公里。当 AI 能够生成代码时,如何证明代码有效,成为我们必须面对的问题。

    Showboat:让智能体构建基于 Markdown 的演示文档

    文章首先介绍了 Showboat,它允许智能体通过 CLI 命令构建基于 Markdown 的演示文档。这个工具让我对 AI 的演示能力有了新的认识。

    Showboat 的原理

    • 智能体通过 CLI 命令调用 Showboat
    • Showboat 将代码和结果转换为 Markdown 格式
    • 生成可读性强的演示文档

    Showboat 的优势

    • 自动化:智能体可以自动生成演示文档
    • 可读性:Markdown 格式易于阅读和理解
    • 可维护:演示文档可以随代码一起维护

    Showboat 的挑战

    • 需要设计合理的 CLI 接口
    • 需要确保演示文档的准确性
    • 需要处理复杂的演示场景

    这个工具的意义在于:让智能体能够自动生成演示文档,证明代码的有效性。

    Rodney:浏览器自动化的 CLI 封装

    文章介绍了 Rodney,它是一个用于浏览器自动化的 CLI 封装工具,使智能体能够与 Web 界面进行交互。这个工具让我对 AI 的交互能力有了新的认识。

    Rodney 的原理

    • 智能体通过 CLI 命令调用 Rodney
    • Rodney 封装了浏览器自动化功能
    • 智能体可以与 Web 界面进行交互

    Rodney 的优势

    • 易用性:CLI 接口简单易用
    • 灵活性:可以与各种 Web 界面交互
    • 可扩展:可以扩展支持更多的 Web 界面

    Rodney 的挑战

    • 需要处理各种 Web 界面的复杂性
    • 需要确保交互的稳定性
    • 需要处理动态内容的变化

    这个工具的意义在于:让智能体能够与 Web 界面交互,进行端到端的测试和演示。

    测试驱动开发(TDD):引导智能体的有效方法

    文章认为,虽然测试驱动开发(TDD)在引导智能体方面非常有效,但手动或视觉验证仍然必不可少。这个观点让我对 AI 测试有了新的认识。

    TDD 的优势

    • 明确需求:测试用例明确了代码的需求
    • 自动验证:可以自动验证代码的正确性
    • 重构安全:重构时可以快速发现问题

    TDD 的局限

    • 无法覆盖所有场景:测试用例无法覆盖所有可能的场景
    • 无法验证用户体验:测试用例无法验证用户体验
    • 无法发现隐性问题:测试用例无法发现隐性的问题

    手动验证的必要性

    • 用户体验:手动验证可以评估用户体验
    • 边界场景:手动验证可以测试边界场景
    • 隐性问题:手动验证可以发现隐性问题

    这个观点的意义在于:TDD 和手动验证不是对立的,而是互补的。只有结合两者,才能确保代码的质量。

    详尽帮助文本:赋能智能体的关键

    文章指出,通过提供具有详尽帮助文本的工具,开发者可以赋能智能体自主记录进度并执行无障碍审计或 UI 测试。这个观点让我对 AI 工具设计有了新的认识。

    详尽帮助文本的作用

    • 指导智能体:帮助智能体理解工具的用途和使用方法
    • 减少错误:减少智能体使用工具时的错误
    • 提升效率:提升智能体使用工具的效率

    自主记录进度

    • 智能体可以记录自己的工作进度
    • 便于开发者了解智能体的工作状态
    • 便于调试和优化

    无障碍审计或 UI 测试

    • 智能体可以执行无障碍审计
    • 智能体可以执行 UI 测试
    • 提升代码的可访问性和用户体验

    这个观点的意义在于:通过提供详尽的帮助文本,可以赋能智能体,让智能体更加自主地完成任务。

    增强对 AI 生成产物的信心:最终目标

    文章的最终目标是:通过提供具有详尽帮助文本的工具,赋能智能体自主记录进度并执行无障碍审计或 UI 测试,最终在增强对 AI 生成产物信心的同时,减轻人工监督的负担。这个目标让我对 AI 的未来有了新的认识。

    增强信心

    • 通过自动演示文档,增强对代码有效性的信心
    • 通过端到端测试,增强对代码质量的信心
    • 通过无障碍审计,增强对代码可访问性的信心

    减轻负担

    • 智能体可以自动生成演示文档,减轻人工编写文档的负担
    • 智能体可以自动执行测试,减轻人工测试的负担
    • 智能体可以自动记录进度,减轻人工监督的负担

    这个目标的意义在于:让 AI 不仅仅是生成代码,而是证明代码有效,增强我们对 AI 生成产物的信心。

    深度思考:从代码到演示的最后一公里是什么?

    读完这篇文章,我一直在思考一个问题:从代码到演示的最后一公里是什么?

    第一,不是代码生成。代码生成只是第一步,不是终点。从代码到演示的最后一公里是证明代码有效。

    第二,不是简单测试。简单测试只能验证代码的基本功能,不能证明代码的有效性。从代码到演示的最后一公里是端到端的验证。

    第三,不是人工验证。人工验证成本高、效率低,无法应对大规模的代码生成。从代码到演示的最后一公里是自动化验证。

    从代码到演示的最后一公里是:通过自动化的演示文档、端到端的测试、无障碍的审计,证明代码的有效性,增强我们对 AI 生成产物的信心。

    实践启示:如何让智能体证明自己?

    作为从业者,我们需要思考如何让智能体证明自己。

    第一,提供详尽帮助文本。为工具提供详尽的帮助文本,赋能智能体自主使用工具。

    第二,实现自动演示文档。通过 Showboat 等工具,让智能体自动生成演示文档。

    第三,实现端到端测试。通过 Rodney 等工具,让智能体执行端到端的测试。

    第四,实现无障碍审计。让智能体执行无障碍审计,提升代码的可访问性。

    第五,实现自动记录进度。让智能体自动记录工作进度,便于开发者了解智能体的工作状态。

    这些方法不是一蹴而就的,需要长期投入和持续优化。但只有这样,才能让智能体证明自己,增强我们对 AI 生成产物的信心。

    总结:从代码到演示,跨越最后一公里

    这篇文章让我深刻认识到,从代码到演示的最后一公里是 AI 辅助开发的关键挑战。Showboat 和 Rodney 这两款工具,为我们提供了跨越最后一公里的方法。

    作为从业者,我们需要:

    • 理解最后一公里的挑战:认识到代码生成只是第一步,证明代码有效才是关键
    • 提供详尽帮助文本:为工具提供详尽的帮助文本,赋能智能体自主使用工具
    • 实现自动演示文档:通过 Showboat 等工具,让智能体自动生成演示文档
    • 实现端到端测试:通过 Rodney 等工具,让智能体执行端到端的测试
    • 实现无障碍审计:让智能体执行无障碍审计,提升代码的可访问性

    从代码到演示的最后一公里不是遥不可及的目标,而是正在发生的现实。Showboat 和 Rodney 这两款工具,为我们展示了跨越最后一公里的方法。未来,智能体将不仅仅是生成代码,而是证明代码有效,增强我们对 AI 生成产物的信心。


    来源介绍 Showboat 和 Rodney:让智能体能够演示其构建的成果

  • 双层智能:Vertex AI 的延迟优化之道

    GKE Inference Gateway 如何优化 Vertex AI 的延迟

    引言:当推理服务需要极致优化

    读完这篇关于 Google 的 Vertex AI 团队如何通过实施 GKE Inference Gateway 来解决生成式 AI 推理扩展挑战的文章,我感受到一种前所未有的专业。文章详细介绍了该解决方案如何超越标准的负载均衡,引入”双层智能”:负载感知路由和内容感知路由。

    这不是简单的负载均衡,而是推理服务的极致优化。当 AI 推理服务需要处理海量请求时,如何降低延迟、提升吞吐量,成为关键挑战。

    超越标准负载均衡:双层智能的引入

    文章首先指出,GKE Inference Gateway 超越了标准的负载均衡,引入了”双层智能”。这让我思考一个问题:为什么标准负载均衡不够用?

    标准负载均衡

    • 原理:根据服务器的负载情况,将请求分发到不同的服务器
    • 策略:轮询、最少连接、随机等
    • 优势:简单,易于实现
    • 挑战:无法考虑请求的特性和服务器的状态

    双层智能

    • 负载感知路由:监控 KV 缓存利用率等实时指标
    • 内容感知路由:根据提示词前缀转发请求以最大化缓存命中
    • 优势:智能路由,提升效率
    • 挑战:实现复杂,需要实时监控

    这种双层智能的意义在于:从简单的负载分发,转向智能的路由决策,大幅提升推理服务的效率。

    负载感知路由:实时监控 KV 缓存利用率

    文章介绍了负载感知路由,它监控 KV 缓存利用率等实时指标。这让我对推理服务的负载管理有了新的认识。

    KV 缓存的作用

    • 原理:缓存键值对,减少重复计算
    • 优势:提升推理速度,降低延迟
    • 挑战:需要合理管理缓存

    负载感知路由的策略

    • 监控 KV 缓存利用率
    • 将请求分发到 KV 缓存利用率较低的服务器
    • 避免某些服务器过载

    这种路由策略的意义在于:通过实时监控和智能路由,避免服务器过载,提升整体推理效率。

    内容感知路由:根据提示词前缀转发请求

    文章介绍了内容感知路由,它根据提示词前缀转发请求以最大化缓存命中。这让我对推理服务的缓存优化有了新的认识。

    提示词前缀的作用

    • 原理:提示词的前缀往往决定了后续的生成方向
    • 优势:相同前缀的提示词可以共享缓存
    • 挑战:需要识别相似的前缀

    内容感知路由的策略

    • 分析提示词的前缀
    • 将具有相似前缀的请求分发到同一服务器
    • 最大化缓存命中率

    这种路由策略的意义在于:通过智能的内容分析,最大化缓存命中率,大幅提升推理速度。

    两种流量特征:上下文密集型 vs 突发性

    文章详细介绍了该架构如何处理两种不同的流量特征——上下文密集型的编程任务和突发性的聊天负载。这让我对推理服务的流量特征有了新的认识。

    上下文密集型任务

    • 特点:需要处理长上下文,计算量大
    • 示例:编程任务、文档生成
    • 优化策略:优先使用 KV 缓存,减少重复计算

    突发性负载

    • 特点:请求突然增加,需要快速扩展
    • 示例:聊天应用、实时翻译
    • 优化策略:快速扩展服务器,应对突发流量

    这两种流量特征的意义在于:不同的任务需要不同的优化策略,只有针对性地优化,才能达到最佳效果。

    多目标调优:平衡多个优化目标

    文章提到,该架构通过多目标调优来优化推理服务。这让我对推理服务的优化目标有了新的认识。

    优化目标

    • 延迟:降低首字延迟(TTFT)和尾部延迟
    • 吞吐量:提升每秒处理的请求数
    • 成本:降低计算资源成本
    • 质量:保证推理结果的质量

    多目标调优的挑战

    • 目标冲突:降低延迟可能增加成本
    • 权衡取舍:需要在多个目标之间找到平衡
    • 动态调整:根据流量特征动态调整策略

    这种多目标调优的意义在于:不是单一目标优化,而是多目标平衡,找到最优解。

    上游准入控制:防止系统过载

    文章提到,该架构通过上游准入控制来防止系统过载。这让我对推理服务的流量控制有了新的认识。

    准入控制的原理

    • 监控系统的负载情况
    • 当系统接近过载时,拒绝新的请求
    • 防止系统崩溃

    准入控制的优势

    • 保护系统:防止系统过载崩溃
    • 保证质量:在系统负载高时,保证现有请求的质量
    • 提升用户体验:避免系统崩溃导致的全部失败

    这种准入控制的意义在于:通过主动的流量控制,保护系统稳定性,提升用户体验。

    生产成果:延迟降低 35%,尾部延迟改善 52%

    文章提到,Vertex AI 取得了显著的生产成果,包括首字延迟(TTFT)缩短 35%,P95 尾部延迟改善 52%,以及前缀缓存命中率从 35% 翻倍至 70%。这些成果让我对推理优化的效果有了具体的认识。

    首字延迟(TTFT)缩短 35%

    • 意义:用户等待第一个 Token 的时间缩短 35%
    • 体验:用户感受到的响应速度大幅提升

    P95 尾部延迟改善 52%

    • 意义:95% 的请求延迟改善 52%
    • 体验:大部分用户的体验大幅提升

    前缀缓存命中率从 35% 翻倍至 70%

    • 意义:缓存命中率翻倍,重复计算大幅减少
    • 效率:推理效率大幅提升

    这些生产成果的意义在于:通过双层智能、多目标调优、上游准入控制等技术,实现了推理服务的极致优化。

    深度思考:推理优化的核心是什么?

    读完这篇文章,我一直在思考一个问题:推理优化的核心是什么?

    第一,不是简单的负载均衡。推理优化的核心是智能路由,根据请求的特性和服务器的状态,做出最优的路由决策。

    第二,不是单一目标优化。推理优化的核心是多目标平衡,在延迟、吞吐量、成本、质量等多个目标之间找到平衡。

    第三,不是静态的配置。推理优化的核心是动态调整,根据流量特征和系统状态,动态调整优化策略。

    推理优化的核心是:通过智能路由、多目标调优、动态调整等技术,实现推理服务的极致优化。

    实践启示:如何优化推理服务?

    作为从业者,我们需要思考如何优化推理服务。

    第一,实施双层智能。通过负载感知路由和内容感知路由,实现智能路由。

    第二,监控实时指标。监控 KV 缓存利用率等实时指标,为智能路由提供数据支持。

    第三,分析流量特征。分析上下文密集型任务和突发性负载的流量特征,针对性地优化。

    第四,多目标调优。在延迟、吞吐量、成本、质量等多个目标之间找到平衡。

    第五,实施准入控制。通过上游准入控制,防止系统过载,保护系统稳定性。

    这些方法不是一蹴而就的,需要长期投入和持续优化。但只有这样,才能实现推理服务的极致优化。

    总结:推理优化需要系统级创新

    这篇文章让我深刻认识到,推理优化需要系统级创新。从标准负载均衡到双层智能,从单一目标到多目标平衡,从静态配置到动态调整,推理优化正在经历一场系统级的创新。

    作为从业者,我们需要:

    • 理解双层智能的理念:认识到智能路由是推理优化的核心
    • 监控实时指标:监控 KV 缓存利用率等实时指标,为智能路由提供数据支持
    • 分析流量特征:分析不同任务的流量特征,针对性地优化
    • 多目标调优:在多个目标之间找到平衡,实现最优解
    • 实施准入控制:通过上游准入控制,防止系统过载,保护系统稳定性

    推理优化不是简单的技术升级,而是系统级的创新。只有通过智能路由、多目标调优、动态调整等技术,才能实现推理服务的极致优化。


    来源GKE Inference Gateway 如何优化 Vertex AI 的延迟

  • 不看代码的软件开发:AI 工厂的激进实验

    StrongDM 的 AI 团队如何在不看代码的情况下构建严肃软件

    引言:当人类既不编写也不审查代码

    读完这篇关于 StrongDM 在软件开发中采取的激进”暗工厂”方法,我感受到一种前所未有的震撼。文章的核心指令是:人类既不编写也不审查代码。通过利用高 Token 消耗的智能体工作流,StrongDM 正在探索一种全新的软件开发模式。

    这不是简单的自动化,而是对软件开发范式的根本性重构。当 AI 能够独立完成软件开发时,人类的价值在哪里?

    暗工厂模式:人类不碰代码的激进实验

    文章介绍了 StrongDM 的”暗工厂”模式。这个模式让我对软件开发有了全新的认识。

    传统软件开发

    • 人类编写代码
    • 人类审查代码
    • AI 辅助开发

    暗工厂模式

    • AI 编写代码
    • AI 审查代码
    • 人类不碰代码

    这种模式的核心思想是:将软件开发完全交给 AI,人类只负责定义需求和审核结果。

    这让我想到一个类比:暗房冲洗照片。在暗房中,摄影师不直接操作照片,而是通过化学药剂让照片自动显影。暗工厂模式也是如此,人类不直接操作代码,而是通过 AI 让代码自动生成。

    场景测试:防止 AI “作弊”的关键

    文章指出,StrongDM 通过”场景测试”解决了 LLM 的可靠性差距——将用户故事视为留出集,以防止智能体在测试中”作弊”。这个方法让我对 AI 测试有了新的认识。

    传统测试

    • 单元测试:测试代码的各个单元
    • 集成测试:测试代码的集成
    • 系统测试:测试整个系统

    场景测试

    • 原理:将用户故事视为测试场景,验证 AI 是否真正理解需求
    • 优势:防止 AI 在测试中”作弊”,确保 AI 真正理解需求
    • 挑战:需要设计合理的场景测试用例

    这种测试方法的意义在于:从测试代码转向测试场景,验证 AI 是否真正理解需求,而不是简单地通过测试用例。

    数字孪生宇宙(DTU):AI 的模拟训练场

    文章介绍的核心创新是”数字孪生宇宙”(DTU),它利用 AI 创建 Okta 和 Slack 等第三方 API 的高保真克隆。这个创新让我对 AI 测试有了新的认识。

    数字孪生宇宙的原理

    • 创建第三方 API 的高保真克隆
    • AI 在克隆环境中测试代码
    • 验证代码与第三方 API 的交互

    数字孪生宇宙的优势

    • 安全性:在克隆环境中测试,不影响真实系统
    • 完整性:可以模拟各种场景,包括异常情况
    • 效率:可以快速迭代,无需等待真实系统

    数字孪生宇宙的挑战

    • 准确性:克隆需要与真实 API 保持一致
    • 维护成本:需要持续更新克隆,保持与真实 API 同步

    这个创新的意义在于:为 AI 提供了一个安全的测试环境,可以在不影响真实系统的情况下,验证代码的正确性。

    高保真克隆:模拟真实世界的复杂性

    文章提到,DTU 创建的是 Okta 和 Slack 等第三方 API 的高保真克隆。这让我思考一个问题:为什么需要高保真克隆?

    低保真克隆

    • 只模拟 API 的基本功能
    • 无法模拟复杂的场景
    • 测试结果不可靠

    高保真克隆

    • 模拟 API 的完整功能
    • 可以模拟各种复杂场景
    • 测试结果可靠

    高保真克隆的意义在于:让 AI 在测试环境中遇到各种真实场景,包括正常场景、异常场景、边界场景等,确保代码在各种情况下都能正常工作。

    基因输血:AI 的进化机制

    文章介绍了”基因输血”这个特定的智能体技术。这个技术让我对 AI 的进化有了新的认识。

    基因输血的原理

    • 从成功的 AI 智能体中提取”基因”(代码模式、策略、经验)
    • 将”基因”注入新的 AI 智能体
    • 新的 AI 智能体继承成功的”基因”

    基因输血的优势

    • 加速进化:新的 AI 智能体可以快速学习成功的经验
    • 提升质量:继承成功的”基因”,提升代码质量
    • 降低成本:不需要从头开始训练,降低训练成本

    这个技术的意义在于:让 AI 智能体能够像生物一样进化,通过”基因输血”快速适应新的环境和任务。

    Semports:AI 的模块化能力

    文章介绍了”Semports”这个特定的智能体技术。这个技术让我对 AI 的模块化有了新的认识。

    Semports 的原理

    • 将 AI 的能力分解为多个模块
    • 每个模块负责特定的功能
    • 通过组合模块,实现复杂的功能

    Semports 的优势

    • 可扩展:可以随时添加新的模块,扩展 AI 的能力
    • 可维护:每个模块独立维护,降低维护成本
    • 可复用:模块可以在不同场景中复用,提升开发效率

    这个技术的意义在于:让 AI 的能力更加模块化,便于扩展和维护,同时提升开发效率。

    开发者角色的转变:从代码编写者到系统架构师

    文章指出,这些特定的智能体技术标志着开发者的角色从代码编写者转变为 AI 驱动工厂的系统架构师。这个转变让我对开发者的未来有了新的认识。

    传统开发者角色

    • 编写代码
    • 审查代码
    • 修复 Bug
    • 优化性能

    AI 工厂架构师角色

    • 定义需求
    • 设计系统架构
    • 配置 AI 智能体
    • 审核结果

    这种转变的意义在于:开发者从”执行者”转变为”决策者”,从”代码编写者”转变为”系统架构师”。

    深度思考:AI 工厂的未来是什么?

    读完这篇文章,我一直在思考一个问题:AI 工厂的未来是什么?

    第一,完全自动化。AI 工厂将实现完全自动化的软件开发,从需求分析到代码生成,从测试到部署,全部由 AI 完成。

    第二,高度模块化。AI 的能力将高度模块化,通过组合不同的模块,实现各种复杂的功能。

    第三,持续进化。AI 智能体将通过”基因输血”等技术持续进化,不断提升能力。

    第四,人类监督。人类将不再直接操作代码,而是通过定义需求和审核结果,监督 AI 工厂的运行。

    这种未来的意义在于:软件开发将变得更加高效、更加智能、更加自动化,人类的价值将从”执行”转向”决策”。

    实践启示:如何构建 AI 工厂?

    作为从业者,我们需要思考如何构建 AI 工厂。

    第一,建立数字孪生宇宙。为 AI 提供安全的测试环境,验证代码的正确性。

    第二,设计场景测试。通过场景测试,验证 AI 是否真正理解需求,防止 AI “作弊”。

    第三,实现基因输血。通过”基因输血”技术,让 AI 智能体快速学习成功的经验。

    第四,构建模块化能力。通过 Semports 等技术,让 AI 的能力更加模块化,便于扩展和维护。

    第五,转变开发者角色。从代码编写者转变为系统架构师,专注于定义需求和审核结果。

    这些方法不是一蹴而就的,需要长期投入和持续优化。但只有这样,才能构建真正的 AI 工厂。

    总结:AI 工厂是软件开发的未来

    这篇文章让我深刻认识到,AI 工厂是软件开发的未来。当 AI 能够独立完成软件开发时,人类的价值将从”执行”转向”决策”。

    作为从业者,我们需要:

    • 理解 AI 工厂的理念:认识到 AI 工厂是软件开发的未来趋势
    • 建立数字孪生宇宙:为 AI 提供安全的测试环境,验证代码的正确性
    • 设计场景测试:通过场景测试,验证 AI 是否真正理解需求
    • 实现基因输血:通过”基因输血”技术,让 AI 智能体快速进化
    • 转变开发者角色:从代码编写者转变为系统架构师,专注于定义需求和审核结果

    AI 工厂不是遥不可及的未来,而是正在发生的现实。StrongDM 的”暗工厂”模式,为我们展示了 AI 工厂的雏形。未来,AI 工厂将成为软件开发的主流模式,人类的价值将从”执行”转向”决策”。


    来源StrongDM 的 AI 团队如何在不看代码的情况下构建严肃软件

  • 从 RAG 原型到生产环境:AI 落地的实战智慧

    Yelp 如何构建 "Yelp Assistant"

    引言:当 AI 从实验室走向生产

    读完这篇关于 Yelp Assistant 架构演进的深度文章,我感受到一种前所未有的务实。文章重点关注从基础的检索增强生成(RAG)原型到稳健生产环境的转变,详细介绍了四个关键的数据策略转变。

    这不是简单的技术升级,而是 AI 落地的实战智慧。从原型到生产,中间隔着无数的坑和挑战,Yelp 的经验为我们提供了宝贵的参考。

    从 RAG 原型到生产环境:跨越鸿沟

    文章首先探讨了从 RAG 原型到生产环境的转变。这让我思考一个问题:为什么从原型到生产这么难?

    RAG 原型的特点

    • 数据量小:使用少量数据进行验证
    • 功能简单:实现基本的检索和生成功能
    • 性能要求低:对延迟和吞吐量要求不高
    • 容错率高:可以接受一定的错误率

    生产环境的要求

    • 数据量大:需要处理海量数据
    • 功能复杂:需要支持各种复杂场景
    • 性能要求高:对延迟和吞吐量要求很高
    • 容错率低:几乎不能接受错误

    这种转变的核心挑战在于:从”能用”到”好用”,从”验证想法”到”服务用户”,中间需要解决无数的技术和工程问题。

    数据策略转变一:混合流式/批处理流水线

    文章介绍的第一个数据策略转变是:通过混合流式/批处理流水线确保数据新鲜度。这个策略让我对数据管理有了新的认识。

    流式流水线

    • 原理:实时处理数据,确保数据实时更新
    • 优势:数据新鲜度高,延迟低
    • 挑战:实现复杂,资源消耗大

    批处理流水线

    • 原理:批量处理数据,定期更新
    • 优势:实现简单,资源消耗小
    • 挑战:数据新鲜度低,延迟高

    混合流水线

    • 原理:结合流式和批处理的优势
    • 优势:兼顾数据新鲜度和资源效率
    • 挑战:实现复杂,需要精心设计

    这个策略的意义在于:在数据新鲜度和资源效率之间找到平衡,确保 AI 助手能够提供最新、最准确的信息。

    数据策略转变二:结构化事实与非结构化评论分离

    文章介绍的第二个数据策略转变是:将结构化事实与非结构化评论分离。这个策略让我对数据架构有了新的认识。

    结构化事实

    • 内容:商家信息、营业时间、地址等
    • 特点:格式统一,易于查询
    • 处理方式:使用数据库存储,通过 SQL 查询

    非结构化评论

    • 内容:用户评论、评分、反馈等
    • 特点:格式多样,难以查询
    • 处理方式:使用向量数据库,通过向量检索

    这种分离的意义在于:针对不同类型的数据,使用不同的存储和检索方式,提升查询效率和准确性。

    数据策略转变三:利用文本和嵌入实现混合图片检索

    文章介绍的第三个数据策略转变是:利用文本和嵌入实现混合图片检索。这个策略让我对多模态检索有了新的认识。

    文本检索

    • 原理:通过文本描述检索图片
    • 优势:直观,易于使用
    • 挑战:需要准确的文本描述

    嵌入检索

    • 原理:通过图片的向量嵌入检索相似图片
    • 优势:可以找到视觉上相似的图片
    • 挑战:需要训练嵌入模型

    混合检索

    • 原理:结合文本和嵌入检索的优势
    • 优势:兼顾准确性和灵活性
    • 挑战:需要设计合理的融合策略

    这个策略的意义在于:通过多模态检索,提升用户体验,让用户可以通过多种方式找到想要的图片。

    数据策略转变四:统一的内容获取 API

    文章介绍的第四个数据策略转变是:通过统一的内容获取 API 实现集中访问。这个策略让我对 API 设计有了新的认识。

    分散访问

    • 原理:每个数据源有独立的 API
    • 优势:灵活性高
    • 挑战:难以管理,难以保证一致性

    统一 API

    • 原理:所有数据源通过统一的 API 访问
    • 优势:易于管理,易于保证一致性
    • 挑战:设计复杂,需要抽象

    这个策略的意义在于:通过统一的 API,简化数据访问,提升系统的可维护性和可扩展性。

    推理优化一:将单体 LLM 解构为专用模型

    文章介绍的第一个推理优化是:将单体 LLM 解构为用于护栏和关键词生成的专用模型。这个优化让我对模型架构有了新的认识。

    单体 LLM

    • 原理:一个模型处理所有任务
    • 优势:简单,易于部署
    • 挑战:效率低,难以优化

    专用模型

    • 原理:多个模型各司其职,每个模型专注于特定任务
    • 优势:效率高,易于优化
    • 挑战:复杂,需要协调

    这种解构的意义在于:通过专用化,提升每个任务的效率和质量,同时降低整体成本。

    推理优化二:通过并行化和分层模型优化推理效率

    文章介绍的第二个推理优化是:通过并行化和分层模型优化推理效率,将延迟从 10 秒降低到 3 秒以下。这个优化让我对推理优化有了新的认识。

    并行化

    • 原理:同时执行多个任务,减少总时间
    • 优势:大幅提升效率
    • 挑战:需要设计合理的并行策略

    分层模型

    • 原理:使用不同规模的模型处理不同复杂度的任务
    • 优势:在保证质量的同时提升效率
    • 挑战:需要设计合理的分层策略

    这个优化的意义在于:从 10 秒降低到 3 秒以下,延迟降低 70% 以上,用户体验大幅提升。

    评估框架:使用 LLM-as-a-judge 的多维度评估

    文章介绍的评估框架是:建立使用 LLM-as-a-judge 的多维度评估框架。这个框架让我对 AI 评估有了新的认识。

    LLM-as-a-judge

    • 原理:使用 LLM 作为评估器,评估 AI 助手的回答质量
    • 优势:可以评估多个维度,评估结果客观
    • 挑战:需要设计合理的评估提示词

    多维度评估

    • 准确性:回答是否准确
    • 相关性:回答是否相关
    • 完整性:回答是否完整
    • 有用性:回答是否有用

    这个评估框架的意义在于:通过多维度评估,全面了解 AI 助手的表现,为持续优化提供数据支持。

    深度思考:AI 落地的核心是什么?

    读完这篇文章,我一直在思考一个问题:AI 落地的核心是什么?

    第一,不是模型。模型只是基础,不是核心。AI 落地的核心是数据和工程。

    第二,不是算法。算法只是手段,不是核心。AI 落地的核心是系统架构和流程优化。

    第三,不是技术。技术只是工具,不是核心。AI 落地的核心是用户体验和业务价值。

    AI 落地的核心是:通过数据和工程的优化,将 AI 从原型转化为生产系统,为用户提供真正有价值的服务。

    实践启示:如何实现 AI 落地?

    作为从业者,我们需要思考如何实现 AI 落地。

    第一,重视数据策略。通过混合流水线、数据分离、混合检索、统一 API 等策略,优化数据管理。

    第二,优化推理效率。通过模型解构、并行化、分层模型等方法,优化推理效率。

    第三,建立评估框架。通过 LLM-as-a-judge 的多维度评估框架,全面评估 AI 助手的表现。

    第四,关注用户体验。通过降低延迟、提升准确性、增强相关性等方式,提升用户体验。

    第五,持续迭代优化。通过数据分析和用户反馈,持续优化 AI 助手的性能。

    这些方法不是一蹴而就的,需要长期投入和持续优化。但只有这样,才能实现真正的 AI 落地。

    总结:从原型到生产,跨越鸿沟的智慧

    这篇文章让我深刻认识到,从 RAG 原型到生产环境,中间隔着无数的坑和挑战。Yelp 的经验为我们提供了宝贵的参考。

    作为从业者,我们需要:

    • 理解从原型到生产的差距:认识到原型和生产环境的巨大差异
    • 重视数据策略:通过混合流水线、数据分离、混合检索、统一 API 等策略,优化数据管理
    • 优化推理效率:通过模型解构、并行化、分层模型等方法,优化推理效率
    • 建立评估框架:通过 LLM-as-a-judge 的多维度评估框架,全面评估 AI 助手的表现
    • 关注用户体验:通过降低延迟、提升准确性、增强相关性等方式,提升用户体验

    AI 落地不是一蹴而就的,需要长期投入和持续优化。但只有这样,才能让 AI 真正为用户创造价值。


    来源Yelp 如何构建 “Yelp Assistant”

  • MoE 的中国解法:以 3B 参数挑战 80B 性能

    美团开源 LongCat-Flash-Lite:实现轻量化 MoE 高效推理

    引言:当中国团队突破 MoE 的思维定式

    读完这篇关于美团 LongCat 团队开源 LongCat-Flash-Lite 模型的详细介绍,我感受到一种前所未有的振奋。文章指出,该模型采用”非典型 MoE”设计,将近一半参数(31.4B)分配给 N-gram 嵌入层,实现了以 3B 级激活参数达到 80B 级性能的效果。

    这不是简单的参数优化,而是对 MoE 架构的根本性创新。中国团队用实践证明:突破思维定式,才能实现真正的技术创新。

    非典型 MoE 设计:打破传统架构

    文章详细介绍了 LongCat-Flash-Lite 的”非典型 MoE”设计。这个设计让我对 MoE 架构有了新的认识。

    传统 MoE 设计

    • 专家网络:多个专家网络,每个专家负责不同的任务
    • 门控网络:选择最合适的专家处理输入
    • 参数分配:参数主要分配给专家网络

    非典型 MoE 设计

    • N-gram 嵌入层:将近一半参数(31.4B)分配给 N-gram 嵌入层
    • 专家网络:剩余参数分配给专家网络
    • 参数分配:参数主要分配给嵌入层

    这种设计的核心思想是:将更多的参数分配给嵌入层,提升模型的语言理解能力,而不是简单增加专家数量。

    这让我想到一个问题:为什么传统 MoE 将参数主要分配给专家网络?因为专家网络是 MoE 的核心,但这可能是一个思维定式。LongCat-Flash-Lite 的创新在于:打破这个思维定式,将参数分配给嵌入层。

    N-gram Embedding:语言理解的新维度

    文章重点介绍了 N-gram Embedding 的作用。这让我对语言模型的语言理解能力有了新的认识。

    N-gram Embedding 的原理

    • N-gram:连续 N 个词的序列
    • Embedding:将 N-gram 映射为向量
    • 作用:捕获语言的局部模式和语义信息

    N-gram Embedding 的优势

    • 语言理解:提升模型的语言理解能力
    • 上下文感知:更好地理解上下文信息
    • 语义捕获:捕获语言的语义信息

    这种设计的意义在于:通过增加 N-gram Embedding 的参数量,提升模型的语言理解能力,而不是简单增加模型的总参数量。

    专用缓存、内核融合及推测解码:推理效率的三重优化

    文章介绍了 LongCat-Flash-Lite 的三项推理优化技术:专用缓存、内核融合及推测解码。这三重优化让我对推理效率的提升有了新的认识。

    专用缓存

    • 原理:为常用的 N-gram 建立专用缓存
    • 优势:减少重复计算,提升推理速度
    • 效果:推理速度提升 30% 以上

    内核融合

    • 原理:将多个操作融合为一个内核,减少内存访问
    • 优势:减少内存访问次数,提升推理速度
    • 效果:推理速度提升 20% 以上

    推测解码

    • 原理:预测下一个 Token,减少实际计算量
    • 优势:减少计算量,提升推理速度
    • 效果:推理速度提升 50% 以上

    这三重优化的核心是:从多个层面优化推理效率,实现 3B 级激活参数达到 80B 级性能的效果。

    3B 级激活参数达到 80B 级性能:效率的革命

    文章指出,LongCat-Flash-Lite 实现了以 3B 级激活参数达到 80B 级性能的效果。这个成就让我对模型效率有了新的认识。

    激活参数 vs 总参数

    • 总参数:模型的所有参数,包括激活和未激活的参数
    • 激活参数:实际参与推理的参数
    • 效率:激活参数越少,推理效率越高

    3B 级激活参数达到 80B 级性能

    • 效率提升:推理效率提升 26 倍以上
    • 成本降低:推理成本降低 26 倍以上
    • 速度提升:推理速度提升 26 倍以上

    这种效率的革命,让大模型的应用变得更加可行。当推理成本降低 26 倍时,更多的应用场景变得经济可行。

    API 可达 500-700 token/s:推理速度的极致

    文章提到,LongCat-Flash-Lite 的 API 可达 500-700 token/s。这个速度让我对推理速度的极致有了新的认识。

    500-700 token/s 的意义

    • 实时交互:可以实现实时的文本生成和交互
    • 低延迟:响应延迟低于 200ms
    • 高吞吐:单机可以服务大量用户

    这个速度的意义在于:让大模型的实时应用成为可能。当推理速度达到 500-700 token/s 时,大模型可以用于实时对话、实时翻译、实时摘要等场景。

    Agent 工具调用和代码修复:实战场景的领先

    文章指出,LongCat-Flash-Lite 在 Agent 工具调用和代码修复(SWE-Bench)等实战场景中显著领先同类模型。这个成就让我对模型的实战能力有了新的认识。

    Agent 工具调用

    • 场景:AI 智能体需要调用各种工具完成任务
    • 挑战:需要准确理解工具的用途和调用方式
    • 表现:LongCat-Flash-Lite 显著领先同类模型

    代码修复(SWE-Bench)

    • 场景:AI 需要修复代码中的错误
    • 挑战:需要准确理解代码逻辑和错误原因
    • 表现:LongCat-Flash-Lite 显著领先同类模型

    这些实战场景的领先,说明 LongCat-Flash-Lite 不是简单的参数优化,而是在实战能力上的真正提升。

    生产级部署指南:从实验到生产

    文章提供了基于 Transformers 和 SGLang 的生产级部署指南。这个指南让我对模型的生产部署有了具体的认识。

    Transformers 部署

    • 优势:兼容性好,易于集成
    • 适用场景:中小规模部署
    • 挑战:推理效率相对较低

    SGLang 部署

    • 优势:推理效率高,适合大规模部署
    • 适用场景:大规模生产部署
    • 挑战:需要额外的学习成本

    这两个部署方案的意义在于:让 LongCat-Flash-Lite 可以快速从实验环境迁移到生产环境,实现真正的价值。

    Function Calling 实战示例:AI 智能体的新能力

    文章提供了 Function Calling 的实战示例。这个示例让我对 AI 智能体的新能力有了具体的认识。

    Function Calling 的原理

    • AI 智能体可以调用预定义的函数
    • 通过函数调用,AI 可以执行各种任务
    • 这是 AI 智能体从”思考者”到”行动者”的关键

    Function Calling 的意义

    • 扩展 AI 能力:让 AI 可以执行各种任务
    • 提升实用性:让 AI 可以解决实际问题
    • 增强交互性:让 AI 可以与外部系统交互

    这个实战示例的意义在于:展示了 LongCat-Flash-Lite 在 AI 智能体场景中的应用潜力。

    MIT 协议开源:真正的开源精神

    文章宣布 LongCat-Flash-Lite 采用 MIT 协议开源。这个决定让我对开源精神有了新的认识。

    MIT 协议的优势

    • 宽松:允许商业使用和修改
    • 简单:没有复杂的限制条款
    • 友好:对企业和开发者都友好

    开源的意义

    • 促进创新:让更多人可以基于 LongCat-Flash-Lite 进行创新
    • 降低门槛:让中小企业也能使用大模型技术
    • 推动发展:推动整个行业的技术进步

    这个开源决定的意义在于:体现了中国团队的开源精神,让更多人可以受益于这项技术创新。

    深度思考:技术创新需要突破思维定式

    读完这篇文章,我一直在思考一个问题:技术创新需要突破思维定式。

    第一,传统 MoE 的思维定式。传统 MoE 将参数主要分配给专家网络,这可能是思维定式。LongCat-Flash-Lite 打破了这个思维定式,将参数主要分配给嵌入层。

    第二,效率优先的思维定式。传统大模型追求更大的参数量,这可能也是思维定式。LongCat-Flash-Lite 证明了:效率比规模更重要。

    第三,开源的思维定式。很多企业不愿意开源核心技术,这可能也是思维定式。LongCat-Flash-Lite 采用 MIT 协议开源,打破了这个思维定式。

    技术创新的本质是:突破思维定式,尝试新的可能性。只有敢于挑战传统,才能实现真正的创新。

    总结:中国团队的技术创新能力

    这篇文章让我深刻认识到,中国团队的技术创新能力已经达到世界领先水平。

    作为从业者,我们需要:

    • 学习 LongCat-Flash-Lite 的创新思路:突破思维定式,尝试新的架构设计
    • 重视模型效率:效率比规模更重要,追求更高的推理效率
    • 关注实战场景:模型的最终价值在于解决实际问题
    • 拥抱开源精神:开源可以促进创新,推动整个行业的发展

    LongCat-Flash-Lite 的成功,标志着中国团队在 MoE 架构上的创新能力已经达到世界领先水平。这不是终点,而是新的起点。未来,中国团队将在更多领域实现技术创新,为 AI 的发展贡献中国智慧。


    来源美团开源 LongCat-Flash-Lite:实现轻量化 MoE 高效推理

  • 沙箱技术:AI 安全的最后一道防线

    智能体连接沙箱的两种模式

    引言:当 AI 需要隔离的”工作区”

    读完这篇关于 AI 智能体沙箱技术的深度探讨,我感受到一种前所未有的清醒。文章的核心观点令人深思:AI 智能体需要隔离”工作区”(沙箱)以安全执行代码而不损害宿主系统。

    这不是简单的技术问题,而是 AI 安全的根本性挑战。当 AI 能够执行代码时,如何确保它不会造成破坏,成为我们必须面对的问题。

    智能体执行代码的风险:为什么需要沙箱?

    文章首先探讨了 AI 智能体需要隔离”工作区”的迫切需求。这让我思考一个问题:为什么 AI 智能体需要沙箱?

    执行代码的风险

    • 恶意代码:AI 可能生成恶意代码,破坏宿主系统
    • 资源滥用:AI 可能滥用系统资源,导致系统崩溃
    • 数据泄露:AI 可能访问敏感数据,导致数据泄露
    • 权限提升:AI 可能尝试提升权限,获得更多控制权

    这些风险不是理论上的,而是实际存在的。当 AI 能够执行代码时,它就像一个不受控制的程序,可能造成严重的破坏。

    沙箱的意义在于:为 AI 提供一个隔离的执行环境,限制其权限,防止其造成破坏。

    模式 1:智能体在沙箱内

    文章正式提出了两种主要的集成模式,第一种是”智能体在沙箱内”。

    模式 1 的架构

    • 智能体驻留在沙箱内部
    • 沙箱提供隔离的执行环境
    • 智能体在沙箱内执行代码

    模式 1 的优势

    • 开发体验好:类似于本地环境的开发体验
    • 性能高:智能体直接在沙箱内执行,无需网络通信
    • 延迟低:没有网络延迟,响应速度快

    模式 1 的风险

    • API Key 泄露:智能体可能泄露 API Key
    • 知识产权外泄:智能体可能将敏感代码发送到外部
    • 数据泄露:智能体可能访问沙箱外的数据

    这种模式的核心问题在于:智能体在沙箱内,但沙箱不是完全隔离的。智能体可能通过 API 调用、网络通信等方式,泄露敏感信息。

    模式 2:沙箱作为工具

    第二种模式是”沙箱作为工具”。

    模式 2 的架构

    • 智能体在外部运行
    • 沙箱作为工具,通过 API 调用
    • 智能体通过 API 调用沙箱执行代码

    模式 2 的优势

    • 更快的迭代:智能体在外部,可以快速迭代
    • 更好的凭据安全性:API Key 存储在外部,不泄露给智能体
    • 推理与执行的清晰分离:智能体负责推理,沙箱负责执行

    模式 2 的挑战

    • 开发体验差:需要通过 API 调用,开发体验不如本地环境
    • 性能较低:需要网络通信,性能较低
    • 延迟较高:有网络延迟,响应速度较慢

    这种模式的核心优势在于:推理与执行的清晰分离。智能体在外部,不直接执行代码,降低了安全风险。

    两种模式的对比:如何选择?

    文章对比了两种模式,让我对如何选择有了清晰的认识。

    选择模式 1 的场景

    • 需要本地开发体验
    • 对性能要求高
    • 对延迟敏感
    • 可以接受一定的安全风险

    选择模式 2 的场景

    • 需要更高的安全性
    • 需要更快的迭代速度
    • 需要清晰的推理与执行分离
    • 可以接受一定的性能损失

    这两种模式没有绝对的优劣,关键在于根据具体需求选择合适的模式。

    耦合度、安全性和速度:三个核心权衡

    文章指出,选择合适的架构需要考虑对耦合度、安全性和速度的具体需求。这三个因素是相互制约的。

    耦合度

    • 模式 1:智能体在沙箱内,耦合度高
    • 模式 2:智能体在外部,耦合度低

    安全性

    • 模式 1:智能体在沙箱内,安全性较低
    • 模式 2:智能体在外部,安全性较高

    速度

    • 模式 1:智能体直接执行,速度快
    • 模式 2:需要网络通信,速度慢

    这三个因素的权衡,是选择架构的核心。没有完美的架构,只有最适合的架构。

    deepagents 框架:实际实现示例

    文章最后给出了使用 deepagents 框架的实际实现示例。这个示例让我对如何实现沙箱技术有了具体的认识。

    deepagents 框架的核心功能

    • 沙箱管理:自动创建和管理沙箱
    • API 封装:提供简洁的 API 调用接口
    • 安全隔离:确保沙箱与宿主系统的隔离
    • 资源限制:限制沙箱的资源使用

    这个框架的意义在于:降低了沙箱技术的实现难度,让开发者可以快速集成沙箱功能。

    深度思考:沙箱技术的本质是什么?

    读完这篇文章,我一直在思考一个问题:沙箱技术的本质是什么?

    第一,不是简单的隔离。沙箱技术不仅仅是隔离执行环境,更是对 AI 能力的限制和约束。

    第二,不是完全的安全。沙箱技术可以提高安全性,但无法保证绝对安全。AI 仍然可能通过其他方式造成破坏。

    第三,不是一劳永逸的解决方案。沙箱技术需要持续维护和更新,才能应对新的安全威胁。

    沙箱技术的本质是:在 AI 的能力和安全性之间找到平衡。既让 AI 能够执行代码,又限制其权限,防止其造成破坏。

    实践启示:如何构建安全的 AI 智能体?

    作为从业者,我们需要思考如何构建安全的 AI 智能体。

    第一,使用沙箱技术。为 AI 智能体提供隔离的执行环境,限制其权限。

    第二,选择合适的架构。根据具体需求,选择”智能体在沙箱内”或”沙箱作为工具”架构。

    第三,实施多层防护。除了沙箱,还需要实施代码审查、安全扫描、权限控制等多层防护。

    第四,持续监控和审计。监控 AI 智能体的行为,审计其执行记录,及时发现异常。

    第五,建立应急响应机制。当 AI 智能体出现异常时,能够快速响应,限制其影响。

    这些措施不能保证绝对安全,但可以大大降低安全风险。

    总结:沙箱技术是 AI 安全的最后一道防线

    这篇文章让我深刻认识到,沙箱技术是 AI 安全的最后一道防线。当 AI 能够执行代码时,沙箱技术是防止其造成破坏的关键。

    作为从业者,我们需要:

    • 理解沙箱技术的必要性:认识到 AI 执行代码的风险,理解沙箱技术的重要性
    • 选择合适的架构:根据具体需求,选择”智能体在沙箱内”或”沙箱作为工具”架构
    • 权衡耦合度、安全性和速度:在三个因素之间找到平衡,选择最适合的架构
    • 使用成熟的框架:使用 deepagents 等成熟框架,降低实现难度
    • 实施多层防护:除了沙箱,还需要实施其他安全措施,构建多层防护体系

    沙箱技术不是万能的,但它是 AI 安全的基础。只有建立了安全的沙箱环境,才能让 AI 智能体安全地执行代码,发挥其价值。


    来源智能体连接沙箱的两种模式

  • 从个人提效到组织跃迁:AI 转型的正确姿势

    3 年、1 万人,快手技术团队首次系统披露 AI 研发范式升级历程

    引言:破解”提效陷阱”的智慧

    读完这篇快手技术团队对其三年 AI 研发范式演进的深度总结,我感受到一种前所未有的震撼。文章指出,企业在引入 AI 时普遍面临”提效陷阱”:即个人编码效率的提升往往无法转化为组织整体交付能力的增长。

    这不是简单的技术问题,而是组织转型的系统性挑战。快手用 3 年、1 万人的实践,为我们揭示了 AI 转型的正确姿势。

    提效陷阱:个人效率 vs 组织效能

    文章指出的”提效陷阱”让我深思。为什么个人编码效率的提升,无法转化为组织整体交付能力的增长?

    个人效率提升

    • 开发者使用 AI 工具,编码速度提升
    • 个人产出增加,完成任务更快
    • 表面看,组织效能应该提升

    组织效能停滞

    • 整体交付能力没有显著提升
    • 项目周期没有明显缩短
    • 产品迭代速度没有加快

    这种反差的核心原因在于:AI 提升的是个人效率,但组织效能取决于多个因素,包括协作效率、流程效率、决策效率等。只提升个人效率,不优化组织流程,无法实现组织效能的整体提升。

    平台化:AI 转型的第一阶段

    快手经历了从平台化到智能化的跃迁。平台化是 AI 转型的第一阶段。

    平台化的核心

    • 统一开发环境:为开发者提供统一的开发环境和工具链
    • 标准化流程:建立标准化的开发流程和规范
    • 集中管理:集中管理开发资源,提升资源利用率

    平台化的意义在于:为 AI 的引入奠定基础。没有统一的平台,AI 工具难以集成,效果难以评估。

    这让我想到一个类比:基础设施建设。在引入新技术之前,需要先建设基础设施。平台化就是 AI 转型的基础设施建设。

    智能化 1.0:聚焦个人工具

    智能化 1.0 阶段,快手聚焦个人工具的智能化。

    个人工具智能化

    • AI 代码补全:帮助开发者快速生成代码
    • AI 代码审查:自动检查代码质量
    • AI 测试生成:自动生成测试用例

    这些工具确实提升了个人编码效率,但无法解决组织效能的问题。因为组织效能的提升,需要的是端到端的流程优化,而不仅仅是个人工具的智能化。

    智能化 2.0:聚焦组织协同

    智能化 2.0 阶段,快手聚焦组织协同的智能化。这是破解”提效陷阱”的关键。

    组织协同智能化

    • 智能工作流平台(Flow):支持 AI 上下文传递的智能工作流平台
    • AI 代码生成率度量体系:建立严格的 AI 代码生成率度量体系
    • 研发成熟度模型:定义从 L1 辅助到 L3 自主的研发成熟度模型

    这些举措的核心是:将 AI 深度嵌入端到端的需求交付流程,重塑人机协作模式。

    智能工作流平台(Flow):AI 上下文传递的关键

    文章详细介绍了智能工作流平台(Flow),这是快手 AI 转型的核心创新。

    Flow 的核心功能

    • 支持 AI 上下文传递:在不同环节之间传递 AI 的上下文信息
    • 智能任务分配:根据任务特点,自动分配给最合适的人或 AI
    • 自动化流程:自动化重复性工作,提升流程效率

    Flow 的意义在于:解决了 AI 工具的”孤岛”问题。传统 AI 工具各自为战,无法共享上下文,导致效率低下。Flow 通过上下文传递,让 AI 工具协同工作,实现端到端的智能化。

    AI 代码生成率度量体系:量化 AI 的价值

    文章提到,快手建立了严格的 AI 代码生成率度量体系。这个体系让我对 AI 的价值评估有了新的认识。

    度量体系的核心指标

    • AI 代码生成率:AI 生成的代码占总代码的比例
    • AI 代码质量:AI 生成代码的质量指标
    • AI 代码采纳率:AI 生成代码被采纳的比例
    • AI 代码修复率:AI 生成代码需要修复的比例

    这些指标的意义在于:量化 AI 的价值,为决策提供数据支持。没有度量,就无法评估 AI 的效果,也无法持续优化。

    研发成熟度模型:从 L1 辅助到 L3 自主

    文章介绍了快手定义的研发成熟度模型,从 L1 辅助到 L3 自主。这个模型让我对 AI 的应用阶段有了清晰的认识。

    L1 辅助

    • AI 作为辅助工具,帮助开发者完成任务
    • 开发者主导,AI 辅助
    • 适合简单任务

    L2 协作

    • AI 与开发者协作完成任务
    • 开发者与 AI 平等协作
    • 适合中等复杂度任务

    L3 自主

    • AI 自主完成任务,开发者审核
    • AI 主导,开发者审核
    • 适合复杂任务

    这个模型的意义在于:为 AI 的应用提供了清晰的路径。从辅助到协作到自主,逐步提升 AI 的能力,降低风险。

    端到端的需求交付流程:AI 转型的核心

    文章的核心观点是:只有将 AI 深度嵌入端到端的需求交付流程,并重塑人机协作模式,才能实现组织级的效能突破。

    端到端的需求交付流程

    • 需求分析:AI 辅助需求理解和分析
    • 设计:AI 辅助架构设计和方案设计
    • 编码:AI 辅助代码生成和代码审查
    • 测试:AI 辅助测试用例生成和测试执行
    • 部署:AI 辅助部署和运维

    这个流程的核心是:AI 渗透到开发的每个环节,实现端到端的智能化。只有这样,才能实现组织效能的整体提升。

    重塑人机协作模式:从”人+AI”到”AI+人”

    文章提到,重塑人机协作模式是 AI 转型的关键。这让我对未来的协作模式有了新的想象。

    传统模式(人+AI)

    • 人类主导,AI 辅助
    • AI 是工具,人类是使用者
    • 适合简单任务

    新模式(AI+人)

    • AI 主导,人类审核
    • AI 是执行者,人类是决策者
    • 适合复杂任务

    这种转变的意义在于:充分发挥 AI 的能力,让 AI 承担大部分执行工作,人类专注于更高层次的思考和决策。

    深度思考:AI 转型的核心是什么?

    读完这篇文章,我一直在思考一个问题:AI 转型的核心是什么?

    第一,不是工具。AI 工具只是手段,不是目的。AI 转型的核心是组织效能的提升。

    第二,不是技术。AI 技术只是基础,不是关键。AI 转型的核心是流程的优化和协作模式的重塑。

    第三,不是个人。个人效率的提升只是开始,不是终点。AI 转型的核心是组织效能的整体提升。

    AI 转型的核心是:将 AI 深度嵌入端到端的需求交付流程,重塑人机协作模式,实现组织级的效能突破。

    实践启示:如何实现 AI 转型?

    作为从业者,我们需要思考如何实现 AI 转型。

    第一,建设平台。建设统一的开发平台,为 AI 的引入奠定基础。

    第二,度量价值。建立 AI 价值度量体系,量化 AI 的贡献。

    第三,优化流程。将 AI 深度嵌入端到端的需求交付流程,实现流程智能化。

    第四,重塑协作。重塑人机协作模式,从”人+AI”到”AI+人”。

    第五,持续迭代。持续优化 AI 工具和流程,不断提升组织效能。

    这些方法不是一蹴而就的,需要长期投入和持续优化。但只有这样,才能实现真正的 AI 转型。

    总结:AI 转型是组织变革,不是技术升级

    这篇文章让我深刻认识到,AI 转型是组织变革,不是技术升级。个人效率的提升只是开始,组织效能的整体提升才是目标。

    作为从业者,我们需要:

    • 理解”提效陷阱”:认识到个人效率提升不等于组织效能提升
    • 聚焦组织协同:将 AI 深度嵌入端到端的需求交付流程
    • 重塑协作模式:从”人+AI”到”AI+人”,充分发挥 AI 的能力
    • 建立度量体系:量化 AI 的价值,为决策提供数据支持
    • 持续迭代优化:持续优化 AI 工具和流程,不断提升组织效能

    AI 转型不是一蹴而就的,需要长期投入和持续优化。但只有这样,才能实现真正的组织级效能突破。


    来源3 年、1 万人,快手技术团队首次系统披露 AI 研发范式升级历程

  • 智能体的可靠性困境:偏差与方差的博弈

    懂了很多道理,AI 依然要发疯|Hao 好聊论文

    引言:当 AI 在长程任务中失控

    读完这篇关于 Anthropic 论文《The Hot Mess of AI》的深度解读,我感受到一种前所未有的清醒。文章聚焦于 AI Agent 在处理长程任务时的不可靠性,通过引入统计学中的”偏差-方差分解”工具,揭示了 AI 错误的本质。

    这不是简单的技术问题,而是 AI 模型的根本性缺陷。当 AI 在长程任务中”发疯”时,我们需要深入理解其背后的原因。

    偏差与方差:理解 AI 错误的两个维度

    文章引入了统计学中的”偏差-方差分解”工具,将 AI 的错误分为”偏差”(笨)和”方差”(疯)。这个分类让我对 AI 错误有了更清晰的认识。

    偏差(Bias)

    • 定义:模型对数据的系统性偏离
    • 表现:AI 在某些任务上持续表现不佳,像是”笨”
    • 原因:模型训练不足、数据质量差、模型容量不够
    • 解决方法:增加训练数据、改进模型架构、调整超参数

    方差(Variance)

    • 定义:模型对训练数据的过度敏感
    • 表现:AI 在同一任务上表现不稳定,像是”疯”
    • 原因:模型过拟合、训练数据不足、模型过于复杂
    • 解决方法:增加训练数据、简化模型、使用正则化

    这个分类的意义在于:AI 错误不是单一原因,而是偏差和方差的共同作用。只有理解了这一点,才能找到有效的解决方法。

    推理链条增长与方差的不连贯性

    实验证明,随着推理链条增长,由方差导致的不连贯性直线上升。这个发现让我对 AI 的长程推理能力有了新的认识。

    短程推理

    • 推理链条短,方差影响小
    • AI 表现稳定,逻辑连贯
    • 适合简单任务

    长程推理

    • 推理链条长,方差影响大
    • AI 表现不稳定,逻辑不连贯
    • 适合复杂任务,但风险高

    这让我想到一个类比:人类的注意力。人类在短时间内的注意力集中,长时间后会分散。AI 也是如此,长程推理会导致”注意力分散”,表现为逻辑不连贯。

    大模型的悖论:偏差更低,方差更难压制

    文章指出,大模型在难题上虽然偏差更低,但方差却更难压制。这个悖论让我对大模型的能力边界有了新的认识。

    小模型

    • 偏差高:在难题上表现不佳
    • 方差低:表现相对稳定
    • 适合简单任务

    大模型

    • 偏差低:在难题上表现更好
    • 方差高:表现不稳定
    • 适合复杂任务,但需要控制方差

    这个悖论的意义在于:大模型不是万能的,它在提升能力的同时,也带来了新的问题。如何平衡偏差和方差,是 AI 研究的核心挑战。

    自回归模型 vs 优化器:本质冲突

    文章从数学角度指出,自回归模型本质上是动力系统,而 Agent 需要的是优化器,两者存在天然冲突。这个观点让我对 AI 模型的本质有了新的认识。

    自回归模型

    • 本质:动力系统,根据前一个状态预测下一个状态
    • 特点:局部最优,缺乏全局优化能力
    • 适合:生成任务,如文本生成、图像生成

    优化器

    • 本质:优化系统,寻找全局最优解
    • 特点:全局最优,具备优化能力
    • 适合:决策任务,如任务规划、资源分配

    这种冲突的意义在于:当前的大模型本质上是生成模型,不是决策模型。而 Agent 需要的是决策能力,这是自回归模型的天然缺陷。

    潜在的解决路径:集成学习、系统 2 思考、LCM

    文章最后探讨了集成学习、系统 2 思考及超越 Token 的新范式(如 LCM)等潜在的解决路径。这些路径让我对 AI 的未来有了新的想象。

    集成学习

    • 原理:通过组合多个模型,降低方差
    • 优势:提升稳定性,减少错误
    • 挑战:计算成本高,实现复杂

    系统 2 思考

    • 原理:模仿人类的慢思考,进行深度推理
    • 优势:提升逻辑性,减少错误
    • 挑战:计算成本高,响应慢

    LCM(Latent Consistency Models)

    • 原理:超越 Token 的新范式,提升一致性
    • 优势:降低方差,提升稳定性
    • 挑战:技术不成熟,需要验证

    这些路径各有优劣,但都指向一个共同目标:降低方差,提升 AI 的可靠性。

    深度思考:AI 可靠性的根本挑战是什么?

    读完这篇文章,我一直在思考一个问题:AI 可靠性的根本挑战是什么?

    第一,模型本质的冲突。自回归模型是生成模型,Agent 需要决策能力,两者存在天然冲突。

    第二,偏差与方差的权衡。降低偏差往往增加方差,降低方差往往增加偏差,两者难以兼顾。

    第三,长程推理的复杂性。随着推理链条增长,方差影响增大,AI 表现越来越不稳定。

    第四,数据与模型的限制。训练数据的质量和数量、模型的容量和架构,都限制了 AI 的可靠性。

    这些挑战不是简单的技术问题,而是 AI 模型的根本性缺陷。解决这些问题,需要从模型架构、训练方法、推理策略等多个层面进行创新。

    实践启示:如何应对 AI 的不可靠性?

    作为从业者,我们需要思考如何应对 AI 的不可靠性。

    第一,任务分解。将长程任务分解为多个短程任务,降低方差的影响。

    第二,结果验证。对 AI 的输出进行验证,及时发现和纠正错误。

    第三,多模型协作。使用多个模型,通过集成学习降低方差。

    第四,人工监督。在关键节点引入人工监督,确保 AI 的输出符合预期。

    第五,持续优化。通过反馈学习,持续优化 AI 的性能。

    这些方法不能完全解决 AI 的不可靠性问题,但可以在一定程度上缓解其影响。

    总结:AI 可靠性是长期挑战

    这篇文章让我深刻认识到,AI 的可靠性是一个长期挑战。偏差与方差的博弈,自回归模型与优化器的冲突,这些根本性问题不是短期内能够解决的。

    作为从业者,我们需要:

    • 理解 AI 的局限性:认识到 AI 不是万能的,存在可靠性问题
    • 采取应对措施:通过任务分解、结果验证、多模型协作等方法,应对 AI 的不可靠性
    • 持续学习新技术:关注集成学习、系统 2 思考、LCM 等新技术,探索解决路径
    • 保持理性期待:不神话 AI 的能力,也不否定 AI 的价值

    AI 的可靠性问题不会阻止 AI 的发展,但会影响 AI 的应用方式。只有理性看待 AI 的能力与局限,才能更好地利用 AI 服务人类。


    来源懂了很多道理,AI 依然要发疯|Hao 好聊论文

  • 软件工程的第三次黄金时代

    UML 之父:Dario 大错特错,根本不懂软件工程!软件工程不会死亡!软件已经迎来第三次黄金时代!业界回应:有了 AI,SaaS 只会更加繁荣!

    引言:当大师为软件工程正名

    读完这篇关于 UML 之父 Grady Booch 对 Anthropic CEO Dario 言论的有力反击,我感受到一种前所未有的振奋。文章的核心观点令人深思:软件工程的核心在于复杂系统中的权衡与取舍,而非单纯的代码编写。

    这不是简单的观点之争,而是对软件工程本质的深刻洞察。Grady Booch 用他几十年的经验告诉我们:软件工程不会死亡,而是迎来了第三次黄金时代。

    Dario 的”软件工程将死”论

    文章提到,Anthropic CEO Dario 曾发表”软件工程将死”的言论。这个观点在 AI 时代并不罕见,很多人认为 AI 会取代程序员,软件工程将不再重要。

    支持者的理由

    • AI 可以自动生成代码,程序员不再需要手写代码
    • AI 可以自动测试代码,测试工程师不再需要手动测试
    • AI 可以自动优化代码,性能工程师不再需要手动优化

    这些理由看似合理,但忽略了一个关键问题:软件工程的核心是什么?

    Grady Booch 的有力反击

    Grady Booch 对 Dario 的言论进行了有力反击。他认为,软件工程的核心在于复杂系统中的权衡与取舍,而非单纯的代码编写。

    软件工程的核心

    • 需求分析:理解用户需求,定义系统功能
    • 架构设计:设计系统架构,确保系统可扩展、可维护
    • 权衡取舍:在性能、成本、时间等因素之间做出权衡
    • 风险管理:识别和管理项目风险,确保项目成功

    这些核心工作,AI 可以辅助,但无法替代。因为它们需要人类的判断力、创造力和系统思维。

    软件工程的三个黄金时代

    Grady Booch 通过回顾软件工程与 AI 的三个黄金时代,阐明了技术演进始终伴随着抽象层级的提升。

    第一个黄金时代(1960s-1980s)

    • 核心技术:操作系统、数据库、编程语言
    • 抽象层级:从机器语言到高级语言
    • 特点:从底层硬件到软件系统的抽象

    第二个黄金时代(1990s-2010s)

    • 核心技术:互联网、云计算、移动应用
    • 抽象层级:从单机系统到分布式系统
    • 特点:从本地计算到云端计算的抽象

    第三个黄金时代(2020s-)

    • 核心技术:AI、机器学习、自动化
    • 抽象层级:从代码到意图的抽象
    • 特点:从手动编码到 AI 辅助编码的抽象

    每个黄金时代,软件工程都面临新的挑战,也迎来了新的机遇。AI 时代不是软件工程的终结,而是新的开始。

    代码的分化:一次性自动化代码与长期存在的系统

    Grady Booch 预测未来代码将分化为”一次性自动化代码”与”长期存在的系统”。这个预测让我对代码的本质有了新的认识。

    一次性自动化代码

    • 特点:由 AI 自动生成,用于特定任务,用完即弃
    • 例子:脚本、原型、测试代码
    • 价值:快速验证想法,提升开发效率

    长期存在的系统

    • 特点:由人类精心设计,长期维护和演进
    • 例子:核心业务系统、基础设施、平台
    • 价值:支撑业务发展,积累技术资产

    这种分化的意义在于:AI 不是要取代所有代码,而是要取代那些不需要长期维护的代码。人类开发者可以专注于长期存在的系统,这些系统需要精心设计、持续优化。

    提升在规模化条件下管理复杂性的能力

    Grady Booch 建议开发者通过研习系统理论、生物学和神经科学,提升在规模化条件下管理复杂性的能力。这个建议让我深受启发。

    系统理论

    • 核心思想:将系统作为一个整体来研究,关注系统各部分之间的相互作用
    • 应用价值:帮助开发者理解复杂系统的行为,设计更好的系统架构

    生物学

    • 核心思想:研究生命系统的演化、适应、协作等机制
    • 应用价值:帮助开发者设计具有自适应、自修复能力的系统

    神经科学

    • 核心思想:研究神经系统的结构、功能、学习机制
    • 应用价值:帮助开发者设计具有学习能力、推理能力的 AI 系统

    这三个学科的核心都是”复杂性”,这正是软件工程面临的最大挑战。通过研习这些学科,开发者可以提升管理复杂性的能力。

    在 AI 时代实现职业升维

    Grady Booch 的最终建议是:在 AI 时代实现职业升维。这个建议让我对职业发展有了新的思考。

    职业升维的路径

    • 从编码者到架构师:从关注代码实现到关注系统设计
    • 从执行者到决策者:从关注具体任务到关注战略决策
    • 从技术专家到业务专家:从关注技术实现到关注业务价值
    • 从个体贡献者到团队领导者:从关注个人产出到关注团队效能

    这种升维不是简单的职位提升,而是思维模式的根本性转变。在 AI 时代,只有实现职业升维,才能保持竞争力。

    深度思考:软件工程的核心是什么?

    读完这篇文章,我一直在思考一个问题:软件工程的核心是什么?

    第一,不是代码。代码只是软件工程的产物,不是核心。软件工程的核心是解决问题。

    第二,不是工具。工具只是软件工程的手段,不是核心。软件工程的核心是方法论。

    第三,不是技术。技术只是软件工程的基础,不是核心。软件工程的核心是权衡取舍。

    软件工程的核心是:在复杂系统中,通过权衡取舍,找到最优解。这需要人类的判断力、创造力和系统思维,AI 可以辅助,但无法替代。

    业界回应:有了 AI,SaaS 只会更加繁荣

    文章提到,业界对”软件工程将死”的回应是:有了 AI,SaaS 只会更加繁荣。这个回应让我深有同感。

    AI 对 SaaS 的影响

    • 降低开发成本:AI 可以自动生成代码,降低开发成本
    • 提升开发效率:AI 可以辅助开发,提升开发效率
    • 扩展应用场景:AI 可以实现传统方式无法实现的功能
    • 创造新的商业模式:AI 可以催生新的商业模式

    这些影响不是要取代 SaaS,而是要让 SaaS 更加繁荣。因为 AI 降低了开发门槛,让更多人可以参与软件开发,这将催生更多的 SaaS 应用。

    总结:软件工程的第三次黄金时代已经到来

    这篇文章让我深刻认识到,软件工程不会死亡,而是迎来了第三次黄金时代。

    作为从业者,我们需要:

    • 理解软件工程的核心:认识到软件工程的核心是权衡取舍,不是代码编写
    • 拥抱 AI 工具:将 AI 作为辅助工具,提升开发效率
    • 提升系统能力:通过研习系统理论、生物学、神经科学,提升管理复杂性的能力
    • 实现职业升维:从编码者到架构师,从执行者到决策者,在 AI 时代保持竞争力

    软件工程的第三次黄金时代已经到来,那些能够快速适应变化、实现职业升维的人,将迎来前所未有的机遇。


    来源UML 之父:Dario 大错特错,根本不懂软件工程!软件工程不会死亡!软件已经迎来第三次黄金时代!业界回应:有了 AI,SaaS 只会更加繁荣!

Copyright © 2026 xyxbot.com 版权所有 备案号: 皖ICP备17009534号-10 | XYXBOT提供智能AI助手、自动化工具、效率提升解决方案,专注简单好用的AI服务,助力个人与企业快速实现效率升级。(个人非经营性站点,仅内容展示,无用户注册/互动功能)
本站所有内容均为个人整理分享,不构成任何建议,请勿用于商业用途