Anthropic总结智能体年度教训:最胜利的≠最繁杂
发布时间:2025-01-02 08:36
呆板之心编译编纂:佳琪、张倩高真个食材,每每须要最朴实的烹调方法。AI 开展到后半场「年夜雾散去」,怎样让年夜模子的智力落实成履行力,智能体仿佛成了业界的独特谜底。从元宝到混元,各种智能体平台如雨后春笋般出现。上个月,智谱宣布 AutoGLM 的宣布会上,智能体似乎冲破了次元壁,一句指令,就拿动手机在现场发了一个总计两万块钱的红包。咱们正在见证一个主要的转机点:智能体正在将 AI 的才能从「伶牙俐齿」改变为「能做会干」。作为最强盛模子厂商的无力竞争者,Anthropic 推出的智能体功效也实在冷艳了咱们一把。Computer Use 乃至曾经能够做到跟 Claude 说一声想做一个 90 年月作风的团体网站,剩下的只要要坐在屏幕前看网页本人做本人就好了。在从前一年中,Anthropic 与数十个行业团队配合,对年夜模子智能体停止了体系研讨。但他们发明,那些表示最杰出的 AI 智能体,并非树立在宏大庞杂的框架或专业库之上,而是采取了简略、可组合的形式。Anthropic 将一年的实际教训总结成了这篇博客,呆板之心在不转变原意的基本长进行了编译。原文链接:https://www.anthropic.com/research/building-effective-agents什么是智能体?「智能体」有多种界说。有人眼中的智能体是一个「万能管家」,可能自力思考、自立决议,机动应用种种东西来实现庞杂义务;也有人把它懂得为一个「规则员工」,循序渐进地履行预设的任务流。Anthropic 将两者统称为智能体系,但对任务流跟智能体做出了辨别:任务流是经由过程预约代码门路编排 LLM 跟东西的体系智能体则是由 LLM 静态领导本身流程跟东西应用的体系,能自立把持义务的实现方法什么时间该用智能体?在开辟 AI 利用时,Anthropic 的研讨团队给出了一个倡议:能简略就不要庞杂。偶然候,基本不须要制作一个智能体系 —— 由于智能体系固然功效强盛,但每每会让呼应变慢,本钱也会更高。开辟者须要衡量这种弃取。当确切须要更庞杂的体系时,任务流合适须要可猜测跟分歧性的明白义务,而智能体则更合适须要机动性跟模子驱动决议的年夜范围场景。不外对良多利用来说,共同检索跟高低文示例,拿着一个好的 prompt 去问年夜模子平日就充足了。何时应用框架以及怎样应用现在,有多个能够辅助开辟者更轻易地搭建 AI 智能体的框架,包含:LangChain 的 LangGraph亚马逊 Bedrock 的 AI Agent 框架拖放式的年夜模子任务流构建东西 Rivet用于构建跟测试庞杂任务流的 GUI 东西 Vellum这些框架确切简化了 AI 开辟流程。但要留神的是,它们会在代码中增添额定的形象层,这不只让底层的运转逻辑变得不敷通明,也增添了调试的难度。并且,开辟者可能会在一些简略的场景中,不自发地引入适度庞杂的处理计划。Anthropic 倡议开辟者从直接应用年夜模子的 API 开端:很多形式只要多少行代码就能实现。假如抉择应用框架,必定要懂得其底层道理。教训标明,对框架底层机制的懂得缺乏,每每是招致开辟成绩的重要起因。详细示例请参考 Anthropic 的 cookbook。手册链接:https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents构建模块、任务流跟智能体基本构建模块:加强版 LLM智能体系的基础构建模块是加持检索、影象等功效,加强过的 LLM。现在,Anthropic 的模子能够自动应用这些才能 —— 天生本人的搜寻查问、抉择适合的东西,并决议保存哪些信息。Anthropic 倡议做这些拓展功效的进程中各人能够重点存眷两点:依据详细的利用场景来定制功效确保为模子供给简略且文档齐备的接口除此之外,Anthropic 近来宣布的模子高低文协定供给了一种新的实现方法。这个协定闪开发者能够经由过程简练的客户端代码,轻松地将 AI 模子与连续扩大的第三方东西生态体系停止集成。任务流:提醒链提醒链是一种将庞杂义务拆解为多个步调的方式,每个步调代表挪用一次年夜模子,后一步将基于前一步的成果持续处置。开辟者能够在恣意旁边环节参加顺序化的检讨点(比方图中的「gate」),以确保流程按预期推动。提醒链任务流。什么时间更合适用提醒链任务流呢?当一个庞杂义务可能被清楚地拆分红一系列牢固的子义务时,提醒链就是最佳抉择。这种方式让每个模子只要专一实现一个简略义务,固然团体呼应时光可能会略长,但正确率会失掉明显晋升。典范利用案例:老师成营销案牍,再将其翻译成其余言语先写文档纲要并停止合规性检讨,再基于纲要撰写完全文档任务流:智能分流分流技巧可能断定输入义务的范例,并将其调配给响应的专门模块。这种计划让每个模块都能针对特定义务停止优化,防止了差别范例义务之间的彼此烦扰。假如不采取这种散发机制,仅晋升针对某类成绩的后果,每每会影响到其余范例成绩的处置品质。什么时间合适用这种方式呢?当义务有显明的分类特点时,就很比拟合适。AI 体系能够经由过程年夜言语模子或传统算法,正确辨认义务范例并做出分流。典范利用案例:在客服体系中,能够将个别征询、退款请求、技巧支撑等差别范例的成绩,分辨领导到响应的处置流程。将简略 / 罕见成绩调配到 Claude 3.5 Haiku 等较小模子,将艰苦 / 常见成绩调配到 Claude 3.5 Sonnet 等更强盛的模子,以优化本钱跟速率。任务流:并行年夜言语模子能够同时处置义务,并以编程方法聚合输出。这种并行化的任务流重要有两个特色:义务分段:将义务拆分为可并交运行的自力子义务,每个子义务能够同时停止处置,最后再整合成果。投票机制:对统一义务停止屡次运转,取得多个差别版本的输出,从而抉择最优成果或综合多个谜底。当子义务能够并行履行以进步速率,或须要多角度实验以取得更高相信度的成果时,并行化的方式十分无效。对波及多个要素的庞杂义务,让每次挪用专一处置特定方面,会取得更好的后果。典范利用案例:义务分段:保险防护:一个模子担任处置用户恳求,另一个专门担任内容考核,这比单个模子同时处置两项义务后果更好。机能评价:让差别的模子分辨评价体系的各特性能指标,实现片面的主动化评价。投票机制:代码保险检讨:同时运转多个检测模子,独特发明跟标志潜伏的代码破绽。内容考核:经由过程多个模子从差别角度评价内容保险性,经由过程调剂投票阈值来均衡误判率。任务流:引导 — 履行者在这种任务流中,一其中央年夜言语模子会静态剖析义务,分配给履行者模子,并汇总终极成果。引导 — 履行者任务流。这种任务流最合适那些难以提前断定详细步调的庞杂义务。比方在编程中,一个功效需要可能波及多个文件的修正,而详细要改哪些文件、怎样修正,每每要依据现实情形来决议。固然这种方法看起来跟并行义务很像,但这种任务流更机动 —— 义务的拆分不是牢固的,而是由 AI 体系依据详细情形静态决议的。典范利用案例:须要对多个文件停止庞杂修正的编程利用。须要从多个起源网络跟剖析相干信息的搜寻义务。任务流:评价 — 优化在评价 — 优化任务流中,一个 LLM 挪用天生呼应,而另一个供给评价跟反应,构成轮回。评价 - 优化任务流。何时应用这个任务流:当存在明白的评价尺度,而且经由过程迭代细化能够带来明显代价时,这个任务流特殊无效。有两个明显特色:起首,当人类明白表白他们的反应时,LLM 的呼应能够显明改良;其次,LLM 可能供给如许的反应。这相似于人类作家在创作一篇经心打磨的文档时所阅历的重复修正的写作进程。典范利用案例:文学翻译:翻译模子可能在第一次翻译时漏掉一些轻微的言语差别,而评价模子可能发明这些成绩并供给有代价的修正倡议。庞杂搜寻:某些信息网络义务须要多轮搜寻跟剖析才干取得片面的成果,评价模子能够断定能否须要持续深刻搜寻。智能体智能体在出产中跟着 LLM 在要害才能上的成熟而呈现,这些才能包含懂得庞杂输入、停止推理跟计划、牢靠地应用东西以及从过错中规复。智能体的任务始于人类用户的下令,或与人类用户的互动探讨。一旦义务明白,智能体就会自力计划跟操纵,半途可能须要向人类索取更多信息或让人类做断定。在履行进程的每一步,从情况中取得「实在情形」(比方东西挪用成果或代码履行)以评价其进度至关主要。而后,智能体能够在检讨点或碰到梗阻时停息以获取人类反应。义务平日在实现后停止,但也平日包括结束前提(比方最年夜迭代次数)以坚持把持。智能体可能处置庞杂的义务,但实在现平日很简略。它们平日只是轮回中依据情况反应来应用东西的年夜型言语模子。因而,计划东西集及其文档清楚、周密至关主要。作者在附录 2 中扩大了东西开辟的最佳实际。主动智能体。何时应用智能体:智能体能够用于开放性成绩,这种成绩每每难以或弗成能猜测所需的步调数目,而且你不克不及硬编码牢固门路。LLM 可能会操纵多个回合,你必需对其决议才能有必定水平的信赖。智能体的自立性使它们成为在受信赖情况中 scaling 义务的幻想抉择。智能体的自立性象征着本钱更高,而且可能存在过错累积的危险。作者倡议在沙盒情况中停止普遍的测试,并设置恰当的防护办法。智能体的用处示例:  一个代码智能体,用于处理波及依据义务描写编纂多个文件的 SWE-bench 义务Anthropic 的「Computer use」功效,此中 Claude 应用盘算机实现义务。代码智能体的 High-level flow。组合、定制这些形式这些构建块不是划定性的。开辟者能够塑造跟组合这些构建块以顺应差别用例。胜利的要害是权衡机能并迭代实现。留神:只有在可能显明改良成果的情形下,你才应当斟酌增添庞杂性。总结在 LLM 范畴获得胜利并不在于构建最庞杂的体系,而是在于为你的需要构建准确的体系。从简略的提醒开端,用片面的评价优化它们,同时只有当更简略的处理计划无奈实现时才增加多步调智能系统统。在安排智能体时,须要实验遵守三个中心准则:在智能体计划中坚持简略;要优先确保智能体的通明度,方式是明白地展现它打算中的每一步;经由过程片面的东西文档跟测试经心打造你的智能体 - 盘算机界面(ACI)。更多概况,请参考原博客。© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected] ]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->