作者:Jinming来源:HashKeyCapital翻译:善欧巴,金色财经引言
人工智能代理(AIAgent)的概念,指的是能够理解其环境并代表用户或机器自主执行行动以实现其目标的智能软件系统,早在20世纪80年代就已提出。然而,直到2010年代,随着深度学习和大型语言模型(LLM)的兴起,展示了它们理解和生成类人响应的能力,这一概念才开始受到关注。
如今,LLM已成为我们生活中不可或缺的一部分,像ChatGPT这样的产品在全球拥有超过1550万付费用户,随着OpenAI推出更智能的推理模型,需求必将进一步增长。ChatGPT、Claude和DeepSeek等LLM的广泛应用为代理经济的自然发展铺平了道路。代理比LLM更复杂,它被定义为一个由单个模型或多个模型组成的系统,以及一个带有工具集并定义代理身份的框架(图1)。
配备角色、工具包的代理可以接收任务,分析、处理并代表用户自主执行行动,尽管有时需要人工参与提供反馈并通过强化学习进行学习。代理本质上是可组合的,随着代理变得更加专业化和技术成熟,代理系统的人工参与部分可能会退居次要地位,而代理之间的通信将成为简化复杂工作流程和释放效率提升的重点。随着基于代理的框架不断进步,我们预计通过集成Blockchain(一种基于透明度、去中心化和激励一致的技术),将在各种应用中获得指数级的收益。
此外,通过利用Blockchain技术的可信、安全和透明的特性,智能合约上的代理可以执行自主钱包交易,因良好行为而获得Tokens激励,并因对抗行为而受到惩罚。在本报告中,我们将首先探讨什么是多智能体系统以及支持这些系统开发的编排框架,然后了解多智能体系统与Web3技术之间的协同作用。随后,我们将探讨Web3多智能体框架的用例、挑战和解决问题的努力。
图1:代理的组件
AutoGen
AutoGen是微软研究院人工智能前沿实验室设计的开源多智能体框架。它以其模块化和可扩展的设计促进了多智能体应用程序的开发。AutoGenCore实现了可以使用Python和.NET语言编程的消息传递和事件驱动智能体。AgentChatAPI实现了智能体之间的无缝通信,并构建在CoreAPI之上。各种扩展可用,使智能体能够执行各种功能,例如网页浏览、视频分析、文件分析以及封装Langchain工具等。基于AutoGen多智能体框架构建的MagenticOne能够执行代码、浏览网页和管理文件等任务。
CrewAI
CrewAI是一个开源多智能体平台,它通过明确定义的基于角色的多智能体编排实现高效且无缝的任务自动化。其架构允许具有可配置角色、目标和个性的智能体按顺序或并行交互,确保有序的任务执行。为了保持相关性,智能体可以利用支持文本源和结构化数据格式的广泛知识库。CrewAI还提供对LangChain和LlamaIndex工具的访问,以及Portkey提供的企业级功能,使智能体能够轻松使用外部API、数据库和检索系统。该平台对开发人员也很友好,支持基于YAML的配置,这使得开发人员可以轻松配置和部署智能体。
Langroid
Langroid是一个开源Python编程框架,它将多智能体编程作为其核心设计原则,赋予智能体与公民类似的地位。该框架因其简洁、直观和可扩展性而受到开发人员的认可,它提供了各种模块和工具,可以满足复杂智能体应用程序的需求。默认情况下,智能体充当消息转换器,并具有3种响应器方法:LLM响应器、智能体响应器和用户响应器。这些响应器方法共同允许智能体执行功能、生成人类可读的自然语言响应,并将人类反馈纳入其智能体工作流程。围绕智能体封装任务使其能够通过将子任务委派给其他智能体来编排交互。通过ToolMessage机制支持OpenAILLM和LLM函数调用,智能体可以访问各种工具和函数。结合与LanceDB、Qdrant和Chroma等向量存储的集成,Langroid的智能体具有持久的对话状态和向量存储内存,使其擅长管理复杂的动态场景。
CAMEL
CAMEL是一个开源多智能体框架,为任务自动化、数据生成和现实世界模拟等广泛应用提供通用基础设施。作为CAMEL的一部分,社会模块在多智能体协调中起着至关重要的作用。它包含两个框架——RolePlaying和BabyAGI——旨在管理智能体交互并推动目标导向的结果。其角色扮演、对话导向的方法使其非常适合构建面向客户的智能体。CAMEL与各种向量数据库和LLM的集成支持RAG,并为其智能体提供持久内存,使其非常适合大规模企业应用程序。然而,RolePlaying框架的成功目前要求开发人员具备有效的提示工程技能和角色设计,这可能会使其对那些没有强大的编码和人工智能背景的人不太友好。CAMEL已经部署了一个人工智能聊天机器人EigentBot,它可以获取实时信息,支持多模态功能,并利用图形RAG实现更好的上下文理解。
MetaGPT
MetaGPT是一种元编程多智能体编排框架,它将标准操作程序(SOP)编码为提示序列,并结合明确定义的智能体角色和职责。这种设计有助于缓解智能体间交互带来的更复杂的幻觉风险。MetaGPT中的智能体通过定义的输出格式到一个共享消息池进行通信,而不是进行一对一的对话,从而减少了不相关或丢失的内容。它还实现了可执行的反馈机制,支持自我纠正和审查。MetaGPT在软件开发环境中特别有效,在这些环境中,明确定义的角色可以提高代码质量和任务分配。当根据代码生成基准进行衡量时,MetaGPT在HumanEval和MBPP中取得了显著的成果,分别为85.9%和87.7%。
LangGraph
LangGraph是LangChain创建者开发的开源智能体框架。它旨在管理复杂的多智能体工作流程,具有模块化架构,使不同的智能体能够高效地通信、协调和执行任务。通过使用基于图的架构来建模智能体工作流程的不同组件之间的关系,LangGraph促进了动态任务分配、无缝可扩展性以及跨分布式系统的强大问题解决能力。这种创新方法简化了状态管理,适用于需要持久保留上下文的多步骤工作流程。此外,Langchain模型上下文协议(MCP)适配器(一个轻量级包装器)允许将MCP工具轻松转换为Langchain工具,供LangGraph智能体使用,从而扩展其可用工具集。在多智能体领域,LangGraph受益于强大的网络效应,因为它利用了LangChain生态系统。
ElizaOS
ElizaOS可能是最著名的Web3多智能体框架,是一个开源TypeScript多智能体框架,它嵌入了Web3组件,以解决加密行业的入门障碍和可访问性问题。该框架采用模块化设计,带有广泛的插件集,目前能够支持一系列模型(即OpenAI、DeepSeek、Llama、Qwen等)、平台集成(即Twitter、Discord、Telegram、Farcaster等)以及超过25种链兼容性(即Solana、Ethereum、Ton、Aptos、Sui、Sei等)。它与GOATSDK的集成还使智能体能够执行各种链上操作。ElizaOS的核心架构由智能体、角色文件、提供程序、操作和评估器组成,它们共同使智能体在执行各种任务时具有持久的内存和上下文感知能力,并从评估器那里获取反馈以确保更好的性能。
一个值得注意的例子是ai16zDAOFund,它利用ElizaOS框架创建了一个自主智能体,可以过滤市场信号并交易各种meme币。在其鼎盛时期,它管理着超过3600万美元的AUM。
作为Web3中最成熟的智能体框架,ElizaOS智能体框架继续受到Web3开发人员的欢迎,因为它获得了超过14K的github星星,并且目前拥有99个集成。随着未来计划推出智能体启动平台,这可以通过为开发人员提供一个无需/低代码的智能体启动平台来进一步激发他们的兴趣。
RIG
另一个拥有超过3Kgithub星星的流行Web3智能体框架是RIG,一个基于Rust的开源智能体框架,它通过提供轻量级核心同时支持高级推理模式(从提示链到条件逻辑和并行任务执行)而脱颖而出。RIG框架在支持的LLM提供商(OpenAI、cohere、DeepSeek等)之间提供统一的API,并为RAG实现提供简化的嵌入和向量存储支持。还可以创建自定义工具,使该框架可扩展用于基于LLM的应用程序。
利用Rust的异步功能,多智能体系统可以并发处理多个任务。尽管它目前在23个Web3原生集成方面落后于ElizaOS。RIG背后的开发人员ARC已与Solana基金会合作,通过向使用RIG构建基于Rust的智能体的开发人员提供有针对性的赠款来推动该框架的采用。此外,ARC还推出了其智能体启动平台Forge,该平台采用与Virtuals类似的启动平台模型,但目前仅允许列入白名单的团队访问该平台。RIG和Forge启动平台的一个值得注意的用例是AskJimmy平台,这是一个多智能体对冲基金,它协调由交易策略库驱动的智能体群,以便在Hyperliquid、Drift、GMX等领先平台上跨EVM和Solana无缝执行交易。
G.A.M.E
VirtualsProtocol团队开发的G.A.M.E框架是一个基于Python和JavaScript的开源多智能体框架,它促进了链上智能体的创建。它与Web3库GOATSDK的集成,为智能体提供了跨各种协议的200多个链上操作。任务处理通过分层方法完成,其中任务规划器将任务分解为子任务,并将其委派给协调和通信以交付最终输出的专业工作智能体。目前,其大多数智能体都围绕社交媒体平台和游戏内环境展开,最著名的智能体是AIXBT。自推出以来,AIXBT(一个具有自己X帐户的AI驱动的链上分析影响者)因其分析见解而广受认可,截至撰写本文时,拥有超过49万粉丝。
尽管Web2多智能体框架已经相对成熟并获得了强大的机构需求,但与Web3多智能体框架相比,它们缺乏原生链上功能。使用Web2工具的开发人员必须附加第三方库才能与智能合约交互或解析Blockchain数据,从而引入复杂性和潜在的漏洞。使用Web3多智能体框架的开发人员可以受益于这些框架提供的内置链上功能,在部署链上智能体时提供更无缝的体验,因为他们可以更专注于设计良好的前端用户体验。此外,通过利用Blockchain和智能合约作为底层基础设施,链上智能体可以受益于加密轨道,例如让其钱包代表用户执行链上操作并确保激励一致性。Web3多智能体框架的性能指标
简化Web3中的工作流程
尽管Web2代理框架日益成熟和普及,但代理概念直到2024年第四季度才在Web3中获得关注。ElizaOS、VirtualsProtocol和RIG等主要参与者(各自拥有自己的Tokens)实现了可观的市值,凸显了Web3中对AI代理的强烈需求,而不仅仅是投机交易。这些Tokens市值所反映出的兴奋并非毫无根据,因为Web3仍在努力实现主流采用。让Blockchain上的代理自主执行链上操作,具有改变用户体验的巨大潜力。除了可以实现的效率之外,Web3中代理的问题还可以追溯到Blockchain中AI的类似论点,即透明度和可追溯性以及先进的安全功能。代理交易记录在Blockchain上,用户可以轻松跟踪和验证代理采取的行动。下面,我们重点介绍一些最适合代理采用的关键领域。
DeFAI
链上交易本质上是复杂的,要求用户至少对Blockchain和Web3钱包有基本的了解。这造成了糟糕的用户体验,并且仍然是非加密原生用户的重要障碍。尽管最近社交登录已被各种Web3钱包提供商广泛采用,但账户和链抽象的开发仍然缓慢且有限。用户在浏览DeFi格局时仍然需要理解gas费用、钱包地址、桥接等概念。相比之下,OpenAI最近推出的OperatorAgent仅需要用户进行简单的自然语言处理即可执行交易,通过后端代理处理抽象掉用户必须采取的多个步骤。Web3也不应该有什么不同,我们认为将AI代理与各种DeFi(DeFAI)协议集成可以促进更轻松的用户入门和无缝体验。
VirtualsProtocol最近推出了代理商务协议,该协议为代理如何相互通信和交互设定了标准化方法。这种方法引入了涉及请求、协商、交易和评估的4个阶段的过程。评估器、基于智能合约的托管和加密验证的引入是该框架的核心功能,可确保交付的交易满足任务的要求。一旦满足所有要求,智能合约触发器将解锁资金并交付服务,从而确保交易可以透明且无需信任地进行。代理商务协议只是一个示例,说明多智能体编排框架如何帮助在链上以无需信任且安全的方式驱动代理交互。
OlasProtocol展示了DeFAI的实际应用:其Pearl应用商店包含Mobius和Optimus代理,它们使用Olas堆栈在Uniswap、Balancer和Sturdy等平台上自动化DeFi策略,涵盖Optimism、Base和Mode等网络。OlasProtocol的Mech市场也充当代理工具和插件交换中心,允许部署的代理通过代理间通信外包任务。另一个值得注意的例子是Questflow,它还提出了一个意图匹配的多智能体编排框架,用户的请求由识别相关代理的编排器处理,并通过监督代理工作流程执行的任务管理器将代理委派给这些任务。由于代理在Deagent代理注册表中分派,代理创建者也可以获得公平的报酬。数据所有权
在庞大的代理格局和生成的大量链上数据中,链上分析正成为一个日益有价值的领域,许多项目都在寻求提供数据标记服务(例如SaharaAI)、跟踪(ArkhamIntelligence、Kaito)、证明注册表(EAS、BAS等)。代理作为用户的得力助手,可以通过获得用户的许可,为Web3中不断增长的数据格局做出贡献,使用户可以因其数据贡献而获得公平的奖励。
游戏
在Web3游戏社区中,对AI支持的代理的兴趣和需求不断增长。游戏代理可以为非玩家角色(NPC)提供动力或管理游戏内经济。它们通过自主执行任务和响应玩家操作来帮助创建动态、响应式环境。该领域值得注意的项目包括Parallel的WayFinder平台,该平台正在构建一个知识图,可供AI代理在游戏中的不同代理工作流程中使用。TreasureDAO是另一个值得注意的例子,它最近宣布即将推出由ElizaOS提供支持的MAGE代理启动平台,进一步朝着代理驱动的Web3游戏格局迈进。VirtualsProtocol还推出了ProjectWestWorld,这是一个Roblox中的交互式模拟,由G.A.M.E框架驱动的多智能体自主交互并驱动动态游戏叙事。
其他用例
AI驱动的DAO:代理可以将冗长的提案提炼成主流用户易于理解和投票的易于理解的信息,从而增强去中心化的核心精神。
智能合约审计、网络分析、欺诈检测:代理在调试中可以发挥至关重要的作用,通常比人类更快地识别潜在风险,从而在与人类智能结合时降低安全风险。
供应链优化:通过使用AI的预测能力和Blockchain的透明和安全功能,这可以简化并实现更具成本效益的运营。成熟Web3多智能体系统面临的挑战和努力
Web3环境中的多智能体系统(MAS)(其中代理在去中心化基础设施上运行,并且通常使用智能合约进行协调)面临着一些可能影响其设计、部署和性能的限制和挑战。以下是Web2和Web3代理可能面临的一些障碍:
与基于单个LLM的系统一样,多智能体系统也受到模型幻觉风险的影响。当幻觉从一个代理传递到另一个代理时,多智能体系统中的幻觉风险可能更严重,从而加剧了问题。代理之间管理不善的通信将导致次优的性能。因此,当我们走向未来的完全自主代理时,许多框架仍然需要一些人工监督。
实现代理之间的共识和状态同步。在多智能体系统中,为了成功完成任务,代理必须在复杂且分层的多智能体系统中导航,确保与整体任务、自身职责和多智能体通信保持一致。
Web3中的代理还面临可扩展性和延迟问题,因为它们在底层Blockchain上运行,因此与其他类型的交易竞争区块空间。这可能意味着在Blockchain可扩展性挑战得到解决之前,我们在可预见的未来看不到大型代理网络的完全链上编排。Blockchain上的安全和隐私挑战在Web3环境中也是独一无二的,这增加了复杂性。然而,随着Turnkey等新兴解决方案的出现,这种情况正在慢慢得到解决,Turnkey提供了一个TEE解决方案(AWSNitroEnclaves),代理可以在其中安全且可验证地执行操作。PhalaNetwork还宣布与GoPlus建立合作伙伴关系,利用Phala的TEE功能和GoPlus安全功能来增强ElizaOS代理。
多智能体内存管理。在多智能体系统中,不同的代理执行不同的任务并存储不同的信息。因此,为了确保成功交付总体目标,达成信息共识是有帮助的,同时实施强大的访问控制机制至关重要,因为某些代理可能正在处理高度敏感的信息。未能实施强大的安全措施可能导致数据隐私泄露和任务执行失败。
某些领域(例如科学实验室实验、经济学建模和链上技能)缺乏全面的基准和评估标准可能会阻碍该领域的快速增长。结论
多智能体框架的未来充满希望,但也充满挑战,这凸显了前路漫漫。与已建立且获得机构认可的Web2多智能体框架相比,Web3多智能体框架仍处于相对起步阶段,生产就绪的用例狭窄。尽管如此,监管转变和为缓解上述挑战而做出的持续努力是进一步采用的关键催化剂。
此外,代理开发工具(例如SendAI套件、Coinbase代理套件、ShellAgent无代码平台、Olas堆栈等)的增长,以简化代理创建并扩展代理的用例,继续取得进展,推动开发人员的增长和新的创新。GOATSDK等Web3库的进步有助于扩展代理实现的操作的可能性。最终,随着技术的发展和这些系统的成熟,我们可以期待代理工作流程在链上交互中变得司空见惯。就像有许多Web2多智能体框架一样,我们希望在Web3中看到更多提供通用和利基方法的代理框架。
免责声明:多智能体系统——当前形势与展望文章转发自互联网,版权归其所有。
文章内容不代表本站立场和任何投资暗示。加密货币市场极其波动,风险很高,可能不适合所有投资者。在投资加密货币之前,请确保自己充分了解市场和投资的风险,并考虑自己的财务状况和风险承受能力。此外,请遵循您所在国家的法律法规,以及遵守交易所和钱包提供商的规定。对于任何因使用加密货币所造成的投资损失或其他损失,本站不承担任何责任。
Copyright © 2021.Company 元宇宙weizhangshensu.cn All rights reserved.元宇宙weizhangshensu.cn