众所周知,大型语言模型(llms)需要大量的计算资源。这意味着开发和部署主要集中在强大的集中式系统上,如公共云提供商。然而,尽管许多人认为我们需要大量的gpu和庞大的存储空间来运行生成式ai,但实际上,存在使用分层或分区架构为特定业务用例创造价值的方法。
不知怎的,有一种声音认为,在生成式ai的时代背景下,边缘计算似乎行不通。这是因为生成式ai模型的处理要求以及推动高性能推断的需求。当我提出“边缘知识”架构时,由于这种声音,我常常受到质疑。我们错过了巨大的创新机会,让我们来看看吧。
1.“云 边缘”混合llm方法可行吗?
这种混合方法使两种基础设施类型的效率最大化。在边缘运行某些操作可以显著降低延迟,这对于需要即时反馈的应用程序至关重要,例如交互式ai服务和实时数据处理。不需要实时响应的任务可以委托给云服务器。
对这些模型进行分区提供了一种平衡计算负载、提高响应速度并增加ai部署效率的方法。该技术涉及在边缘设备、集中式云服务器或本地服务器上运行llms(大型语言模型)的不同部分或版本。
通过分区llms,我们实现了一种可扩展的架构,其中边缘设备处理轻量级、实时任务,而繁重的计算则卸载到云端。例如,假设我们正在运行分布在世界各地的医疗扫描设备。基于ai的图像处理和分析是这些设备价值的核心;然而,如果我们将巨大的图像发送回某个中央计算平台进行诊断,那将不是最优选择。网络延迟会延迟部分处理,如果网络在某些情况下出现故障(这在许多农村地区可能会发生),那么你的业务就会受到影响。
大约80%的诊断测试可以在靠近扫描仪的低功率设备上正常运行。因此,扫描仪设计用于检测的常规事物可以在本地处理,而需要更广泛或更复杂的处理的测试可以推送到中央服务器进行额外诊断。
其他用例包括飞行中喷气发动机部件的诊断。用户会希望利用ai的力量来监控和纠正喷气发动机操作中的问题,并且需要在接近实时的情况下纠正这些问题。将操作诊断推送回某些集中的ai处理系统不仅不是最佳选择,而且也不安全。
2.为什么混合llm架构没有得到广泛应用?
分区架构减少了延迟,节省了能源和计算能力。敏感数据可以在边缘设备上本地处理,通过减少互联网上的数据传输来缓解隐私担忧。以我们的医疗设备为例,这意味着个人可识别信息的担忧减少了,数据的安全性也更加直接明了。然后,云可以处理一般化、非敏感性的方面,确保采用分层安全方法。
那么,为什么没有人使用它呢?
首先,它很复杂。这种架构需要思考和规划。生成式ai是新的,大多数ai架构师也是新的,他们从推动云的云提供商那里获取架构线索。这就是为什么让特定云提供商的架构师设计你的ai系统不是一个好主意。你每次都会得到一个云凯发k8官方的解决方案。云提供商,我在看着你们。
其次,生成式ai生态系统需要更好的支持。它们为集中式、基于云的、本地的或开源的ai系统提供了更好的支持。对于混合架构模式,你必须自己动手,尽管市场上有一些有价值的凯发k8官方的解决方案,包括支持ai的边缘计算工具集。
3.如何构建混合llm架构
第一步是评估llm(大型语言模型)和ai工具包,并确定哪些组件可以在边缘有效地运行。这通常包括执行推理任务的轻量级模型或更大模型中的特定层。
复杂的训练和微调操作仍然保留在云端或其他持久化系统中。边缘系统可以预处理原始数据以减少其体积和复杂性,然后再将其发送到云端或使用其llm(或小型语言模型)进行处理。预处理阶段包括数据清洗、匿名化和初步特征提取,以简化后续的集中处理。
因此,边缘系统可以扮演两个角色:它是将数据和api调用传递给集中式llm的预处理器,或者它执行一些处理/推理,这些处理/推理最好使用边缘设备上的小型模型来处理。这种混合边缘/中心模型提供了最佳效率,因为两个层级都在协同工作,同时我们也在使用尽可能少的资源来实现最大化效果。
为了使分区模型能够协同工作,边缘和云系统必须有效地同步。这需要强大的api和数据传输协议来确保系统通信的顺畅。持续的同步还允许实时更新和模型改进。
最后,会进行性能评估以微调分区模型。该过程包括负载均衡、延迟测试和资源分配优化,以确保架构满足特定应用的要求。
将生成式ai的大型语言模型(llms)分区部署在边缘和中心/云基础设施上,是ai部署的下一个前沿领域。这种混合方法提高了性能和响应速度,并优化了资源使用和安全性。然而,大多数企业甚至技术提供商都害怕这种架构,认为它太复杂、太昂贵,并且构建和部署速度太慢。
事实并非如此。不考虑这种选择意味着你可能会错过良好的商业价值。此外,几年后像我这样的人可能会出现并指出您在ai优化方面错过了机会。您已经被警告过了。
参考链接:
转载自https://www.51cto.com/article/789786.html