集团新闻

企业 LLM 加速的基础数据保护与 Protopia AI 机器学习博客

2026-01-27 12:32:59
20次

企业 LLM 加速与 Protopia 的基础数据保护

关键要点

大模型的快速发展:大语言模型LLM正在迅速改变企业运作,提升效率和效果。数据安全的重要性:在采用生成性 AI 技术时,企业对敏感数据的暴露和所有权问题感到担忧。Protopia 解决方案:通过 Protopia AI 的 Stained Glass TransformSGT,企业能够安全地保护数据,保留数据所有权。多种部署选项:SGT 可灵活集成到多种部署环境中,包括本地、混合和云端设置。

新一代的大语言模型LLMs正在迅速推动商业变革,提升了企业在多种用例中的效率和效果。速度至关重要,LLM 技术的采用可能决定企业的竞争优势。AWS 为企业提供必要的工具,以便在规模上部署 LLM,从而支持关键决策。

在实现生成性 AI 技术时,企业对数据曝光和发送至 LLM 的机密信息的所有权存在现实担忧。这些隐私和数据保护方面的问题可能会延缓或限制 LLM 在组织中的使用。企业需要一个负责任和更安全的方式来发送敏感信息,而无需承受传统本地 DevOps 通常带来的高开销。

本文介绍了如何通过部署 Protopia AI 的 Stained Glass Transform 来克服数据所有权和隐私保护的挑战。Protopia AI 已与 AWS 合作,提供数据保护和所有权的关键组件,以便安全高效地在企业中采用生成性 AI。文章概要涵盖了解决方案并展示了如何在 AWS 上使用它以满足流行的企业用例,例如 检索增强生成RAG以及与诸如 Llama 2 的最先进 LLM 配合使用。

Stained Glass Transform 概述

组织希望全面掌控其敏感企业数据的所有权与控制权,这是负责任 AI 的基石,也是比 LLM 提供者的基础安全和法律保障更高的保护和隐私要求。

尽管企业各业务部门希望利用 LLM 执行各种任务,但他们对贸易机密、知识产权以及通过发送至这些模型的数据泄露表示担忧。同时,企业的安全、合规、数据管理和信息办公室对暴露或泄露客户信息或其他受监管数据外部的风险感到忧虑。AWS 与 Protopia AI 的合作,致力于解决这一常见企业客户需求。

Protopia AI 的 Stained Glass TransformSGT通过将未受保护的企业数据转化为随机重表示RmoRed 数据,来解决这些挑战。如下图所示,这种表示方式是对原始数据的随机嵌入,保留了目标 LLM 所需的信息,同时不会暴露敏感的提示、查询、上下文或微调数据。此重表示是单向转换,无法逆转,确保企业数据的整体隐私,并避免将未加密的敏感信息泄露给 LLM。SGT 的适用范围不仅限于语言模型,也可以生成视觉和结构化数据的随机重表示。Stained Glass Transform 的名称源于其对视觉数据随机重组成品的视觉效果,类似通过彩色玻璃观看数据的效果,如 美国海军用例 所示。

SGT 适用于各类最先进的 LLM,如 Llama 2。以下图示例展示了在对指令进行保密的同时将 SGT 应用到 Llama 2 模型的过程。图左侧显示了一份金融文件作为上下文,并要求模型对文件进行总结。左下角显示了 Llama 2 在处理原始提示时生成的响应。使用 SGT 时,属于此提示的嵌入在客户端侧转换为随机嵌入,后面会详细描述。右下角展示了如果发送的是 RmoRed 数据转换后的嵌入,Llama 2 依然可以生成正确的响应。右上角显示,如果 RmoRed 数据被泄露,则重建的原始提示将导致不可理解的文本。

nordvnp下载 android

为了为特定模型如 Llama 2创建 SGT,Protopia AI 提供了一个轻量级的库,称为 Stained Glass SDK,这是 PyTorch 的扩展。如下图所示,创建 SGT 后,可以通过多种方式将其集成到部署管道中。通过 SDK 创建的变换可以在本地、混合设置或完全在云端部署。这是可行的,因为 SGT 被设计为一个轻量级过程,所需的计算资源非常少,因此对推理的关键路径影响最小。另一个关键评估是使用重表示数据保持模型的准确性。我们观察到,在不同数据类型和模型变体中,使用重表示数据时准确性保持在可接受的容忍限度内。

这些部署选项和保持准确性的能力使企业内部的所有利益相关者能够自信地采用 SGT。为了进一步保护 LLM 的输出,Protopia AI 可以将查询输出编码为只有企业数据所有者可以使用的表示。

解决方案概述

上一部分描述了如何在多种架构中使用 Stained Glass Transform。以下图表详细说明了创建、部署和使用 SGT 进行 LLM 操作的步骤:

SGT 创建 训练基础 LLM 模型的团队无论是专有 LLM 提供者、云服务提供者,还是创建自己 LLM 的企业 ML 团队运行 Protopia AI 的 Stained Glass SDK 软件,而不需要改变现有的 LLM 训练和部署实践。在基础模型训练完成后,SDK 作为对语言模型的优化过程运行,以计算 SGT。此优化过程通过 PyTorch 的扩展实现。SDK 包装基础模型,并在数学上为该 LLM 发现一个唯一的 Stained Glass Transform。有关底层数学的更多细节请参见 附带白皮书。请注意,由于训练 LLM 的团队也在运行 Stained Glass SDK,因此不需要暴露或传送模型权重以完成此步骤。SGT 发布和部署 从早期优化步骤输出的 SGT 作为数据管道的一部分被部署,以为训练后的 LLM 提供数据。如前一部分所述,SGT 位于企业客户端侧。SGT 使用 SGT 在企业创建的提示上运行,生成受保护的提示并将其发送到部署的 LLM。这使企业能够保留对敏感查询和上下文的所有权。通过 Protopia AI 的 Stained Glass,未经保护的敏感数据不会离开企业的场所或信任区。

企业 LLM 加速的基础数据保护与 Protopia AI 机器学习博客

你可以通过多种方式使用 Stained Glass SDK 创建 SGT。例如,可以在自我管理的机器学习ML环境中使用 Stained Glass SDK 与 亚马逊弹性 Kubernetes 服务Amazon EKS进行训练和推理,或者直接在 亚马逊弹性计算云Amazon EC2中运行。此外,它也可以在 亚马逊 SageMaker 内部运行,以为给定训练模型创建 SGT。在推理期间,从客户端对输入进行转换与所选择的部署实现是独立的。

以下图表展示了在自我管理的 ML 环境中,如何进行 Stained Glass Transform 的训练,采用 Amazon EKS。

在此工作流中,使用 Stained Glass SDK 创建一个容器,部署到 亚马逊弹性容器注册表Amazon ECR。该容器随后在 Amazon EKS 部署,以训练 SGT,并将其保存到 亚马逊简单存储服务Amazon S3。如果您使用的是 Amazon EC2,则可以在实例上直接训练变换,作为您的机器学习设置的一部分。Stained Glass SDK 可以在多种实例类型上运行,包括 Amazon P5、P4 或 G5 实例系列,具体取决于您的基础 LLM 要求。将 LLM 部署用于推理后,客户端应用程序使用创建的 SGT 对提示和上下文进行转换,然后再发送给 LLM。通过这样做,只有转换后的数据暴露给 LLM,而原始输入的所有权保持在客户端。

以下图表展示了如何在 SageMaker 上训练一个变换并进行推理。

创建 SGT 的过程与 Amazon EKS 设置类似,通过从 Amazon S3 输入训练数据,在一个容器中训练 SGT,并将其保存到 Amazon S3。您可以在现有的 SageMaker 设置中使用 Stained Glass SDK,支持 Amazon SageMaker Studio、SageMaker 笔记本 和 SageMaker 训练作业。LLM 作为 SageMaker 端点托管,可被客户端应用程序访问。客户端应用程序的推理过程与 Amazon EKS 设置相同,唯一区别在于提供模型的方式。

保护 LLM 提示和微调数据的随机重表示

本节涵盖了多种用例,展示了随机重表示如何保护 LLM 提示。这些示例展示了企业生成性 AI 工作的重要影响:打开 AI 用例的新大门,加快市场速度,同时妥善保护企业数据,并保留 LLM 提示所需的敏感数据所有权。

RAG 用例

LLMs 的一个流行企业用例是检索增强生成RAG。以下图示例展示了使用 Stained Glass 保护提示和来源。图左侧显示的是未经保护的提示和来源信息。在 RAG 的企业实现中,来源可能包括敏感信息,如企业贸易机密、知识产权或财务信息。右侧显示从 SGT 创建的 RmoRed 提示进行最佳重建时,结果为可读文本的效果。

可以观察到,即便在最佳重建中,信息仍然完全被模糊化。然而,模型在有无变换时的响应是相同的,指向原始来源文档,从而在进行该受欢迎企业用例时,保持了问题和来源文档的准确性。

对不同 LLM 和语言的广泛适用性

Stained Glass SDK 的一个亮点是其对模型进展的高度韧性,并能适应如 Llama 2 等先进模型。下图展示了在为处理日文文本而以前微调的 Llama 2 LLM 上创建的 SGT。此示例进一步说明了 SGT 可以为任何语言创建和应用,甚至微调模型的输入也可以进行转换。SGT 的普遍适用性源于 Stained Glass SDK 具备模型和数据无关的强大基础。

保护微调数据以及提示

Stained Glass Transform 不仅限于在推理时保护数据,它也可以保护用于微调基础模型的数据。为微调数据集创建转换的过程与前述解决方案架构部分所解释的相同。为基础模型创建从未访问过的微调数据的转换。创建并训练适用于基础模型的 SGT 后,微调数据集被转换为随机重表示,这将随后用于微调基础模型。有关此过程的更多细节,请参见 附带白皮书。

在以下示例中,一位企业客户需要为网络日志异常检测微调一个现有模型。他们使用 Stained Glass 将敏感的微调数据集转换为随机嵌入,并用这些嵌入微调他们的基础模型。他们发现,基于转换表示进行微调的检测模型,其性能与在未保护的微调数据集上假定进行微调的模型几乎相同。以下表格展示了来自微调数据集的两个示例的明文数据记录,以及对这些相同记录的重建文本。

明文数据记录重建文本记录一非常模糊的信息,无法识别记录二仅保留了绝对必要信息

Stained Glass Transform 的工作原理

当应用于计算机视觉时,SGT 在输入像素特征上运行;而对于 LLM,它则在嵌入级别上运行。为了突出 Stained Glass Transform 的工作原理,可以将提示嵌入视为一个矩阵,如下图左侧所示。在每个条目中,都有一个确定值。这个值可以映射到原始数据,暴露出未受保护的提示。Stained Glass Transform 将这一确定值的矩阵转换为其元素构成的可能性云。

转换后的提示是通过从 SGT 定义的概率分布中抽取噪音并将其添加到嵌入中来生成的,这样不可逆地随机化了原始提示值。模型仍然能够在数学层面理解随机重表示的提示,并能准确地执行其任务。

结论

本文讨论了如何通过 Protopia AI 的 Stained Glass Transform 将原始数据的所有权和保护与机器学习操作流程分离,使企业能够在 LLM 提示和微调数据中保持对敏感信息的所有权和隐私。凭借这种先进的数据保护措施,企业可以加速采用基础模型和 LLM,而不必过于担心敏感信息的暴露。通过安全地释放真实企业数据中的价值,组织可以更快速有效地实现 LLM 的预期效率和商业成果。如需了解更多有关此技术的信息,请参阅 附带白皮书 或 联系 Protopia AI,获取访问权限并在企业数据上进行试用。

关于 Protopia AI

Protopia AI 是一家位于德克萨斯州奥斯汀的数据保护和隐私保护 AI/ML 技术领导者,专注于使 AI 算法和软件平台能够在不访问明文信息的情况下运作。在过去的两年中,Protopia AI 已成功地在各种机器学习用例和数据类型上展示其旗舰产品 Stained Glass Transform,包括与美国海军、领先的金融服务和全球技术提供商的合作。

Protopia AI 还与企业、生成性 AI 和 LLM 提供商以及云服务提供商CSP合作,确保在使用 AI/ML 解决方案时保持企业数据的所有权和机密性。Protopia AI 与 AWS 合作,提供企业采用生成性 AI 的数据保护和

本文网址: https://www.grpkj.com/news/5.html
 Copyright © Nord加速器【官网入口】|Nord加速器 2024 版权所有 All rights reserved 加速器排行榜第一名