为 Amazon OpenSearch Ingestion 引入自管理数据源大数据博客

Posted On: 2026-01-27 12:16:26

自主管理数据源在 Amazon OpenSearch Ingestion 中的介绍

by Muthu Pitchaimani 和 Arjun Nambiar 于 2024年7月1日发布于 Amazon OpenSearch 服务，分析，公告永久链接评论分享

重点内容

在本文中，我们为 Amazon OpenSearch Ingestion (OSI) 引入了支援自主管理数据源的功能。这项功能支持从自主管理的 OpenSearch、Elasticsearch 及 Apache Kafka 集群中获取数据，进而可实现高效的数据处理与分析。在构建数据管道时，您需要满足一些前提条件，如网络连接、证书验证和访问 AWS Secrets Manager。

越来越多的企业客户采用 Amazon OpenSearch Ingestion 将数据引入 Amazon OpenSearch 服务以满足多种使用案例，包括 PB 级日志分析、实时流处理、安全分析以及对半结构化键值或文档数据的搜索。OSi通过简单的集成实现了从多种 AWS 服务如 Amazon DynamoDB、Amazon Simple Storage Service 等导入数据。

今天，我们宣布了对从自主管理的 OpenSearch 或自主管理的 Elasticsearch 和 Apache Kafka 集群导入数据的支持。这些数据源可以部署在 Amazon Elastic Compute Cloud (Amazon EC2) 或本地环境中。

在本文中，我们将概述如何开始使用这些数据源的步骤。

解决方案概述

OSI 支持 AWS Cloud Development Kit (AWS CDK)、AWS CloudFormation、AWS 命令行界面 (AWS CLI)、Terraform、AWS API 以及 AWS 管理控制台进行管道的部署。在本文中，我们将使用控制台来演示如何创建一个自主管理 Kafka 管道。

前提条件

为确保 OSI 能够成功连接和读取数据，需要满足以下条件：

条件描述数据源的网络连接OSI 通常部署在公共网络如互联网或虚拟私有云VPC中。OSI 部署在客户的 VPC 中，能够访问同一或不同 VPC 中的数据源。数据源的命名解析OSI 使用 Amazon Route 53 进行命名解析。数据源名称的证书验证OSI 仅支持使用 SASLSSL 进行数据源的认证。访问 AWS Secrets ManagerOSI 使用 AWS Secrets Manager 来检索与自主管理数据源通信所需的凭证和证书。管道的 IAM 角色需要一个 AWS 身份与访问管理 (IAM) 管道角色，以便写入数据接收器。

创建自主管理 Kafka 作为数据源的管道

完成前提条件后，您就可以创建数据源的管道。请按照以下步骤进行操作：

在 OpenSearch 服务控制台中，选择导航窗格中的 Pipelines 选项下的 Ingestion。

选择 Create pipeline。

在导航窗格中选择 Streaming 作为 Use case。

在 Ingestion pipeline blueprints 中选择 Self managed Apache Kafka，然后选择 Select blueprint。

这将填充此管道的示例配置。

为此管道提供名称并选择合适的管道容量。在 Pipeline configuration 下以 YAML 格式提供管道配置。以下代码段显示了使用 SASLSSL 认证的示例配置：

yaml version 2 kafkapipeline source kafka acknowledgments true bootstrapservers node0examplecom9092 encryption type ssl certificate {{awssecretskafkacert}}

     authentication       sasl         plain           username {{awssecretssecretsusername}}           password {{awssecretssecretspassword}}     topics        name onpremtopic         groupid osigroup1 processor    grok       match         message            {COMMONAPACHELOG}    date       destination @timestamp       fromtimereceived true sink    opensearch       hosts [https//searchdomain12345567890useast1esamazonawscom]       aws         region useast1         stsrolearn arnawsiam123456789012role/pipelinerole       index onpremkakfaindex

extension aws secrets kafkacert secretid kafkacert region useast1 stsrolearn arnawsiam123456789012role/pipelinerole secrets secretid secrets region useast1 stsrolearn arnawsiam123456789012role/pipelinerole

选择 Validate pipeline 并确认没有错误。在 Network configuration 下选择 Public access 或 VPC access。在此文中，我们选择VPC access。如果选择了 VPC access，则指定您的 VPC、子网和适当的安全组，以便 OSI 可以访问数据源所需的出站端口。在 VPC attachment options 下选择 Attach to VPC 并选择适当的 CIDR 范围。

OSI 资源在 AWS 管理的服务 VPC 中创建，该 VPC 与您在上一步中选择的 VPC 是分开的。此选择允许您配置 OSI 在此服务 VPC 中使用的 CIDR 范围。您可以确保与连接到本地网络的 VPC 的 CIDR 范围之间没有地址冲突。您的帐户中的多个管道可以共享同一服务 VPC 的 CIDR 范围。

指定任何可选标签和日志发布选项，然后选择 Next。审查配置，然后选择 Create pipeline。

您可以在您指定的 Amazon CloudWatch Logs 日志组中监控管道创建和任何日志消息。现在，您的管道应该已成功创建。有关如何为此管道的性能配置容量的更多信息，请参阅遇到的推荐计算单位 (OCUs) 的 Amazon MSK 管道。

创建自主管理 OpenSearch 作为数据源的管道

创建自主管理 OpenSearch 的管道步骤类似于为 Kafka 创建管道的步骤。在蓝图选择期间，选择 Data Migration 下的 Self managed OpenSearch/Elasticsearch。OpenSearch Ingestion 可以从所有版本的 OpenSearch 和 Elasticsearch 中提取数据，版本范围从 70 到 710。

为 Amazon OpenSearch Ingestion 引入自管理数据源大数据博客

以下蓝图展示了此数据源的示例配置 YAML：

yamlversion 2opensearchmigrationpipeline source opensearch acknowledgments true hosts [ https//node0examplecom9200 ] username {{awssecretssecretusername}} password {{awssecretssecretpassword}} indices include indexnameregex opensearchdashboardssampledata exclude indexnameregex sink opensearch hosts [ https//searchdomain12345567890useast1esamazonawscom ] aws stsrolearn arnawsiam123456789012role/pipelinerole region useast1 index onpremosextension aws secrets secret secretid selfmanagedoscredentials region useast1 stsrolearn arnawsiam123456789012role/pipelinerole refreshinterval PT1H

自主管理 OpenSearch 数据源的考虑事项

在 OpenSearch 集群中安装的证书必须可验证，以便 OSI 在读取数据之前连接到此数据源。目前不支持不安全的连接。

连接后，请确保集群具有足够的读取带宽，以允许 OSI 读取数据。使用 Min 和 Max OCU 设置限制 OSI 的读取带宽消耗。您的读取带宽将根据数据量、索引数量和配置的 OCU 容量而有所不同。建议从小规模开始，并逐步增加 OCU 的数量，以平衡可用带宽和可接受的迁移时间。

此数据源通常用于一次性数据迁移，而非持续导入以保持数据源与接收器之间的数据同步。

OpenSearch 服务域支持远程重建索引，但这会消耗域中的资源。使用 OSI 将把此计算移出域，OSI 可以实现远高于远程重建索引的带宽，从而实现更快的迁移时间。

目前，OSI 不支持延迟重放或流量记录；如果您的迁移需要这些功能，请参考 Amazon OpenSearch 服务迁移助手。

结论

在本文中，我们介绍了支持自主管理数据源的 OpenSearch Ingestion，使您能够从企业数据中心或其他本地环境中导入数据。OSI 还支持多种其他数据源和集成。有关其他数据源的信息，请参阅与 Amazon OpenSearch Ingestion 管道集成相关的工作。

OpenSearch 包含来自 Elasticsearch BV 和其他源代码的某些Apache许可的 Elasticsearch 代码。Elasticsearch BV 不是该其他源代码的来源。ELASTICSEARCH 是 Elasticsearch 的注册商标。

鲨鱼机场

关于作者

Muthu Pitchaimani 是 Amazon OpenSearch 服务的搜索专家。他构建大规模搜索应用程序和解决方案，对网络和安全主题感兴趣，基地位于德克萨斯州奥斯丁。

Arjun Nambiar 是 Amazon OpenSearch 服务的产品经理。他专注于从广泛的数据源以规模化的方式将数据引入 Amazon OpenSearch 服务的技术。Arjun 对大规模分布式系统和云中心技术感兴趣，基地位于华盛顿州西雅图。

新闻中心

为 Amazon OpenSearch Ingestion 引入自管理数据源大数据博客

自主管理数据源在 Amazon OpenSearch Ingestion 中的介绍

重点内容

解决方案概述

前提条件

创建自主管理 Kafka 作为数据源的管道

创建自主管理 OpenSearch 作为数据源的管道

自主管理 OpenSearch 数据源的考虑事项

结论

关于作者

发表评论

导航

网站地图

找到鲨鱼加速器官方网站

Phone

Email

Address

新闻中心

为 Amazon OpenSearch Ingestion 引入自管理数据源 大数据博客

自主管理数据源在 Amazon OpenSearch Ingestion 中的介绍

重点内容

解决方案概述

前提条件

创建自主管理 Kafka 作为数据源的管道

创建自主管理 OpenSearch 作为数据源的管道

自主管理 OpenSearch 数据源的考虑事项

结论

关于作者

发表评论

导航

网站地图

找到鲨鱼加速器官方网站

Phone

Email

Address

为 Amazon OpenSearch Ingestion 引入自管理数据源大数据博客