Sepolia AWS 全球部署

BabyDriver L2 ZK Rollup 在 AWS 上的生产级全球部署方案。 3 Region, EKS, Terraform, Helm, Global Accelerator。

架构总览

用户请求 → Global Accelerator (Anycast IP)
           ├→ us-east-1: Sequencer (主节点) + RPC + Aurora PostgreSQL
           ├→ eu-west-1: External Node (只读 RPC) + EKS PostgreSQL
           └→ ap-northeast-1: External Node (只读 RPC) + EKS PostgreSQL

Sequencer → Sepolia L1 (提交 batch, TestnetVerifier)
监控: Prometheus + Grafana + Jaeger (EKS 内) → Slack/Telegram 告警

决策记录

决策项

选择

原因

IaC 工具

Terraform

业界标准，多云支持，AWS provider 最成熟

容器编排

AWS EKS

有状态服务(RocksDB/PostgreSQL)支持好，GPU 节点池弹性伸缩

Prover

跳过 (TestnetVerifier)

GPU 月成本 $3000-8000+，testnet 无必要

Region

us-east-1 + eu-west-1 + ap-northeast-1

全球三大洲均衡覆盖

节点分布

单主多从

Sequencer us-east-1 (离 Sepolia L1 最近)，其他 region External Node

数据库

Aurora (Sequencer) + CloudNativePG (External Node)

核心数据全托管，可重建数据自建省成本

网络入口

AWS Global Accelerator

TCP 层 Anycast，适合 JSON-RPC + WebSocket

CI/CD

GitHub Actions + ECR + Helm

现有仓库直接用，Helm 版本管理 + 回滚

监控

Prometheus + Grafana + Jaeger → Slack/Telegram

复用现有 era-observability 栈

Prover 跳过决策（重要）

决策: Testnet 阶段使用 TestnetVerifier（跳过 ZK proof 验证），不部署 GPU Prover 集群。
原因:
GPU 实例（p3.2xlarge）月成本 $3000-8000+，testnet 阶段无必要
本地环境已验证 TestnetVerifier 功能正确
Prover 不影响交易处理和状态正确性验证
未来切换路径（主网阶段）:
Terraform 添加 module "prover" — EKS GPU 节点池（p3/g5 Spot + On-Demand 混合）
Helm chart 添加 prover-gateway, witness-generator, prover 三个 deployment
替换 TestnetVerifier 为 Verifier.sol（完整 FFLONK 验证）
配置 fri_prover.toml + fri_witness_generator.toml
预估增加成本: $5,000-15,000/月（取决于 batch 频率和 GPU 实例类型）
GPU 实例推荐: NVIDIA A100 80GB (p4d.24xlarge) 或 A10G (g5.xlarge)

核心组件

组件

技术选型

部署位置

IaC

Terraform

全部基础设施

容器编排

AWS EKS

每个 region 一个集群

Sequencer

zksync_server (主模式)

us-east-1 only

RPC 节点

External Node (同步模式)

eu-west-1, ap-northeast-1

数据库 (Sequencer)

Aurora PostgreSQL

us-east-1, Multi-AZ

数据库 (External Node)

CloudNativePG on EKS

eu-west-1, ap-northeast-1

网络入口

Global Accelerator + NLB

全球 Anycast

CI/CD

GitHub Actions + ECR + Helm

—

监控

Prometheus + Grafana + Jaeger

每个 EKS 集群

告警

Grafana → Slack/Telegram

—

Prover

跳过 (TestnetVerifier)

—

项目结构

infra/
├── terraform/
│   ├── modules/
│   │   ├── vpc/                  — VPC + Subnets + NAT Gateway
│   │   ├── eks/                  — EKS 集群 + 节点组 + IRSA
│   │   ├── rds/                  — Aurora PostgreSQL (Sequencer)
│   │   ├── ecr/                  — 容器镜像仓库
│   │   ├── global-accelerator/   — 全球 Anycast 入口
│   │   └── monitoring/           — Prometheus + Grafana Helm releases
│   ├── environments/
│   │   ├── testnet/              — Sepolia testnet 变量
│   │   │   ├── main.tf
│   │   │   ├── variables.tf
│   │   │   ├── terraform.tfvars
│   │   │   └── backend.tf       — S3 remote state
│   │   └── mainnet/              — 主网配置（预留）
│   └── main.tf                   — Root module
├── helm/
│   └── babydriver/
│       ├── Chart.yaml
│       ├── values.yaml           — 默认配置
│       ├── values-us-east-1.yaml — Sequencer region
│       ├── values-eu-west-1.yaml — External Node region
│       ├── values-ap-northeast-1.yaml
│       └── templates/
│           ├── sequencer.yaml         — StatefulSet (Sequencer)
│           ├── external-node.yaml     — StatefulSet (External Node)
│           ├── postgresql.yaml        — CloudNativePG Cluster
│           ├── monitoring.yaml        — Prometheus + Grafana
│           ├── configmap.yaml         — Chain/Node 配置
│           ├── secrets.yaml           — 外部 Secrets (AWS Secrets Manager)
│           ├── service.yaml           — ClusterIP + NodePort
│           ├── ingress.yaml           — NLB Ingress
│           └── hpa.yaml              — HorizontalPodAutoscaler (RPC)
├── .github/workflows/
│   ├── build-push.yml            — Docker build + ECR push (on tag)
│   └── deploy.yml                — Helm upgrade to EKS (manual trigger)
└── docker/
    ├── Dockerfile.sequencer      — zksync_server 主模式
    ├── Dockerfile.external-node  — zksync_external_node
    └── Dockerfile.observability  — Prometheus + Grafana + Jaeger 打包

Region 部署细节

us-east-1（主 Region — Sequencer）

EKS Cluster: baby-us-east-1
├── Namespace: babydriver
│   ├── StatefulSet: sequencer (1 replica)
│   │   ├── Container: zksync-server
│   │   ├── Volume: RocksDB (gp3 EBS, 500GB)
│   │   └── Env: DATABASE_URL → Aurora endpoint
│   ├── Deployment: rpc (2 replicas, HPA 2-8)
│   │   └── Container: zksync-server (API-only mode)
│   └── Service: sequencer-svc (ClusterIP)
│       └── NLB → Global Accelerator
├── Namespace: monitoring
│   ├── Prometheus (helm: kube-prometheus-stack)
│   ├── Grafana (dashboards from era-observability)
│   ├── Jaeger (all-in-one for testnet)
│   └── AlertManager → Slack webhook
└── Aurora PostgreSQL (Multi-AZ)
    ├── Primary: db.r6g.large
    └── Replica: 1 read replica (same AZ)

eu-west-1 / ap-northeast-1（从 Region — External Node）

EKS Cluster: baby-{region}
├── Namespace: babydriver
│   ├── StatefulSet: external-node (1 replica)
│   │   ├── Container: zksync_external_node
│   │   ├── Volume: RocksDB (gp3 EBS, 200GB)
│   │   └── Env: MAIN_NODE_URL → us-east-1 sequencer (PrivateLink or public)
│   ├── CloudNativePG: postgresql (1 primary, 0 replica)
│   │   └── Storage: gp3 100GB
│   └── Service: external-node-svc
│       └── NLB → Global Accelerator
└── Namespace: monitoring
    ├── Prometheus (lightweight, remote-write to us-east-1)
    └── Grafana (read-only, 指向 us-east-1 数据源)

EKS 节点规格 + 成本估算

Region

角色

实例类型

数量

预估月成本

us-east-1

Sequencer + RPC

r6i.xlarge (4C/32G)

~$400

us-east-1

Aurora PostgreSQL

db.r6g.large (Multi-AZ)

1+1

~$500

us-east-1

监控栈

t3.large (2C/8G)

~$60

eu-west-1

External Node

r6i.large (2C/16G)

~$200

eu-west-1

PostgreSQL (EKS pod)

—

1 pod

~$0

ap-northeast-1

External Node

r6i.large (2C/16G)

~$220

ap-northeast-1

PostgreSQL (EKS pod)

—

1 pod

~$0

全球

Global Accelerator

—

~$50

全球

ECR + S3 + 其他

—

~$50

总计

~$1,500/月

注: 使用 Reserved Instances 或 Savings Plans 可降低 30-40%。

关键配置变更

chain.toml

[chain]
chain_id = 271                    # BabyDriver chain ID
l1_network = "sepolia"            # Sepolia testnet

eth_client.toml

[eth_client]
web3_url = "https://sepolia.infura.io/v3/{INFURA_KEY}"
# 备选: Alchemy, QuickNode
# 建议配置多个 RPC endpoint 做 fallback

eth_sender.toml

[eth_sender]
sender_type = "Testnet"           # TestnetVerifier 模式
# 主网切换时改为 "Real"

External Node 配置

[external_node]
main_node_url = "http://sequencer-svc.babydriver.svc.cluster.local:3050"
# 跨 region 时使用公网 endpoint 或 PrivateLink

CI/CD 流程

代码推送 (tag: v*)
  → GitHub Actions: build-push.yml
    → Docker build (sequencer / external-node)
    → Push to ECR (3 regions)
  → GitHub Actions: deploy.yml (手动触发)
    → helm upgrade babydriver ./helm/babydriver \
        -f values-{region}.yaml \
        --set image.tag=$TAG
    → 逐 region 滚动: us-east-1 → eu-west-1 → ap-northeast-1
    → Smoke test (eth_chainId + eth_blockNumber)

回滚

helm rollback babydriver {REVISION} -n babydriver

监控告警

Prometheus 指标（复用 era-observability dashboards）

zksync_server_miniblock_number — 最新 L2 block
zksync_server_l1_batch_number — 最新 L1 batch
zksync_server_mempool_size — 交易池大小
zksync_server_gas_price — Gas 价格

告警规则

告警

条件

级别

Sequencer Down

up{job="sequencer"} == 0 for 2m

Critical → Telegram

Batch 延迟

time() - zksync_server_last_batch_timestamp > 600

Warning → Slack

RPC 错误率

rate(http_errors[5m]) > 0.05

Warning → Slack

Aurora CPU

CPUUtilization > 80% for 10m

Warning → Slack

磁盘使用

disk_used_percent > 85%

Warning → Slack

External Node 同步落后

sequencer_block - external_node_block > 100

Warning → Slack

安全

网络

VPC per region，私有子网运行 EKS 节点
公网访问仅通过 Global Accelerator → NLB → EKS Ingress
Sequencer 的 RPC 端口对外只暴露 JSON-RPC (3050)，管理端口 (3071) 仅内网

密钥管理

AWS Secrets Manager 存储: L1 私钥、数据库密码、Infura API Key
EKS 通过 External Secrets Operator 同步到 K8s Secrets
IRSA (IAM Roles for Service Accounts) 最小权限

L1 Operator 私钥

Sequencer 提交 batch 到 Sepolia 需要 ETH
使用 AWS KMS 签名（可选）或 Secrets Manager 存储私钥
配置 gas price 上限防止意外消耗

部署顺序

Step 1: Terraform — 基础设施 (VPC, EKS, Aurora, ECR, GA)
Step 2: Docker — 构建镜像 (sequencer, external-node)
Step 3: L1 合约 — 部署到 Sepolia (zkstack deploy)
Step 4: Helm — 部署 us-east-1 Sequencer + Genesis
Step 5: Helm — 部署 eu-west-1 + ap-northeast-1 External Nodes
Step 6: 监控 — Prometheus + Grafana + 告警
Step 7: 验证 — E2E 测试 (deposit → tx → withdrawal)
Step 8: DNS — 配置 rpc.babydriver.io → Global Accelerator

Previous社会恢复 + 企业 IAM — 实现 Next预测市场 + SDK — 设计

Last updated 10 minutes ago

Good morning

hashtag架构总览

hashtag决策记录

hashtagProver 跳过决策（重要）

hashtag核心组件

hashtag项目结构

hashtagRegion 部署细节

hashtagus-east-1（主 Region — Sequencer）

hashtageu-west-1 / ap-northeast-1（从 Region — External Node）

hashtagEKS 节点规格 + 成本估算

hashtag关键配置变更

hashtagchain.toml

hashtageth_client.toml

hashtageth_sender.toml

hashtagExternal Node 配置

hashtagCI/CD 流程

hashtag回滚

hashtag监控告警

hashtagPrometheus 指标（复用 era-observability dashboards）

hashtag告警规则

hashtag安全

hashtag网络

hashtag密钥管理

hashtagL1 Operator 私钥

hashtag部署顺序

架构总览

决策记录

Prover 跳过决策（重要）

核心组件

项目结构

Region 部署细节

us-east-1（主 Region — Sequencer）

eu-west-1 / ap-northeast-1（从 Region — External Node）

EKS 节点规格 + 成本估算

关键配置变更

chain.toml

eth_client.toml

eth_sender.toml

External Node 配置

CI/CD 流程

回滚

监控告警

Prometheus 指标（复用 era-observability dashboards）

告警规则

安全

网络

密钥管理

L1 Operator 私钥

部署顺序