pphh – 第 4 页 – 滩之南

架构艺术之应用分层设计

1. 为什么需要应用分层架构设计

高内聚、低耦合、职责单一，是一个应用的基本设计要求。但是起初设计很好的应用边界，随着业务的扩张，待开发的业务功能越来越多，不断拆分出新应用，经常出现的问题是，应用之间的相互依赖关系越来越模糊，相互调用，进而出现循环依赖和长链条依赖问题。

举一个简单的业务功能为例，用户下单支付，其需要调用支付中心进行支付、调用会员中心确认可用积分、调用营销中心发放优惠券、调用消息中心发送用户短信等步骤，这里涉及的应用有4个，

A 支付中心
B 会员中心
C 营销中心
D 消息中心

一个常见的技术实现是，在应用A中提供一个下单支付的接口，在A中先后调用执行应用B、C、D的接口，串联实现下单支付的功能。这不是理想的技术方案，最大的问题是，支付中心A承担了整个下单支付的流程，不仅需要负责处理各个接口的返回消息，还要处理在接口调用失败下的重试和异常告警，其功能职责不再单一。随着下单支付的业务功能越来越复杂，需要串联的业务流程步骤越多，今天加个促销积分，明天发不同优惠券，支付中心变得臃肿不堪，负责支付的开发工程师苦不堪言。

在调用关系上，到底是A调用B或C，还是从B调用到C，在没有沟通清楚的情况下，各种调用方法实现都有，很容易导致A->B->C->D的长链条调用，或A->B->A的循环调用，应用之间的调用变得复杂。管控的不好，业务架构的可扩展性无从谈起，开发团队之间经常扯皮，一个功能代码到底如何串联？在哪里实现？

这里其实涉及到的关键问题是，应用的逻辑架构和相互依赖关系，这正是应用分层架构设计所要解决的问题。

2. 一个通用的架构分层设计

下面将介绍一个通用的架构分层方案，

如上图所示，这个架构分层设计的要点如下，

应用根据分层架构划分为四层，从上到下分别为，
- API网关层：对外提供HTTP接口服务，实现统一的鉴权、流控和降级。
- 业务聚合层：依赖业务中心服务，调用中心服务所提供的原子业务接口，串联起业务流程，实现基于业务场景的功能接口。其负责流程的异常处理和重试，跟进流程状态。
- 业务中心服务层：实现单一、独立的原子业务功能，高内聚、低耦合。原子业务的含义是指业务不可拆分，有确定的输入和输出，在输入正常的情况下，必须确保业务的正常完成。
- 业务数据服务层：提供业务数据的只读查询，不提供写操作。
应用调用关系必须从上往下调用，不允许同层调用，以免形成互相依赖和循环依赖。
应用必须按规范格式xxx-gateway/business/center/data命名，以便快速识别其工作的逻辑层次。
业务中心服务和数据服务应用将共享同一个DAO类库，其数据服务提供的是只读接口。
业务中心服务层不能相互调用，若有需要，允许通过消息中心进行异步通信调用。
业务数据服务层不是一定需要，若没有数据查询的需求，可以省略这一层的数据服务应用部署。

k8s集群flannel部署错误异常排查：pod cidr not assigned

1. 现象

在k8s集群的部署过程中，在初始化k8s master节点之后，准备通过如下kubeadm join命令添加当前worker节点到k8s集群，

kubeadm join xxx:6443 --token xxx.xxx \
>     --discovery-token-ca-cert-hash sha256:xxxx

[preflight] Running pre-flight checks
[preflight] Reading configuration from the cluster...
[preflight] FYI: You can look at this config file with 'kubectl -n kube-system get cm kubeadm-config -o yaml'
[kubelet-start] Writing kubelet configuration to file "/var/lib/kubelet/config.yaml"
[kubelet-start] Writing kubelet environment file with flags to file "/var/lib/kubelet/kubeadm-flags.env"
[kubelet-start] Starting the kubelet
[kubelet-start] Waiting for the kubelet to perform the TLS Bootstrap...

This node has joined the cluster:
* Certificate signing request was sent to apiserver and a response was received.
* The Kubelet was informed of the new secure connection details.

根据日志输出，可知当前节点已加入集群，通过kubectl get nodes命令可以正常看到节点的状态为ready，但是通过kubectl get pods -A命令查看pods状态时，看到如下的CrashLoopBackOff的异常状态，

$ kubectl get pods -A
NAMESPACE     NAME                                      READY   STATUS              RESTARTS   AGE
kube-system   kube-flannel-ds-j69g6                     0/1     CrashLoopBackOff    3          18m

通过kubectl logs命令查询pod日志可以看到报pod cidr not assigned的异常信息，

$ kubectl logs kube-flannel-ds-j69g6 -n kube-system
I0218 06:23:21.796296       1 main.go:518] Determining IP address of default interface
I0218 06:23:21.796512       1 main.go:531] Using interface with name eth0 and address 10.250.41.77
I0218 06:23:21.796525       1 main.go:548] Defaulting external address to interface address (10.250.41.77)
W0218 06:23:21.796537       1 client_config.go:517] Neither --kubeconfig nor --master was specified.  Using the inClusterConfig.  This might not work.
I0218 06:23:21.906396       1 kube.go:119] Waiting 10m0s for node controller to sync
I0218 06:23:21.906791       1 kube.go:306] Starting kube subnet manager
I0218 06:23:22.906882       1 kube.go:126] Node controller sync successful
I0218 06:23:22.906912       1 main.go:246] Created subnet manager: Kubernetes Subnet Manager - worker-0001
I0218 06:23:22.906918       1 main.go:249] Installing signal handlers
I0218 06:23:22.906963       1 main.go:390] Found network config - Backend type: vxlan
I0218 06:23:22.907016       1 vxlan.go:121] VXLAN config: VNI=1 Port=0 GBP=false Learning=false DirectRouting=false
E0218 06:23:22.907246       1 main.go:291] Error registering network: failed to acquire lease: node "worker-0001" pod cidr not assigned
I0218 06:23:22.907272       1 main.go:370] Stopping shutdownHandler...

当前发生问题的k8s版本为1.20.0，其中配置了flannel作为网络CNI插件。

2. 快速解决方案：手动分配podCIDR

这个问题主要是由于worker节点的flannel组件无法正常获取podCIDR的定义，一个快速的解决方法：可以通过执行如下命令对相应的worker节点添加podCIDR配置，

# 注意：每个worker节点的SUBNET需要区分开，否则k8s pods之间网络访问会不通。
kubectl patch node <NODE_NAME> -p '{"spec":{"podCIDR":"<SUBNET>"}}'

然后可以再次查看节点信息，

# 如下配置是cluster-cidr=172.18.0.0/16所指定网段范围内的一个子网段
$ kubectl patch node worker-0001 -p '{"spec":{"podCIDR":"172.18.1.0/24"}}'

$ kubectl describe node worker-0001
......
PodCIDR:                      172.18.1.0/24
......

过一段时间，再次查看kube-flannel-ds-j69g6 pod，可以看到已经可以正常启动，状态为RUNNING。

$ kubectl get pods -A
NAMESPACE     NAME                                      READY   STATUS              RESTARTS   AGE
kube-system   kube-flannel-ds-j69g6                     0/1     RUNNING             3          18m

这个解决方案是通过手动指定worker节点的可分配IP地址域，但是这个不是最佳的解决方案，最好找到根本原因，让flannel自动配置各个worker节点的podCIDR。

3. 异常根因和自动分配podCIDR

在k8s master集群部署中，通过kubeadm init初始化master节点时，flannel网络插件需要确保初始化命令配置了podCIDR如下启动参数，

–pod-network-cidr=172.18.0.0/16

初始化完毕之后，可以在配置文件/etc/kubernetes/manifest/kube-controller-manager.yaml中看到如下信息，

–allocate-node-cidrs=true
–cluster-cidr=172.18.0.0/16

同时在安装flannel cni网络插件时，通过kubectl apply kube-flannel.yml命令，kube-flannel配置文件中的Network参数需要和pod-network-cid保持一致，

  net-conf.json: |
    {
      "Network": "172.18.0.0/16",
      "Backend": {
        "Type": "vxlan"
      }
    }

在k8s集群上述初始化的过程中，若不小心出现如下情况，

对master主机初始化时，有1台或多台未正常配置podCIDR参数，即在kubeadm init命令中未添加pod-network-cid参数。
通过kubectl apply kube-flannel.yml命令添加flannel网络插件时，其指定的Network和pod-network-cid不一致。

新手指南：k8s集群单机部署

k8s已经成为业界容器编排技术的平台标准，本文介绍了在单机上如何部署一个k8s集群，同时承担master和worker节点角色，采用flannel网络插件搭建其底层网络模型，部署完毕之后运行一个简单nginx服务。通过部署单机k8s集群，我们可以快速进行相关k8s集群的测试、调试和学习。

本文所安装k8s版本为1.20.0。

k8s集群的单机部署主要有如下步骤，

检查和配置环境，使之符合k8s所要求。
安装k8s所需的容器运行时，本文选用了Docker。
安装k8s集群管理工具kubeadm/kubelet/kubectl。
通过kubeadm初始化k8s集群。
通过kubectl部署网络插件flannel。