masterbatch,paper-cutting是单数还是复数

大家好,masterbatch相信很多的网友都不是很明白,包括paper-cutting是单数还是复数也是一样,不过没有关系,接下来就来为大家分享关于masterbatch和paper-cutting是单数还是复数的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!

canal安装需要安装数据库吗

本文主要描述AlibabaCanal中间件,官方文档请参考:

1)gitlab:https://github.com/alibaba/canal

2)主要原理介绍:https://github.com/alibaba/canal/wiki/canal%E4%BB%8B%E7%BB%8D

2)运维操作文档:https://github.com/alibaba/canal/wiki/AdminGuide

下文的介绍,基于大家对上述文档的基本了解!

1)Canal版本为:1.0.24

2)通过Canal同步数据库数据变更事件,并由下游的消费者消费,将数据转存到ES或者跨机房的DB中。

一、设计目标

1、监控canal组件以及客户端消费者

2、通过平台,能够实时查看监控数据。canal问题的定位应该快速,且运行状态数据可见。

3、按需提供报警策略。

4、平台支持添加canal集群的监控。

5、canal组件的部署和使用遵守约定,canal的实施应该快速。

我们希望构建一个canal服务:根据用户需求,能够快速构建canal集群,包括环境隔离;此外canal组件、上游的MySQL、下游的consumer等数据链路的整体状态都在监控之中,且数据可见。我们希望任何利益相关者,都可以参与到数据决策中,并按需提供报警、预警机制。

二、基于Canal架构设计

1、整体架构

1)、每个Canal集群应该至少有2个Canal实例,软硬件配置应该对等。我们不应该在同一个Cluster的多个节点上,配置有任何差异。

2)、一个Canal可以多个“instances”,每个instance对应一个“MySQL实例”的一个database(专业来说,一个instance对应一个MySQL实例,支持其上的多个databases);简单而言,我们认为一个instance相当于一个逻辑Slave。

3)、由2、可以得出,每个CanalInstance的全局处理的数据总量与一个正常的MySQLSlave相同,如果保持同等SLA,从Canalinstance角度考虑,它的硬件能力应该与MySQLSlave保持相同。(同为单线程处理)。

4)、原则上,每个Canal可以支持“数十个instance”,但是instance的个数最终会影响instance同步数据的效能。我们建议,一个Canal尽量保持一个instance;除非Slave数据变更极小,我们才会考虑合并instances,以提高Canal组件的利用效率。

5)、每个instance,一个单独的处理线程,用于负责“binlogdump”、“解析”、“入队和存储”。

6)、Canal集群模式,必须依赖Zookeeper,但是对Zookeeper的数据交互并不频繁。

7)、Canal集群运行态,为“M-S”模式。但是“M-S”的粒度为“instance”级别。如果当前Canal的instance,与MySQL建立连接并进行binlog解析时,发生一定次数的“网络异常”等,将会判定为当前instance失效,并stop(备注:此时会删除注册在ZK的相关临时节点)。同时,集群中的每个Canal都会注册所有“destination”(每个destination将有一个instance服务)的状态变更事件,如果“临时节点”被删除(或者不存在),则会出发抢占,抢占成功,则成为此instance的Master。

(源码:CanalController.initGlobalConfig(),

ServerRunningMonitor.start(),

HeartBeatHAController.onFailed()

8)、根据7、,我们得知,如果Canal组件中有多个instances,有可能这些instances的Master会分布在不同的Canal节点上。

9)、在运维层面,我们基于“default-instance.xml”配置,基于“spring”模式;每个instance的配置,放置在各自的文件夹下。(${canal.root}/conf/${destination}/instance.properties)

10)、每个Canal节点,在启动时会初始化一个“嵌入式server”(NettyServer),此server主要目的是向Consumer提供服务。server的“ip:port”信息会注册在ZK中,此后Consumer通过ZK来感知。

(源码:

ServerRunningMonitor.initRunning(),

ClusterNodeAccessStrategy构造方法,

ZookeeperPathUtils.getDestinationServerRunning(destination)

11)、在Canal运行期间,可以动态的增加instances配置、修改instances配置。

2、Canal内部组件解析

1)Canal节点,可以有多个instances,每个instance在运行时为一个单独的SpringContext,对象实例为“CanalInstanceWithSpring”。

2)每个instances有一个单独的线程处理整个数据流过程。

3)instance内部有EventParser、EventSink、EventStore、metaManager主要四个组件构成,当然还有其他的守护组件比如monitor、HA心跳检测、ZK事件监听等。对象实例初始化和依赖关系,可以参见“default-instance.xml”,其配置模式为普通的Spring。

(源码参见:SpringCanalInstanceGenerator)

4)Parser主要用于解析指定”数据库”的binlog,内部基于JAVA实现的“binlogdump”、“showmasterstatus”等。Parser会与ZK交互,并获取当前instance所有消费者的cursor,并获其最小值,作为此instance解析binlog的起始position。目前的实现,一个instance同时只能有一个consumer处于active消费状态,ClientId为定值“1001”,“cursor”中包含consumer消费binlog的position,数字类型。有次可见,Canalinstance本身并没有保存binlog的position,Parser中继操作是根据consumer的消费cursor位置来决定;对于信息缺失时,比如Canal集群初次online,且在“default-instance.xml”中也没有指定“masterPositiion”信息(每个instance.properties是可以指定起始position的),那么将根据“showmasterstatus”指令获取当前binlog的最后位置。

(源码:MysqlEventParser.findStartPosition())

5)Parser每次、批量获取一定条数的binlog,将binlog数据封装成event,并经由EventSink将消息转发给EventStore,Sink的作用就是“协调Parser和Store”,确保binglog的解析速率与Store队列容量相容。

(参见源码:AbstractEventParser.start(),

EntryEventSink.sink()

6)EventStore,用于暂存“尚未消费”的events的存储队列,默认基于内存的阻塞队列实现。Store中的数据由Sink组件提交入队,有NettyServer服务的消费者消费确认后出队,队列的容量和容量模式由“canal.properties”中的“memory”相关配置决定。当Store中容量溢满时,将会阻塞Sink操作(间接阻塞Parser),所以消费者的效能会直接影响instance的同步效率。

7)metaManager:主要用于保存Parser组件、CanalServer(即本文中提到的NettyServer)、CanalInstances的meta数据,其中Parser组件涉及到的binlogposition、CanalServer与消费者交互时ACK的Cursor信息、instance的集群运行时信息等。根据官方解释,我们在production级别、高可靠业务要求场景下,metaManager建议基于Zookeeper实现。

其中有关Position信息由CanalLogPositionManager类负责,其实现类有多个,在Cluster模式下,建议基于FailbackLogPositionManager,其内部有“primary”、“failback”两级组合,优先基于primary来存取Position,只有当primary异常时会“降级”使用failback;其配置模式,建议与“default-instance.xml”保持一致。

(参看源码:CanalMetaManager,PeriodMixedMetaManager)

3、Consumer端

1)Consumer允许分布式部署,多个对等节点互备。但是任何时候,同一个destination的消费者只能有一个(client实例),这种排他、协调操作由zookeeper承担。在Cluster模式下,指定zkServer的地址,那么Consumer将会从meta信息中获取指定destination所对应的instance运行在哪个Canal节点上,且CanalServer(即NettyServer)的ip:port信息,那么此时Consumer将根据“ip:port”与NettyServer建立连接,并进行数据交互。

(参见源码:SimpleCanalConnector.connect(),

ClientRunningMonitor.start()

2)Consumer有序消费消息,严格意义上说,我们强烈建议Consumer为单线程逐条处理。尽管研发同学,有很多策略可以让消息的处理过程使用多线程,但是对于消息的ACK将需要特殊的关注,而且非有序情境下,或许会对你的数据一致性有一定的影响。

3)消费者的消费效率,取决于“业务本身”,我们建议业务处理尽可能“短平快”。如果你的业务处理相对耗时,也不建议大家再使用“比如MQ、kafka”等其他异步存储做桥接,因为这本质上对提高endpoint端效能没有太大帮助,反而增加了架构的复杂性。

4)我们严格限制:消费者在处理业务时,必须捕获所有异常,并将异常的event和处理过程的exception打印到业务日志,以备将来进行数据补偿;捕获异常,有助于Consumer可以继续处理后续的event,那么整个canal链路不会因为一条消息而导致全部阻塞或者rollback。

5)Consumer单线程运行,阻塞、流式处理消息,获取event的方式为pull+batch;每个batch的size由配置决定,一个batch获取结束后,将会逐个调用业务的process方法,并在整个batch处理结束后,按需进行ack或者rollback。

6)需要注意:rollback操作是根据batchId进行,即回滚操作将会导致一个batch的消息会被重发;后续有重复消费的可能,这意味着业务需要有兼容数据幂等的能力。

7)消费者的ClientId为定值:1001,不可修改。

三、部署与最佳实践(建议)

1、Canal集群部署

1)Production场景,节点个数至少为2,考虑到Canal自身健壮性,也不建议Canal单组集群的节点数量过多。

2)Canal节点为“网络IO高耗”、“CPU高耗”(并发要求较高,体现在instance处理、consumer交互频繁)型应用,对磁盘IO、内存消耗很低。

3)不建议Canal与其他应用混合部署,我们认定Canal为核心组件,其可用性应该被保障在99.99%+。

4)每个Canal集群的instances个数,并没有严格限制,但其所能承载的数据量(TPS,包括consumer+binlogparser)是评估instances个数的主要条件。考虑到Production级别数据变更的场景不可控,我们建议每个Canal集群的instance个数,应该在1~3个。

5)对于核心数据库、TPS操作较高的数据库,应该使用单独的Canal。

6)Canal集群的个数多,或者分散,或者利用率低,并不是我们特别关注的事情,不要因为过度考虑“资源利用率”、“Consumer的集中化”而让Canal负重。

7)Canal的配置,绝大部分可以使用“默认”,但是要求在Production场景,instance模式必须使用Spring,配置方式采用“default-instance.xml”。“default-instance.xml”默认配置已满足我们HA环境下的所有设计要求。(版本:1.0.24)

8)Canal机器的配置要求(最低):4Core、8G;建议:8Core、16G。

9)Canal的上游,即MySQL实例,可以是“Master”或者任意level的Slave,但是无论如何,其binlog_format必须为ROW,通过使用“showvariableslike’binlog_format””来确定。目前已经验证,使用mixed模式可能导致某些UPDATE操作事件无法被消费者解析的问题。

2、Zookeeper集群

1)Zookeeper集群,要求至少3个节点。网络联通性应该尽可能的良好。

2)多个CanalCluster可以共享一个ZK集群,而且建议共享。那么只需要在canal.properties文件中“zkServers”配置项增加“rootPath”后缀即可,比如“10.0.1.21:2181,10.0.1.22:2181/canal/g1”。但是不同的Canalcluster,其rootPath应该不同。我们约定所有的Canal集群,rootpath的都以“/canal/”开头。(这对我们后续的ZK监控比较有利,我们只需要遍历”/canal”的子节点即可知道集群信息)

3)业界也有一种通用的部署方式,zookeeper集群与canal共生部署,三个节点,每个节点上都部署一个ZK和canal;这种部署模式的出发点也是比较简单,分析canal问题时只需要通过本地zk即可。(仅为建议)

4)需要非常注意,rootpath必须首先创建,否则canal启动时将会抛出异常!

3、Consumer集群

1)Consumer实例为普通application,JAVA项目,Spring环境。

2)Consumer集群至少2个节点,分布式部署。运行态为M-S。

3)每个Consumer实例为单线程,Consumer本身对CPU、内存消耗较低,但是对磁盘有一定的要求,因为我们将会打印大量的日志。建议磁盘为200G+,logback的日志格式应该遵守我司规范,后续承接ELK基础数据平台。

4)一个Application中,允许有多个Consumer实例。

5)Consumer的业务处理部分,必须捕获全部异常,否则异常逃逸将可能导致整个链路的阻塞;对于异常情况下,建议进行日志记录,稍后按需进行数据补偿。

6)Consumer的业务处理部分,我们要求尽可能的快,业务处理简单;最重要的是千万不要在业务处理部分使用比如“Thread.sleep”、“Lock”等阻塞线程的操作,这可能导致主线程无法继续;如果必须,建议使用分支线程。

7)如果你对消息的顺序、事务不敏感,也允许你在业务处理部分使用多线程,这一部分有一定的歧义,所以需要开发者自己评估。从原理上说,多线程可以提高消息消费的效率,但是对数据一致性可能会有影响。但是Consumer的Client框架,仍然坚守单线程、有序交付。

8)在CanalServer和Consumer端,都能指定“filter”,即“过滤不关注的schema消息”;在CanalServer启动时将会首先加载“instance.properties”中的filter配置并生效,此后如果instance的消费者上线且也指定了filter,那么此filter信息将会被注册ZK中,那么CanalServer将会基于ZK获取此信息,并将Consumer端的filter作为最终决策;由此可见,我们在Consumer端指定filter的灵活性更高(当然隐蔽性也增加,这对排查问题需要一些提前沟通),无论如何,CanalServer不会传送“不符合filter”的消息给Consumer。

4、Filter规则描述:适用于instance.properties和Consumer端的subscribe()方法

1)所有表:.*or.*\\..*

2)canalschema下所有表:canal\\..*

3)canal下的以canal打头的表:canal\\.canal.*

4)canalschema下的一张表:canal.test1

5)多个规则组合使用:canal\\..*,mysql.test1,mysql.test2(逗号分隔)

5、运行状态监控

非常遗憾的是,Canal监控能力相当的弱,内部程序中几乎没有JMX的任何export机制,所以如果需要监控比如“slave延迟”、“消费速率”、“position”等,需要开发代码。思路如下:

1)开发一个JAVAWEB项目。

2)读取ZK中的相关META信息,解析出每个destination对于的slave地址,并创建JDBC连接,发送“showmasterstatus”等指令,查看此slavebinlog的位置,用于判断Canal延迟。

3)读取ZK中相关META信息,解析出每个destination对应的consumercursor,与2)进行对比,用于判定consumer的消费延迟。

四、Canal核心配置样例

1、canal.properties(${canal.root}/conf)

Java代码

##当前canal节点部署的instances列表,以“,”分割

##比如:test,example

canal.destinations=example

##canal配置文件主目录,保持默认即可。

##除非你为了提高canal的动态管理能力,将conf文件迁移到了其他目录(比如NFS目录等)

canal.conf.dir=../conf

#是否开启“instance”配置修改自动扫描和重载

##1)conf.dir目录下新增、删除instance配置目录

##2)instance配置目录下的instance.properties变更

##不包含:canal.properties,spring/*.xml的配置变更

##如果环境隔离、测试充分的环境下,或者应用试用初期,可以开启

##对于高风险项目,建议关闭。

canal.auto.scan=true

canal.auto.scan.interval=5

##instance管理模式,Production级别我们要求使用spring

canal.instance.global.mode=spring

##直接初始化和启动instance

canal.instance.global.lazy=false

##Production级别,HA模式下,基于default-instance.xml

##需要即备的ZK集群,且不应该修改此文件的默认配置。

##如果有自定义的场景,应该新建${instance}-instance.xml文件

canal.instance.global.spring.xml=classpath:spring/default-instance.xml

##canalserver的唯一标识,没有实际意义,但是我们建议同一个cluster上的不同节点,其ID尽可能唯一(后续升级)

##数字类型

canal.id=1

##canalserver因为binding的本地IP地址,建议使用内网(唯一,集群可见,consumer可见)IP地址,比如“10.0.1.21”。

#此IP主要为canalServer提供TCP服务而使用,将会被注册到ZK中,Consumer将与此IP建立连接。

canal.ip=

##conalserver的TCP端口

canal.port=11111

##Production场景,HA模式下,比如使用ZK作为服务管理,此处至少指定“多数派ZKNode”的IP列表

##如果你的多个CanalCluster共享ZK,那么每个Canal还需要使用唯一的“rootpath”。

canal.zkServers=10.0.1.21:2818,10.0.1.22,10.0.2.21:2818/canal/g1

#flushdatatozk

##适用于metaManager,基于period模式

##metaManager优先将数据(position)保存在内存,然后定时、间歇性的将数据同步到ZK中。

##此参数用于控制同步的时间间隔,建议为“1000”(1S),单位:ms。

##运维或者架构师,应该观察ZK的效能,如果TPS过于频繁,可以提高此值、或者按Canal集群分离ZK集群。

##目前架构下,Consumer向CanalServer提交ACK时会导致ZK数据的同步。

canal.zookeeper.flush.period=1000

##canal将parse、position数据写入的本地文件目录,HA环境下无效。

##(file-instance.xml)

canal.file.data.dir=${canal.conf.dir}

canal.file.flush.period=1000

##内存模式,EventStore为Memory类型时。(default-instance.xml)

##可选值:

##1)MEMSIZE根据buffer.size*buffer.memunit的大小,限制缓存记录的大小,简答来说,就是内存容量大小限制

##2)ITEMSIZE根据buffer.size进行限制,简单来说,就是根据event的条数限制。

##如果Canal上的instances个数有限,且Consumer的消费效率很高,甚至接近或者高于binlog解析效率,那么可以适度增加memory有关的数值。

##此外batchMode还与消费者的batchSize有些关系,消费者每次能消费的数据量,取决于此mode。

##如果mode为itemSize,则consumer每次获取的消息的条数为batchSize条。

##如果mode为memSize,那么consumer消费的数据总量为batchSize*memunit

canal.instance.memory.batch.mode=MEMSIZE

canal.instance.memory.buffer.size=16384

canal.instance.memory.buffer.memunit=1024

#所能支撑的事务的最大长度,超过阈值之后,一个事务的消息将会被拆分,并多次提交到eventStore中,但是将无法保证事务的完整性

canal.instance.transaction.size=1024

#当instance.properties配置文件中指定“master”、“standby”时,当canal与“master”联通性故障时,触发连接源的切换,

##那么切换时,在新的mysql库上查找binlog时需要往前“回退”查找的时间,单位:秒。

##良好架构下,我们建议不使用“standby”,限定一个数据库源。因为多个源时,数据库的调整频繁、协调不足,可能会引入一些数据问题。

canal.instance.fallbackIntervalInSeconds=60

##有关HA心跳检测部分,主要用在Parser管理dump连接时使用。

##我们在HA环境时建议开启。

canal.instance.detecting.enable=true

#如果你需要限定某个database的可用性验证(比如库锁),

#最好使用复杂的、有效的SQL,比如:insertinto{database}.{tmpTable}….

canal.instance.detecting.sql=select1

##心跳检测频率,单位秒

canal.instance.detecting.interval.time=6

##重试次数

##非常注意:interval.time*retry.threshold值,应该参考既往DBA同学对数据库的故障恢复时间,

##“太短”会导致集群运行态角色“多跳”;“太长”失去了活性检测的意义,导致集群的敏感度降低,Consumer断路可能性增加。

canal.instance.detecting.retry.threshold=5

#如果在instance.properties配置了“master”、“standby”,且此参数开启时,在“探测失败”后,会选择备库进行binlog获取

#建议关闭

canal.instance.detecting.heartbeatHaEnable=false

#CanalServer、instance有关的TCP网络配置,建议保持抱人

canal.instance.network.receiveBufferSize=16384

canal.instance.network.sendBufferSize=16384

canal.instance.network.soTimeout=30

#Parser组件,有关binlog解析的过滤

##是否过滤dcl语句,比如“grant/createuser”等

canal.instance.filter.query.dcl=false

##dml语句:insert/update/delete等

canal.instance.filter.query.dml=false

##ddl语句:createtable/altertable/droptable以及一些index变更

canal.instance.filter.query.ddl=false

canal.instance.filter.table.error=false

canal.instance.filter.rows=false

#binlog格式和“镜像”格式检测,建议保持默认

canal.instance.binlog.format=ROW,STATEMENT,MIXED

canal.instance.binlog.image=FULL,MINIMAL,NOBLOB

#ddl是否隔离发送,保持默认

canal.instance.get.ddl.isolation=false

canal.properties为全局配置,约束所有的instances、CanalServer等。

2、instance.properties(${canal.root}/conf/{instance})

Java代码

##每个instance都会伪装成一个mysqlslave,

##考虑到binlog同步的机制,我们需要指定slaveId,注意此ID对于此canal前端的MySQL实例而言,必须是唯一的。

##同一个Canalcluster中相同instance,此slaveId应该一样。

##我们约定,所有Canal的instance,其slaveId以“1111”开头,后面补充四位数字。

canal.instance.mysql.slaveId=11110001

#数据库相关:master库

##备注,master并不是要求是“MySQL数据库Master”,

##而是Canalinstance集群模式下,HA运行态中“master”(首选节点)

##当在故障恢复、Canal迁移时,我们需要手动指定binlog名称以及postition或者timestamp,确保新Canal不会丢失数据。

##数据库实例地址,ip:port

canal.instance.master.address=127.0.0.1:3306

##指定起始的binlog文件名,保持默认

canal.instance.master.journal.name=

##此binlog文件的position位置(offset),数字类型。获取此position之后的数据。

canal.instance.master.position=

##此binlog的起始时间戳,获取此timestamp之后的数据。

canal.instance.master.timestamp=

##standby库

##考虑到我司现状,暂不使用standby

#canal.instance.standby.address=

#canal.instance.standby.journal.name=

#canal.instance.standby.position=

#canal.instance.standby.timestamp=

#数据库连接的用户名和密码

#貌似Consumer与CanalServer建立连接时也用的是此用户名和密码

canal.instance.dbUsername=canal

canal.instance.dbPassword=canal

#默认数据库

canal.instance.defaultDatabaseName=

canal.instance.connectionCharset=UTF-8

#schema过滤规则,类似于MySQLbinlog的filter

#canal将会过滤那些不符合要求的table,这些table的数据将不会被解析和传送

#filter格式,Consumer端可以指定,只不过是后置的。

##无论是CanalServer还是Consumer,只要有一方指定了filter都会生效,consumer端如果指定,则会覆盖CanalServer端。

canal.instance.filter.regex=.*\\..*

#tableblackregex

canal.instance.filter.black.regex=

3、default-instance.xml(${canal.root}/conf/spring)

建议保持默认

paper-cutting是单数还是复数

单数

papercutting:当意思是剪纸艺术,表艺术类别,属于不可数名词,用单数;

但是一张剪纸,两张剪纸。这个就是可数名词了:apieceofpapercutting,apairofpapercutting

如:

Shesaidallthestudentsatschoolhadtolearnpapercutting.她说学校里所有的学生都必须学习剪纸

papercutting用作名词时有两个用法:一是表示“剪纸”的动作、行为、过程等,此时它是不可数名词,

例:theartofpapercutting剪纸的艺术

Sheissaidtobeamasterofpapercutting.她被认为是位剪纸大师。

二是表示“剪纸”的结果,即具体剪出的东西,它则是可数名词,

如:Thesepapercuttingscosthimthreedays.这些剪纸花了他3天的时间。Theyputuppapercuttingsontheirwindows,too.他们也在窗户上贴剪纸。

另外,papercutting还可表示“剪报”,可视为newspapercutting的简略式,也是可数的。

如:ayellowednewspapercutting发黄的剪报Hepassedroundanewspapercutting.他把一张剪报让大家传阅。

Shebroughtalargebatchofnewspapercuttings.她带来了一大堆剪报。

关于本次masterbatch和paper-cutting是单数还是复数的问题分享到这里就结束了,如果解决了您的问题,我们非常高兴。

歌词资讯

只会逃避 / 歌手:季彦霖 歌词/歌曲/MV下载

2024-5-5 8:28:01

歌词资讯

家缘梦 / 歌手:张师羽 歌曲下载

2024-5-5 8:30:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索