dble-Hash And ConsistentHashing And Jumpstringhash

Questions

dble中的hash和一致性hash是否相同
为什么没有一致性hash

Conclusions

dble中的hash并非一致性hash
从一致性hash的性能和均衡性来看，已被跳增一致性hash取代

Instructions

dble-hash

配置如下：
sharding.xml

<function name="hashLong" class="hash">
<property name="partitionCount">1,2</property>
<property name="partitionLength">10,20</property>
</function>

或者

<function name="hashLong" class="hash">
<property name="partitionCount">4</property>
<property name="partitionLength">10</property>
</function>

注意： partitionCount：指定分区的区间数
partitionLength：指定各区间的长度
模值（M）为最后一个区间段的末尾值（C1L1 + ... + CnLn）

对于dble-hash来说，该算法可以均匀地将数据分布到各个节点。

例如：
Count=2,Length=2 -> [0,2)[2,4) -> 模值=4
key分别取值：1,2,3,4,5,6,7,8
数据分布情况如下：

node1	node2
1,4,5,8	2,3,6,7

当增加一个节点，使Count=3,Length=2 -> [0,2)[2,4)[4,6) -> 模值=6 key分别取值：1,2,3,4,5,6,7,8
数据分布情况如下：

node1	node2	node3
1,6,7	2,3,8	4,5

从这个例子中我们可以看出：当节点数增加时，大多数旧的数据都需要重新分布，而重新分布的成本就是需要在count数发生变化的时候，进行数据迁移，大多数的数据都需要重新移动。

summary

因此，对于这种算法，当node数发生变化（增加、移除）后，大多数旧的数据都需要重新分布，并进行数据迁移。

Consistent Hashing

一致性哈希，将整个哈希值空间组织成一个虚拟的圆环，整个空间按顺时针方向组织。例如我们有NodeA、Node B、Node C、Node D四个节点，有数据A、数据B、数据C、数据D四个数据对象，根据一致性哈希算法，数据A会被分布到Node A上，B被分布到Node B上，C被分布到Node C上，D被分布到Node D上:

数据A ——> NodeA
数据B ——> NodeB
数据C ——> NodeC
数据D ——> NodeD

现假设Node C不幸宕机，此时数据A、B、D不会受到影响，只有数据C被重分布到Node D。如果在系统中增加一台服务器Node X:

数据A ——> NodeA
数据B ——> NodeB
新增 ——> NodeX
数据C ——> NodeC
数据D ——> NodeD

数据A、B、D不受影响，只有数据C需要重分布到新的Node X 。也就是说旧数据之间不会发生数据的变动。

虽然一致性Hash算法解决了节点变化导致的数据迁移问题，但是数据项分布的均匀性不够好。一致性哈希算法分布不均匀的原因是因为：将node进行哈希后，这些值并没有均匀地落在环上，因此，这些节点所管辖的范围（每个节点实际占据环上的区间大小不）并不均匀，最终导致了数据分布的不均匀。

因此，为使得每个节点在环上所“管辖”更加均匀，一致性哈希算法引入了虚拟节点机制，即对每一个服务节点计算多个哈希，每个计算结果位置都放置一个服务节点，称为虚拟节点。

例如：
我们有NodeA、Node B；可以为每台服务器计算三个虚拟节点，于是可以分别计算 “Node A#1”、“Node A#2”、“Node A#3”、“Node B#1”、“Node B#2”、“Node B#3”的哈希值，形成六个虚拟节点。
同时数据定位算法不变，只是多了一步虚拟节点到实际节点的映射，例如定位到“Node A#1”、“Node A#2”、“Node A#3”三个虚拟节点的数据均定位到Node A上,“Node B#1”、“Node B#2”、“Node B#3”三个虚拟节点的数据均定位到Node B上，用来解决分布不均的问题。

Node A#1 ——> NodeA
Node A#2 ——> NodeA
Node A#3 ——> NodeA
Node B#1 ——> NodeB
Node B#2 ——> NodeB
Node B#3 ——> NodeB

因此，通过增加虚节点的方法，使得每个节点在环上所“管辖”更加均匀。这样就既保证了在节点变化时，尽可能小的影响数据分布的变化，而同时又保证了数据分布的均匀。也就是靠增加“节点数量”加强管辖区间的均匀。

summary

对于一致性hash算法来说，当node数发生变化（增加、移除）后，旧的数据之间没有发生变动，只是需要将部分旧数据重新分布到新的节点。

Jumpstringhash

配置如下：
sharding.xml

<function name="jumphash" class="jumpStringHash">
<property name="partitionCount">2</property>
<property name="hashSlice">0:2</property>
</function>

注意： partitionCount：分片数量 hashSlice：分片截取长度

该算法该算法来自于Google的一篇文章A Fast, Minimal Memory, Consistent Hash Algorithm，核心思想是通过概率分布的方法将一个hash值在每个节点分布的概率变成1/n，并且可以通过更简便的方法可以计算得出，并且分布也更加均匀。
设计目标是把对象均匀地分布在所有节点中（平衡性）；当节点数量变化时，只需要把一些对象从旧节点移动到新节点，不需要做其它移动（单调性）。

根据论文原理，可以这样说明：

假设我们有四个节点，比作为四个桶，分别是：0,1,2,3。
数据落入第一个桶(0)的概率是1；落入第二个桶(1)的概率是1/(n+1)，也就是1/2；落入第三个桶(2)的概率是1/(n+1)，也就是1/3；落入第四个桶(3)的概率是1/(n+1)，也就是1/4。
由此，一般规律是：数据落入每个桶中的概率，有占比 n/(n+1) 的结果保持不变，而有 1/(n+1) 跳变为 n+1。
而每个数据都是落入至index（max）中，比如数据a有概率分布至0,1,2,3四个桶中，那么最终会落入至3内。

当增加一个桶时：由0,1,2,3变为0,1,2,3,4，需要重新分布的数据仅是每个桶内有概率分布到新桶内的数据，旧数据之间不会发生变化。

summary

由于Jumpstringhash采用的是概率分布的结果，因此计算相对于一致性hash较简单。

Jumpstringhash相比于一致性hash算法来说，占用内存更小，计算更快，数据分布更均匀；

Jumpstringhash和一致性hash算法，对于节点变动的情况下，都是将部分旧数据重新分布到新节点上，旧数据之间不会发生变动；

Jumpstringhash和一致性hash算法相比于dble-hash来说，节点变动的情况下，旧数据之间不会发生变动；

dble-hash相比于Jumpstringhash和一致性hash算法来说，最大的优势在于计算方便，可以人为的快速计算出结果。

Hash And ConsistentHashing And Jumpstringhash

dble-Hash And ConsistentHashing And Jumpstringhash

Questions

Conclusions

Instructions

dble-hash

summary

Consistent Hashing

summary

Jumpstringhash

summary

results matching ""

No results matching ""