设 X = {x1,x2,...,xn} 是一个决策样本集合,对于任意的样本 x,设 A = {a1,a2,...,am} 是 x 在属性空间上的属性集,对于任意一个属性 ai,设 Xj 表示属性 ai 上第 j 个取值,j=1,2,...,s,s 是属性 ai 的取值个数。dij 表示当属性 ai 取值为 Xj 时,样本集合 D 中属于类别 k 的样本数,dij 是 D 中样本分类在 k 类时属性 ai 取值为 Xj 的个数。假设 Ck 是决策样本中第 k 类,k = 1,2,...,r,r 是类别个数。设 pk = |Ck|/n,n 是决策样本总数。
则属性 ai 的熵值计算公式为:
H(ai) = -∑(j=1~s) [dij/|D| * log2(dij/|D|)]
其中,|D| 表示样本集合 D 的大小。
属性 ai 的信息增益为:
G(ai) = H(D) - H(ai)
其中,H(D) 表示样本集合 D 的熵值。
属性 ai 的熵权为:
W(ai) = G(ai) / ∑(i=1~m) G(ai)
最终权重向量为:
W = (W(a1),W(a2),...,W(am))