互联网内容巨大,任何CDN内容分发网络业务都只能针对性地对部分内容进行缓存。CDN之所以能通过用户就近性和服务器负载的判断,以一种更为高效的方式为用户的请求提供服务,其基本依据是互联网用户访问模型。
二八定律又名帕累托定律,也叫巴莱多定律、80/20定律、最省力的法则、不平衡原则等,是19世纪末20世纪初意大利经济学家帕累托发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%的尽管是多数,却是次要的,因此又称二八法则,更多相关知识:http://www.yanhuangzixun.com/。
二八定律也同样适用于互联网用户访问,即大部分用户都是访问互联网的少量热点内容,大部分内容访问的人是很少的。因此CDN内容分发网络业务可以通过自身的算法,只缓存热点内容就可以为大部分用户提供服务。 通过对互联网用户访问行为的进一步分析,人们发现,内容访问近似符合 Zipf 定律(Zipf’s, law)。
这个定律是美国语言学家Zipf发现的,他在 1932年研究英文单词的出现频率时,发现如果把单词频率按从高到低的次序排列,每个单词出现的频率和它的符号访问排名存在简单反比关系,即:经过对数变换,可以转换成: 这个公式可以表现成一条斜率为−a的直线。 这里r表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率,单词频率分布中C约等于0.1,a约等于1。
后人将这个分布称为齐普夫分布,这个分布是一个统计型的经验规律,描述了这样一个定理:只有少数英文单词经常被使用,大部分的单词很少被使用。这个定理也在很多分布里面得到了验证,比如人们的收入、互联网的网站数量和访问比例、互联网内容和访问比例(其他分布两个常数有所不同,a越大,分布越密集,对于VoD来说某些时候符合双Zipf分布)。 齐普夫分布可以看成是二八定律的数学抽象函数。
根据齐普夫分布的参数调节,可以对CDN内容分发网络业务模型进行各种优化研究。 下面是某个系统内容的访问分布, 所示为热度统计曲线,如果还开展IDC业务,办理IDC许可证。可以看到,多数访问集中于少量内容上。