到2020年,全球以电子形式存储的数据量将达到35ZB,是2009年全球存储量的40倍。而在2010年年底,根据IDC的统计,全球数据量已经达到了120万PB,或1.2ZB。大数据的特点可以概括为 4V——Volume、Variety、Value、Velocity。大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。
内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。这三大因素的结合便催生了大数据,更多相关知识:http://www.yanhuangzixun.com/。
在大数据挖掘管理基础上进行数据挖掘,需要使用MapReduce技术。未来大数据挖掘不可能在单一的数据仓库上来做,可能要按需整合多个原信息的逻辑数据仓库,代替单一数据仓库的模式。数据挖掘技术的发展从第一代的独立算法,独立的系统单个机器向量数据,现在实际上已经发展成了基于云计算的并行数据挖掘与服务。
在这个时候,同一个算法分布在多个节点上并行运行,多个算法之间也可以并行来执行。目前大数据挖掘面临诸多方面的挑战。在算法上要结合不同的分布式计算环境;系统性能方面要考虑减少同步与分布的开销;而从实现方式来看,并行数据挖掘各节点间是采用高速网络来连接的,而分布式一般是广域网,如果开展ISP业务,需要了解宽带线路。
商务智能(BI)是20世纪90年代末首先在国外企业界出现的一个术语,其代表为提高企业运营性能而采用的一系列方法、技术和软件。大数据挖掘它把先进的信息技术应用到整个企业,不仅为企业提供信息获取能力,而且通过对信息的开发,将其转变为企业的竞争优势,也有人称之为混沌世界中的智能。因此,越来越多的企业提出他们对BI的需求,把BI作为帮助企业达到经营目标的一种有效手段。
目前,商业智能通常被理解为将企业中现有的数据转化为知识,大数据挖掘帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的。