当前位置:网站首页 >> 商务智能BI >> 正文

数据仓库

转自: 时间:2005-12-27 16:55:42

概述

什么是数据仓库?

一个数据仓库包含几个处理流程,它们需要几种技术来支持。批处理和事务处理数据首先得从运行数据库中抽取出来,然后进行整理,清除掉冗余数据,补充空白和遗漏的地方,并将这些数据组织成一致的格式。最后将数据装入关系数据库中,商务分析家可利用数据获取和报表工具(包括在线分析处理(OLAP)工具、统计建模工具、地理信息系统(GIS)及数据挖掘工具等)对数据进行挖掘。

有哪些种类的分析?

分析的范围包括最基本的(查询和报表)到比较复杂的(OLAP和统计分析)再到最复杂的(数据挖掘)。基本的查询和报表通常是由职能经理来使用的,他使用预先定义好的查询来查找诸如月平均销售情况、总计地区费用和日汇总情况等。OLAP和多维分析工具更多的是为那些需要通过多维方式查看数据的商务分析家而设计的。这些工具可以帮助分析家从汇总的数据集中挖出隐藏的特殊数据。统计分析工具也能提供汇总信息,并且帮助决定两种因素之间的关系达到何等程度,比如说邮政编码与销售间的关系。数据挖掘工具用以分析很大的数据集并找出其中隐藏的模式,比如说哪些东西是顾客成双购买的。

数据仓库有什么用途?

数据仓库的用途有很多。数据仓库是客户关系管理系统的基础,因为可用来巩固客户数据,也可用于检验客户是否满意的方面。数据仓库也可用于真假货的辨别,产品重新配置的分析,利润核心的发掘以及公共资产的管理等。对于零售商来说,数据仓库有助于确定客户的人口构成特征,确定购物方式,以及改善直接邮购的反应等。对于银行来说,数据仓库有助于鉴别信用卡的真伪,有助于确定最有效益的客户,以及的找出最忠诚的客户等。电信公司可用数据仓库帮助预测哪种客户最容易有转变倾向,然后针对他们提出相应的激励措施使以留住客户。保险公司可用数据仓库进行索赔分析,看看哪种情况是被广泛索赔的,还可以区分出模范客户和危险客户。制造商可以用数据仓库来对过去几年的生产线进行比较,找出是什么因素导致了增长,再看看这些增长对整个的利润有什么效果。

建立数据仓库是否困难?

建立数据仓库并不容易。仅是确定业务数据来自哪里,如何进入系统以及将其全部存储在哪里就已经比较困难了,建立一个数据整理程序就更复杂了,这些工作要看数据收集量有多大以及数据存储操作有多复杂。一个大型发数据仓库项目通常要花上数年和数百万美元才能完成。

有没有小的数据仓库?

是的,一些公司往往从数据集市开始做起,数据集市是一种小规模的数据仓库,通常只注重为其中某一个职能部门服务,比如财政部门等。数据集市通常可以在几个月内实现,以后还可联接起来形成一个联合的数据仓库。

案例研究

半个世纪前,Manny Fingerhut在明尼阿波尼斯经营一家小车间,从汽车座椅保护罩的生产和销售,一次他从邮件中得到了一扎目录,这扎目录使Manny发现了吸引客户的新方法,他有了一个主意。从目录中,他了解到产品对那些刚买新车的人卖得最好,于是他租用了一系列的汽车注册清单,然后按清单上的名字寄出了恰当的广告信函。在四年中,他把他的业务转变成了用邮件订货的方式,这个转变使他的业务得以扩展,远超出了原来的范围,年销售额达到了1百万美元。

今天,Fingerhut公司,总部位于明尼苏达州的明尼多卡,拥有20亿美元的业务,依靠着一个巨大的数据仓库的支持,已经在制造业中生存了五十年。“要不是有数据库市场的存在,我们将一事无成”,Andy Johnson——市场部高级副总裁这样说,“它是公司的心脏和灵魂,没有它我们将不能在商业中存在。”

Johnson的团体里面,划分成约200个市场分析人员,300个创造人员(他们编撰、设计并制作出目录册),另外还有40个统计科学家,这些人员关注着数据库以洞悉其实质,使公司具有与众不同的独到之处。Fingerhut的市场营销运用了几百个错综复杂的、独有的数学公式将市场划分成各种特殊领域,以及对各项业务进行决策,诸如产品定价和对产品描述的创造性编写等。

大多数企业冒险进行数据库营销时都是同时将产品卖给无数的客户,Fingerhut在这一点上做得很成功,销售额从80年代末以来稳定增长,在1995年更是急速增长了23%,这些要归功于大家共同努力使市场营销人员变成一群懂技术的能力强的使用者。

再了解一下Fingerhut的IT部门的工作。在IT部门全部的550个人员中,有16位专门负责数据仓库,据操作和网络服务部的高级副总裁——Tom Bozlinski说,这些人员在操作和技术方面都是训练有素的。通过使用技术来帮助市场销售在宽松度和复杂度方面的增长,Bozlinski的部门对公司利润作出了直接的、显著的贡献:市场营销人员能越快地确定在人口统计方面的新商机和在行为方面的细微差别,Fingerhut就能在适当的时间提供适当的产品,从而越快地争取到客户。

数据仓库的应用——

如果你通过邮件购买了一两件商品,特别是Fingerhut销售的商品,无论任何商品的购买,拖鞋也好,立体声音响也好,该公司可能比你自己还要了解你的消费习惯。公司的目标就是要把它自己的客户以及从其他邮购机构买来的客户信息放到一起形成一个巨大的群体,大到足以调整印刷、产品及邮件等方面的成本。由于群体中的每个成员都以同样的方式进行直接销售,Fingerhut就可以将这个群体当作一个整体来处理,从而减轻随着业务量的增加而带来的负担。数据挖掘有利于Fingerhut同那些基于存储的对手进行竞争。

举个例子,Fingerhut市场营销部门最近发现,那些刚搬了新家的客户在12周内的购买量是他们过去购买量的三倍,而这其中的前4周是他们的购买高峰。他们的购买选择也遵循着一个模式——他们先去买家具、通信备和装饰品,但是暂不考虑珠宝和家电。这并不是一个什么大不了的发现,但是对Fingerhut来说却很重要。有了这个发现后,该公司不仅制作了一个新的“搬家者目录”以吸引这些客户,而且在12周内不用考虑制作其他的目录,从而节约成本。学会了吗?如果存在着某一个客户子集,不管从地理角度看有多分散,市场营销部门都必须把它搜索出来。

技术讨论

在数据仓库计划阶段必须回答的五个问题是什么?

什么数据是作出商务决策时所必需的?

哪个商务部门将使用它?

哪些数据分析必须要做?

数据应该细致到何种程度以及哪些旧数据应该融合进来?

安全性方面有什么要求?

流行用语

Cookie

网站存放在浏览者硬盘上的信息,用以鉴别用户身份和记录他们的使用模式。

数据市场(Data mart)

为某个特定的知识工作者团体服务的数据库,其中数据的来源可以是整个企业范围内的数据库或数据仓库。

数据挖掘(Data mining)

为了分析各种模式、趋势和关系而从数据仓库中提取数据的方法。

数据建模(Data modeling)

分析企业数据并确定数据间的各种关系的方法。

数据净化(Data scrubbing)

监控数据仓库并除掉那些不可信的和过时的数据。

数据仓库(Data warehouse)

一个存储了大量历史业务数据的数据库。

企业关系管理(ERM)

从销售、市场、服务、财政和制造等各种数据库中分析客户数据,以便更有效地与客户联系。

复制(Replication)

对某件东西制作副本的过程,特别当使用计算机的组件时,复制即是指将数据库从一台服务器复制到另一台服务器,这样使所有用户能共享同样的信息。

热点问题

以下是Mark Atkins,波士顿Vality技术公司的总裁和首席执行官对数据仓库相关问题的回答。

问:关于在线交易容易导致“脏”数据是怎么回事?另外如果不能保证数据的精确性那么在线交易又将面临何种问题?

答:来自众多供应商的数据是一个潘多拉的盒子。首先,它的容量绝对是庞大无比的:在线交易会收到来自成千上万的供应商的目录数据,每个供应商的目录册又有数千条的产品信息。这些数据具有不同的格式,以不同的分类方式进行组织,具有各种各样的产品编号方式及其他标识,同样的产品具有不同的名字和描述,对产品特性进行描述时采用不同的术语和缩写词。更有甚者,可能在个别的目录数据中就存在大量的错误和自相矛盾。更复杂地来看这个问题,产品数据总是在不断变化中,特别是价格,当交易时得到数据时,也许数据已经过时了。不用惊讶,对数据的规格化肯定是一项坚巨且持续的工作。但是替客户找到他们想要的东西是必须的,如果他们得不到,他们就会选择离开。这就意味着,差劲的站点目录数据将使买卖双方的成员都逐渐消失。最糟糕的情形是当错误价格出现时:如果一笔交易中采用了某供应商已经不愿再用的过时价格,这时对供应商和交易来说都将发生法律纠分了,特别是当供应商能证明其已经将正确数据送到交易系统,而交易系统却没能及时地在线发布出来时,麻烦就更大了。

问:数据质量软件或服务将怎样影响企业的盈亏,且将如何有助于商业(不仅是IT业)目标的实现?

答:下面我将根据自己的经验,给出一些实例,以说明客户从产品中得到怎样的收益。首先,有一些实在的数据能够说明数据质量软件及其服务是如何影响企业盈亏的。通过找出反复使用的化学原料,一个全球性的化学药品制造商就可以缩减27%的库存。通过整合三条不同供应链的卖方信息,一个经营杂货和药品的零售商可以在其后的采购行动中节省50万美元的开支。通过整理客户记录,一个为多家保险公司服务的事务处理票据交换所可以参考其他保险公司来确定赔付额,每三年可节省1百万美元。窗户修理是保险客户们最经常索赔的情形之一,由于窗户修理店有数量优惠政策,数据再造工程就可通过这一项政策为保险公司节约60万美元。最后,保险公司还可以找出那些有虚假索赔倾向的客户,他们交的保费比实际应付的要少3百万美元,保险公司就可针对这种情形及时采取措施。

行业预测

预计2004年,世界数据存储行业的收入将由1999年的284亿美元增长至533亿美元(年均增长率为12%)。

许多因素都正在驱动着存储需求,包括:应用软件包(客户关系管理、销售力量自动化、数据市场等),国际互联网和企业内部互联网的投资,数据仓库应用软件的增长,存储服务提供商,以及密集存储的消费者应用程序等。
资料来源:国际数据公司(IDC)

投资回报率

能够正确建立和维护数据仓库的公司就能得到良好的收益和回报。成本降低,收益增加,加强对市场营销数据库中交叉销售产品的分析,减少主机存储量,还可以找出并留住那些最能带来利润的客户,很容易理解为什么数据仓库漫延速度比车间里关于黄金的流言还要快。

举个例子,电信业可以利用数据仓库找出那些需要某种特殊电话服务的客户,比如他们不想要“覆盖式”的电话和邮件服务,不希望在吃晚餐时被讨厌的人电话打扰等。

数据仓库带来的收益部分是来自于对员工的技术性影响。如果能正确的建立和使用,数据仓库可以改使员工的工作得到改善,使他们更快地获取更精确的数据,使他们能为客户提供更好的服务。

一个公司千万不要忘记,无论怎样,任何数据仓库的项目都是以降低运作成本和产生收益为目的的,毕竟这是一项投资,将来有多少回报应该是可预期的。因此当数据仓库项目并没有给你的团体带来效益时,你应该去问问那些数据仓库专家,他们是否把钱白白扔在了水里?

更多资料

数据存储和挖掘研究中心

http://www.cio.com/research/data/

这里集中了案例分析、文章和白页等,主要探讨诸如数据挖掘、在线分析处理(OLAP)和数据存储等方面的技术问题。

Datawarehouse.com

http://www.datawarehousing.com/

这个网站的特点包括了行业新闻、事件和信息等,可以订阅他们的实事通讯和目录服务器。

dataWarehouse.com

http://www.datawarehouse.com/home/

这个网站拥有一个交互式的研究中心,称为“iknowledge”,可以提供电子研讨会、白页、每日新闻和实时讨论等服务。

DataWarehousingonline.com

http://www.datawarehousingonline.com/

提供大量的数据仓库资源,包括工具、趋势、卖主、事件和产品等信息。

数据仓库信息中心

http://www.dwinfocenter.org/

与数据仓库相关的个人观点和评论,可以找到一些非传统的信息。

计算机世界—数据管理

http://www.computerworld.com/cwi/research_links/research_content/0,1894,NAV63-129-1375-1385_LNK142,00.html

这个计算机世界的网页提供了一些相关链接,可找到有关的书籍、培训、协会、出版物和与计算机世界的自有资料。

对上述资料有任何问题可查阅参考资料:http://www.cio.com/summaries/enterprise/data/biblio.html

by AMT 编译


(编辑:yc)
发表评论】【关闭窗口】【返回顶部
站内搜索



广告
英文商业与管理类杂志