盈亏问题隐现,革新仍在继续
今天的数据仓库开发者和商家们在一个充满压力但又有美好前景的茅盾环境中探索着,数据仓库项目必须采用低成本的方法,企业对这样一个没有准确的投资回报率估算的新事物均持以谨慎的态度。同时,革新项目仍在继续投资,因为这些项目最终能带来商业价值,并直接影响企业的盈利状况。因此,当许多企业还在被预算压力或过去的数据仓库项目的失败困扰时,另一些企业却在稳步前进,它们的所采取的行动使它们能够成功地处理比以前任何时候都更多的数据,并达到空前的企业范围内的集成。这些截然不同的经历使我们很难判断数据仓库技术是否进步了,但经过对企业进行的仔细观察,我们得出了一个关于重要挑战、技术和市场驱动因素的简短列表。最终,我们提出未来数据仓库发展的十个趋势。
趋势十:越来越注重盈亏问题
坚难的经济环境迫使企业除了收入增长外,还得认真考虑收益率问题。这种不断增加的对盈亏问题的注意力影响到了IT项目,其中包括数据仓库,最终导致各级水平上的成本削减。META集团估计,约有80%的企业正在考虑调整数据仓库项目或是削减开支。对于削减数据仓库开支的方法包括:合并存贮、采用分等级服务协定、管理开发过程以最小化复杂性、提高现有系统的性能等等。新的数据仓库项目仍将不断进行,但是企业不会再妄想一步登天去做那些对盈利没有直接影响的事,它们只想使用在过去几年中所购买的软硬件,而不想再买更多东西;它们还想有一个明确的商业案例,明确的投资回报率和更短的回报周期。数据仓库的特性使这些要求很难得以满足,因为其投资回报率几乎是不可能计算的,而且项目时间也往往要比预计时间延长数月。但是,企业也找到了减少数据仓库投资风险的办法,包括不断强调需求明确性、在项目开始前进行仔细的数据评估、设定明确的项目边界等。企业还可以将大型数据仓库项目划分成若干小项目,以保证项目范围得到控制并尽快见效。
趋势九:强调应用程序 VS 数据仓库
对大多企业来说,数据仓库不再是单独的一件事。由于需要确定投资回报率,信息系统部门就得想法使数据仓库可以调用各种应用程序,诸如商务智能、营销自动化和客户数据集成等软件。这些应用程序跟数据仓库比较起来,它们的见效期更短、商业价值更明显,非技术性的管理人员一般难以运用数据仓库。另外,由于近些年许多数据仓库项目的失败或麻烦,一些企业在这个问题上已变得很谨慎了。把注意力转向应用程序并不意味着企业会停止开展数据仓库项目,上面所提到的所有的应用程序都要依赖于数据仓库或数据市场提供信息。数据仓库项目跟以前一样是必需的,但可能会尽量跟应用程序联系起来以便于计算投资回报率和调整项目成本。
趋势八:越来越了解如何对“成功或失败”问题作出正确分析
在企业仓促着手建立数据仓库或其它分析型知识库时,数据质量或元数据这些重要问题经常被忽视,其后果就是,很多企业现今发现他们的行动成功性打了不少折扣,因为他们不能确定“成功或失败”问题。数据质量问题和元数据的缺乏会严重影响用户对数据仓库的接受程度,也只能得到可怜的分析结果和不正确的决策。Gartner集团认为,直到2005年之前,50%的商务智能和CRM项目都将因为对数据质量问题不够重视而受到困扰。META集团声称,他们的调查结果表明:高度成功的数据仓库项目始终离不开元数据的支持。虽然对于确定那些“成功或失败”问题的重要性正在逐步得到认识,但在接下去的几年中仍会有一些企业继续忽视它们,因为这是一个相当复杂的问题,需要花费时间和精力去确定他们。
趋势七:非结构化信息的增长
企业正面临着非结构化和半结构化数据的增长,包括图像、声音、视频、XML以及其它的数据类型。同时,相关的技术也在不断出现,使企业可以采用跟以前处理传统的结构化数据资源的方式,来存储和挖掘这些数据。关系数据库管理系统(RDBMS)的开发商如Oracle和微软等都正在增加对非结构化和半结构化数据管理的支持。其他一些开发商采用了基于数据库顶层的第三方软件,使用户可以用单一的界面来管理多种类型的数据。在将来的几年中,如果不采用这些工具,想真正把非结构化和半结构化数据集成到当前企业的数据体系中是不可能的。尽管RDBMS开发商提供了对不同类型数据的支持,另一些数据工程的组件却仍然做不到这点,比如ETL和数据质量工具等,企业将不得不为不同的数据结构维护不同的信息处理系统。
趋势六:快速反应的决策支持
电子商务的不断增长驱使着企业去寻找共享数据和对机会快速反应的方法,虽然真正的实时决策支持基本是不可能的(也是不必的),但数据仓库技术的进步却使快速反应的决策支持得以实现。在数分钟或数秒钟内对数据进行分析和对事件作出反应的能力有助于企业在各方面的行动,比如供应链管理、客户服务和商务性能管理等。
企业可以选择更多的方法来获取接近实时决策支持的能力,一些开发商为实施快速反应决策支持提供了“成包”的解决方案。Teradata推出了动态数据仓库的概念,其本质是将数据仓库和一个运作数据存储结合起来,以便对数据同时更新,并从同一个中央仓库中获取时间敏感性数据和详细历史数据。康柏的零延时企业框架采用EAI工具向中央联机数据系统提供实时数据。有些企业试着自己建立快速反应决策支持系统,包括建立更快的批处理环境以及在传统的统计数据仓库前方划分出一个实时部分等。
趋势五:EAI和ETL工具的集成
随着快速反应决策支持对企业显得越来越重要,ETL开发商开始与企业应用程序集成(EAI)开发商合作,因为EAI开发商有很强的实时集成技术。例如,Informatica公司最近推出一项技术,可将EAI软件中的数据抽取出来并直接装入数据仓库,这个过程的完成需要一个接口,其可将Informatica的ETL工具与EAI开发商(如Tibco、Vitria、webMethods等)的产品连接起来。其他ETL开发商也纷纷与EAI开发商达成了伙伴关系。比伙伴关系更进一步的是,2000年秋天,Datamirror公司取得了Constellar公司的应用程序集成技术。另一方面,EAI工具开发商也增加了数据源接口,集成了更强的转化能力,使他们的产品更能与ETL工具所处理的传统数据集成任务相适应。
除开这些尝试性的合作空间外,ETL和EAI工具仍将保持自身特性,在往后的几年内不会完全融合,ETL工具仍是数据仓库所要求的复杂数据转化功能的最好选择,同时,EAI工具更适用于事务的、应用程序到应用程序的集成。
趋势四:开发商的整合
由于企业都想得到完备的产品套件,数据仓库和商务智能开发商因此将越来越多的功能融合到他们的产品中去。通过兼并获取功能插件的例子很多:商务智能开发商Business Objects最近兼并了ETL工具开发商Acta,而ETL开发商Ascential兼并了数据质量开发商Vality。其他一些公司自己努力开拓功能领域,ETL开发商Informatica不断地朝着分析领域前进并常有新产品问世,RDBMS开发商每年都在把更多的ETL和决策支持功能加入到产品中去。最终究竟这种“只停一次商店”的做法获得成功,或是多数企业仍将只是单个挑出其中最适用的部件,还很难说。这种对于附加部件的捆绑销售也许会带来价格和性能上的好处,但买主也许会因为太依赖某个卖方而感到不安。
趋势三:客户数据集成
许多企业如今很想跨越产品线、业务单位、渠道和地理各方面来综合地得到一个关于客户的单一视图,一种称之为客户数据集成(CDI)的解决方案应声而出,其核心部分由数据仓库和相关技术构成。客户数据集成提供了对客户数据的360°的全方位视图,并使企业可以从任何一个接触点上对客户进行认识和作出反应。Gartner集团认为,CDI是一个组织采取的所有其它以客户为中心的行动方案的基础。基本上,CDI包括了横跨不同的数据库匹配客户数据,使整个企业范围内可以达成一个对客户身份的单一认识。虽然CDI听起来激动人心,真正实施时还会面临许多挑战。第一个挑战就是整合客户数据库,这些数据库分散在组织的各个角落里,通常各有一套对客户的识别方法。另外,就算整个组织中每个客户都被赋予了唯一的身份,挑战也仍然存在,其他的数据质量问题仍需解决,比如准确、一致的客户地址和联系信息等。企业可能会通过将有某种联系的客户进行分组的方式来识别客房。另外,客户数据集成还要求对某些数据库更经常地更新,以便保证信息对于所有渠道和业务部门的及时性和可操作性。
趋势二:数据市场整合
企业用以削减数据仓库开支的一种方法是整合数据市场及其它分析型数据库。据META集团估计,在往后的两年中,80%的企业将采取某些措施整合原本分散的分析型数据库。在过去的几年中,数据市场不断增长,信息系统部门利用它们来支持各种分析应用程序,以满足各业务部门的需要。数据市场很有吸引力,因为比起中央数据仓库来说,它们只需较少的时间就可实施,初始投入也更少。但是,从长期的角度来看,数据市场的成本更高,因为它们需要进行多次重复的开发及维护,还需要大量重复的软硬件设备。很多企业认为整合数据市场是削减人工和维护费用的一个好方法,这能直接提高企业的盈利水平。另外,分散的数据市场会影响到企业的运作,因为经常会出现数据不一致的情形,想得到“真实”版本几乎是不可能的。整合数据市场是一个令人头痛的问题,有很多事情需要考虑,从选择其中一个数据库作为“幸存者”并将其它数据融入其中,到从零开始筹措和建立中央数据仓库。许多因素将决定企业应该采取何种方法,包括ETL复杂、数据容量、报表和用户的移植难度以及公司文化和政策等。如果一个企业投入精力制定了一个成功的整合策略,那它将得到很好的回报,据Gartner集团估计,那些成功整合了数据市场的企业,其成本将会下降50%,同时商业价值将会增长500%。
趋势一:数据仓库规模不断增长
数据仓库规模不断继续增长,META集团认为,所有企业的数据仓库规模都将呈指数增长,到2003年4月,平均原数据量将超出1TB,到2005年6月超出3TB,而其中排名前十位的企业其原数据量将达到5到15TB,这种增长的推动原因是数据源的增长以及企业对数据更好的获取能力。另外存储成本也越来越便宜,因此企业能够保存更长期的数据。数据增长将使企业面临一些新问题,包括可升级性问题以及可能出现的性能问题。面对将出现的数PB容量的数据,企业不能再无动于衷,得考紧考虑自己的数据设施是否能应付大量数据的涌入。
by AMT 编译