首页

概要

数字贵州建设的意义

贵州信息化基础与现状

指导思想与战略目标

数字贵州总体框架

数字贵州关键技术

数字贵州建设进度安排

数字贵州建设重点工程

组织机构

 "数字贵州"关键技术


5.1 "数字贵州"技术体系
"数字贵州"技术系统的框架由以下四个部分组成:
(1)基础技术:"数字贵州"技术系统的基础技术,由遥感(RS)、遥测(TM)、地理信息系统(GIS)、互联网(Internet)-万维网(Web)等一系列技术系统组成。遥感(RS)和遥测(TM)计算技术系统获取数据,互联网(Internet)-万维网(Web)传输数据,地理信息系统则承担处理、存贮及分析数据的任务,同时形成万维网地理信息系统(Web GIS)和组件式地理信息系统(Com GIS)。
(2)关键技术:1米分辨率的卫星遥感技术,海量数据的快速存贮与处理技术,高速网络技术,WebGISgn OpenGIS互操作技术,多分辨率、多维数据的融合与主体动态表达技术,仿真与虚拟技术,Metadata技术。
(3)实现层:全省层,地区、县级层,乡、镇层。
(4)应用层:专业生产、科研与教学、安全与防护、政府决策等。

"数字贵州"技术体系的核心技术包括科学计算、海量存贮、卫星图象、宽带网、互操作技术及元数据等:
科学计算:伴随计算机的问世及高速计算机的出现,人类便可以通过科学计算和仿真模型对地震、暴雨等自然现象进行模拟,以进行减灾救灾。因此,科学计算便成为数字贵州的主要技术,通过它可以对不同的数据进行科学地理解,以使"数字贵州"发挥巨大的效益。
海量存贮:庞大的信息源是构成"数字贵州"的关键,因此,海量存贮技术便成为"数字贵州"的支柱。
卫星影象:通过遥感卫星包括气象卫星系列、陆地卫星系列、海洋卫星系列、测地卫星系列、地球卫星系列等获取不同分辨率、不同时相的卫星影象,以及高分辨率(1米分辨率)卫星影象,可以迅速及时的获得、更新不同尺度的空间信息,使多尺度"数字贵州"成为可能。
宽带网:"数字贵州"所需的信息将由分布在贵州各地的空间数据库组成,它们之间通过高速网络链接在一起,可以实现数据的无缝操作。传输海量数据,进行科学计算,宽带网技术便成为数字地球走向实用的关键。
互操作:Internet 和WWW技术之所以成功,归功于诸如TCP/IP等成功的网络协议的支持,"数字贵州"也面临这一问题,即如何实现异构网络和数据平台之间的数据共享及互操作问题。目前国际标准化组织地理信息/地球信息业委员会(ISO/TC211)、美国联邦地理数据委员会(FGDC)、开放地理数据协会(OpenGIS协会)等单位都在致力于互操作技术的研究,以寻求空间信息互操作方案。
元数据:元数据是"关于数据的数据"或"关于信息的信息",它是"数字贵州"的引擎。通过元数据可以对"数字贵州"中自己关心的内容进行查询和浏览,并可以了所需信息的质量、表示方式等内容。
除此之外,还将有很多技术支持"数字贵州"的建设与发展。下图是"数字贵州"的技术体系(图5.1)。
结合国内外关于数字地球的研究和认识以及贵州的实际情况,"数字贵州"的关键技术主要包括以下几个方面(表5.1和图5.2)。

5.2 数据标准与规范
信息共享的关键是信息的标准问题,而标准化是对重复事物和概念所作的统一规定,其本质是管理。自从ISO提出了"开放系统互联参考模型"(OSI/RM)以来,OSI方面的正式标准目前已有120多项,并且国际上绝大多数厂商都向OSI体系过渡,美国国防部1986年也宣布了TCP/IP向OSI过渡的计划。相继地,各国政府又根据本国情况,以OSI为基本标准,制定了相应的较精炼的协议体系,即政府开放互联配置(GOSIP),为本国服务。这使得网络系统互联的研究日趋活跃,并在近年来掀起了又一次高潮,先后推动了美国政府OSIP、英国政府OSIP和欧洲开放系统(EPHOS)指南等新的体系规范,并且这些体系都以OSI为,大大推动了ISO标准化的发展。它们的出现,为地理信息的标准化和信息化社会的到来铺平了道路。








图5.1 "数字贵州"的技术体系


地理信息标准有四个方面:
(1)硬件标准:如接口标准、程序检测标准。
(2)软件标准:如查询语言、程序设计语言等标准。
(3)数据格式标准:如数据类型、数据质量、数据转换标准等。
(4)数据集标准:如电子地形系列(DEM)等。

表5.1"数字贵州"的关键技术

任务与目的

技术

1数据-信息的获取

1)地学空间数据(1米)智能获取技术,主要是指卫星遥感与遥测技术;

2数据-信息存取

2)海量数据的存取技术,包括无损压缩与复原技术,纳米及激光全息存贮技术,分形编码技术;

3数据-信息传输

3)宽带网技术,包括:宽带光缆网与宽带卫星技术;(4)空间数据库(Geo-spatial data ware house)及交换中心(Clearing house);

4科学计算

5WebGIS,comGIS的远程操作与互运算技术;(6)数据或知识的挖掘(Data mining)技术;(7)多种数据融合与三维表达;(8)仿真与虚拟技术;(9)虚拟地球系统模型;

5共享规范

10OpenGIS规范;

6前沿问题

11)数字贵州的神经系统;(12)数字贵州的网络行为;(13)数字贵州的进化机制。


地理信息标准可以划分为五个层次,即国际标准、地区标准、国家标准、地方标准、其他标准。标准化工作可以从两方面进行:一是以已经发布实施的信息技术(IT)标准为基础,直接引用或者经过修编采用;二是研制地理空间数据标准,包括数据定义、数据描述、数据处理等方面的标准。
目前,正在制订标准和规范的重要单位和部门有:ISO/TC211(国际标准化组织TC211专题组)、FGDC(美国联邦地理数据委员会)、CEN/TC287(欧洲标准化委员会)、OGC(美国OpenGIS协会)、MEGRIN9(欧洲地图事务组织)、CGSD(加拿大标准委员会)、NASA(DIF美国航天航空局)。他们主要致力于:参考模型标准、数据描述(定义)标准、数据描述(技术)标准、数据应用模式标准、数据质量标准、数据定位、传输标准以及无数据标准等内容的研究。






图5.2"数字贵州"的关键技术框图

"数字贵州"中数据标准与规范主要包括以下两方面的内容:
(一)技术标准:
(1)参考系统标准:是指地理参考系统,或大地坐标等标准,是综合地球数据的基础标准。全球定位系统(GPS)技术的应用,提供了精确的地心坐标数据。要求将参考系统数据集存贮至一个精确的国家参考系统中,并要求明确规定国家参考系统与地心参考系统之间的关系,如果两者不同的话。
(2)数据模型标准:分概念数据模型与逻辑数据模型(或数据结构标准),另外还有物理数据模型或模型文件结构是在数据转换标准中实现的。概念模型为以空间数据形式表示现实世界所提供的一种模式。该模式还说明了基础数据集的空间和层理要素以及确立数据集间关系的语义结构。然后将概念层表示为一个或多个逻辑数据模型,来具体规定如何定义数据集间的关系。在该层上应对拓扑或栅格数据结构等予以规定。
(3)数据字典标准:是以概念数据模型为基础,提供基础数据集的空间与层次要素的标准定义。如公路可能有一系列的属性(如等级、铺路材料、宽度等),而等级又可分为一级、二级及三级公路。数据字典对这些术语的定义必须完全一致,从而对它们进行准确解释,并在GIS应用中对数据进行有效的集成。为确保一致性,每一基础数据要开发数据字典,并进行交叉参考。
(4)数据质量标准:数据质量标准可以是描述性的,也可以是指示性的,或者两者兼而有之。描述性标准以"真实地标记"为基础,要求数据生产者报告对数据质量的已知部分。这就使数据的使用者能够有根据地判断出数据的适用性。描述性数据质量标准要求生产者提供以下5个主要特征信息:系层、位置转换、层性转换、逻辑一致性及完整性。指示性标准将规定每一特征在这一特征应用中的质量参考。
(5)数据转换标准:提供了不同计算机环境间数据转换的一种中间格式。它们包括一整套使数据按字段、记录和文件要求进行编码的规划,以便通过指定的介质进行转换。数据模型是研制编码规则的先决条件,转换标准的中介性质是一种主要的特征。转换标准优化后可使所有的数据以及元数据(Metadata)数据进行有效的通信,而对产品和数据库结构进行优化后则可进行有效的存贮、应用及维护。
(6)元数据(Metadata)标准:元数据是数据的数据,用来对数据或数据集进行描述或说明。它在地理信息中用于描述地理数据集的内容、质量、表示方式、空间参照系、管理方式以数据集的其它特征,它是实现"数字贵州"中空间数据集共享的核心标准之一。目前,国际上各大标准与规范组织之间关于元数据的内容体系有一定的分岐。FGDC认为Metadata是"关于数据内容、质量、条件、以及其他特征的数据",它把Metadata分为标识信息、数据质量信息、空间数据组织信息、空间参照系信息、实体和属性信息、发行信息,以及Metadata参考信息等七个部分进行研究。CEN/TC287认为Metadata是"描述地理数据集内容、表示、空间参考系、质量以及管理的数据",它把数据集分为标识信息、数据集综述信息、数据集质量元素、空间参照系信息、范围信息、数据定义、分类信息、管理信息、Metadata参考以及Metadata语言等十个部分进行研究。ISO/TC211对于Metadata的概念认识与FGDC相同,但在内容划分是仍有明显的差异,它把Metadata分为标识信息、数据质量信息、数据集继承信息、空间数据表示信息、空间参照系信息、应用要素分类信息、发行信息,以及Metadata参考信息等八个部分进行研究。虽然以上各组织在内容划分上有一定差异,但其内容体系总体上都反映元数据有下列特点:a) Metadata是用于描述信息资源的高度结构化数据;b) Metadata可以组织和管理信息,并可以挖掘信息资源,通过它可以在Intranet或Internet上准确地查询所需要的信息;c)在从不同资料或组织获取Metadata时,还可以通过对相同的Metadata元素进行比较和对比,获取最新的资料。因此,可以按照把Metadata分为两个层次进行研究,其中第一个层次是目录层,它所提供的Metadata复合元素和数据元素是"数字贵州"中查询地理数据的目录信息,并相对地概括了第二层中的一些必选项信息,是Metadata体系内容中比较宏观的信息;第二层是Metadata标准的主体,它由8个标准部分和4个引用部分组成。其中标准部分包括标识信息、数据质量信息、数据集继承信息、空间数据表示信息、空间参照系信息、实体和属性信息、发行信息、以及Metadata参考信息等8个方面的内容;引用部分包括引用信息、时间范围、联系信息以及地址信息,各个部分按照具体的复合元素和数据元素组织。
(二)系统安全标准:在Internet-Web上运行的"数字贵州"技术系统网络的地学空间数据实现共享过程中,可能会出现安全问题,如:故意对数据或程序的破坏、计算机病毒、逻辑炸弹、错误指向、程序错误、黑客、辐射、硬件故障搭线窃听、严重的误操作、数据泄漏、盗用、伪造、假冒、诈骗或火灾等破坏。因此,建立"数字贵州"技术系统的安全体系非常重要。关于系统安全标准请详见5.5节"信息安全防护技术"。

5.3 数据集成与数据共享
    在信息社会中,每时每刻都有大量来源不同的地理数据产生,分布地存贮。在网络环境下,信息要在不同软件中分布地处理,并且能够在网络中实时发布。因此,如何使不同的地理信息系统软件、用户能迅速便捷地获取这些来源不同的数据,并将它们集成起来进行分析,如何使这些集成数据能在不同的系统下相互可操作以及在异构分布数据中获取所需的数据信息,即实现数据集成与与数据共享就变得非常关键。
解决数据集成与共享一方面需要国家出台相应的数据管理政策,另一方面需要加强软件系统之间数据集成与共享的技术研究,即多格式数据共享问题。目前实现多格式数据共享的方式大致有三种,即:数据格式转换模式、数据互操作模式和直接数据访问模式。
(一)数据格式转换模式
格式转换模式就是把其他格式的数据经过专门的数据转换程序进行转换,变成本系统的数据格式,这是当前GIS软件系统共享数据的主要办法。数据转换的核心是数据格式的转换。基于数据通用交换标准的数据交换,尽管在格式转换过程中增加了语义控制,但其核心仍是数据格式转换,一般地,数据格式转换采用以下三种方式:
(1)直接转换-相关表。在两个系统之间通过关联表,直接将输入数据转换成输出数据。这种方法是记录之间的转换,只对小的转换量才有意义;而且由于它是针对记录逐个地进行转换,只对小的转换量才有意义;而且由于它是针对记录逐个进行转换,没有存贮功能,因此不能保证转换过程中语义的正确性。
(2)直接转换-转换器。另一个转换方法是通过转换器实现,转换器是一个内部数据模型,转换器通过对输入数据的类型及值按照转换规则进行转换,得到指定的数据模型及值,与使用关联表相比,它具有更详细的语义转换功能,也具有一定的存贮功能。
(3)基于空间数据转换标准的转换。无论采用关联表还是采用转换器进行直接转换,它仅仅是两系统之间达成的协议,即两个系统之间都必须有一个转换模型,而且为了使另一个系统和该系统能够进行直接转换,必须公开各自的数据结构及数据格式。为此,可采用一种空间数据的转换标准来实现地理信息系统数据的转换,转换标准是一个大家都遵守、并且很全面的一系列规则。转换标准可以将不同系统中的数据转换成统一的标准格式,以共其他系统调用。为了实现转换,窨数据的转换标准必须能够表示现实世界空间实体的一系列属性和关系,同时它必须提供转换机制,以保证对这些属性和关系的描述结构不会改变,并能被接收者正确地调用,同时它还应具有以下功能特点:具有处理矢量、栅格、网格、属性数据及其他辅助数据的能力;实现的方法必须独立于系统,且可以扩展,以便在需要时能包括新的空间信息。
许多GIS软件为了实现与其他软件交换数据,制订了明码的交换格式,如ArcInfo的E00格式、ArcView的Shape格式、MapInfo的Mif格式等。通过交换格式可以实现不同软件之间的数据转换。
数据转换模式的弊病是显而易见的,由于缺乏对空间对象统一的描述方法,从而使得不同数据格式描述空间对象时采用的数据模型不同,因而转换后不能完全准确地表达原数据的信息,经常性地造成一些信息丢失。
美国国家空间数据协会(NSDI)制定了统一的空间数据格式规范SDTS(Spatial Data Transformation Standard),包括几何坐标、投影、拓扑关系、属性数据、数据字典,也包括栅格格式和矢量格式等不同的空间数据格式的转换标准。许多软件利用SDTS提供了标准的空间数据交换格式。目前,ESRI在ARC/INFO中提供了SDTSIMPORT以及SDTSEXPORT模块,Intergraph公司在MGE产品系列中也支持SDTS矢量格式。SDTS在一定程度上解决了不同数据格式之间缺乏统一的空间对象描述基础的问题。但SDTS目前还很不完善,还不能完全概括空间对象的不同描述方法,还不能统一为各个层次以及从不同应用领域为空间数据转换提供统一的标准,也还没有为数据的集中和分布式处理提供解决方案,所有的数据仍需要经过格式转换才能进到系统中,不能自动同步更新。
(二)数据互操作模式
伴随着客户机/服务器体系结构在地理信息系统领域的广泛应用以及网络技术的发展,数据交换方法已不能满足技术发展和应用的需求,而数据(GIS)的互操作则成为数据共享的新途径。
数据互操作模式是OpenGIS Consortium (OGC) 制定的规范。OGC是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非盈利性组织。GIS互操作是指在异构数据库和分布计算的情况下,GIS用户在相互理解的基础上,能透明地获取所需的信息。OGC为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据OGC颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目的是使数据客户能够读取任意数据服务器提供的空间数据。OGC规范基于OMG的CORBA、Microsoft的OLE/COM以及SQL等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。OGC规范正得到OMG和ISO的承认,从而逐渐成为一种国际标准,将被越来越多的GIS软件以及研究者所接受和采纳。目前,还没有商业化GIS软件完全支持这一规范。
数据互操作为多源数据集成提供了崭新的思路和规范,它将GIS带入了开放的时代,从而为空间数据集中式管理、分布式存储与共享提供了操作的依据。OGC标准将计算机软件领域的非空间数据处理标准成功地应用到空间数据上,但是它更多地采用了OpenGIS协议的空间数据服务软件和空间数据客户软件,对于那些已经存在的大量非OpenGIS标准的空间数据格式的处理办法还缺乏标准的规范。从目前来看,非OpenGIS标准的空间数据格式仍然占据已有数据的主体,而且非OpenGIS标准的GIS软件仍在产生大量非OpenGIS标准的空间数据,如何继续使用这些GIS软件和共享这些空间数据成为OpenGIS标准不可解决的问题。
数据互操作规范为多源数据集成带来了新的模式,但这一模式在应用中存在一定局限性:首先,为真正实现各种格式数据之间的互操作,需要每种格式的宿主软件都按照着统一的规范实现数据访问接口,在一定时期内还不现实;其次,一个软件访问其他软件的数据格式时是通过数据服务器实现的,这个数据服务器实际上就是被访问数据格式的宿主软件,也就是说,用户必须同时拥有这两个GIS软件,并且同时运行,才能完成数据互操作过程。最后,即使以后新建的GIS软件都支持OpenGIS,现有的GIS软件生产出来的空间数据也要转化到OpenGIS标准。
(三)直接数据访问模式
直接数据访问是指在一个GIS软件中实现对其他软件数据格式的直接访问,用户可以使用单个GIS软件存取多种数据格式。直接数据访问不仅避免了繁琐的数据转换,而且在一个GIS软件中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源数据共享模式。
直接数据访问同样要建立在对要访问的数据格式的充分了解的基础上,如果要访问的数据的格式不公开,就非破译该格式不可,还要保证破译完全正确,这样才能真正与该格式的宿主软件实现数据共享。如果宿主软件数据格式发生变化,各数据集成软件不得不重新研究该宿主软件数据格式,提供升级版本,而宿主软件的数据格式发生变化时往往不对外声明,这样,其他数据集成软件对基于这种GIS软件数据格式的数据的处理必定存在滞后性。
此外,许多软件开发商正在着手研究解决数据共享的新模式。有些厂商认为,由于一般的GIS数据具有一些的空间数据的通性,因此可以定义一个包含各种属性的元数据文件,在此基础上,采用面向对象的思路,利用C++语言对继承、封装、多态性和抽象基类的支持,定义一个包含纯虚函数、不可实例化的抽象基类,这个基类应具备GIS空间数据读写的基本接口。各GIS软件提供一个从这个抽象基类派生的类来实例化抽象基类,在这个派生类中完成其定义的数据格式文件中数据的读写工作。在新的模式中,不管GIS空间数据是以文件方式存储还是以数据库方式存储,都将空间数据以数据库的方式管理;在定义好面向抽象GIS数据格式的抽象基类和统一接口的基础上,由各GIS软件厂商完成存取自己格式数据的子类的动态连接库(类似于ODBC中各数据库系统的驱动程序)。实现厂商一次编程,其他开发者拿来就用,省却大量的重复劳动,加快开发进程。

5.4 国家基础空间数据仓库群组建技术
   分布在不同地点、不同部门的分布式数据库与信息系统,由高速计算机有线(光缆)与无线(通信卫星)相连接,并组成WebGIS,Object Web GIS 和ComGIS实现同构系统的远程互操作和互运算;能过OpenGIS的标准与规范,实现异构系统间的远程互操作和互运算。但对于"数字贵州"的海量数据和频繁交互过程来说,它还需要通过中间组织的帮助来实现,包括:空间数据仓库(Spatial data ware house)、空间数据站(Spatial data station)、空间数据交换中心(Spatial data clearing house)。
(一)空间数据仓库的概念和特点
空间数据仓库是指支持管理、决策过程的,面向主题的、集成的随时间而变化的、持久的和具有空间坐标的地球数据的集合。它将根据一定的主题内容集成来自不同数据中的数据,数据在结构上具有综合性;它可以截取从瞬态到区段,直到全体等不同时间尺度上的信息,可以从多个专业应用系统中寻找答案。空间数据仓库将数据的时间属性及空间属性紧密地结合起来,通过构建面向分析的多值空间数据模型,利用多维分析方法,从多个不同的角度进行分析比较,提取隐藏在数据中的信息,实现面向数据和面向模型的分析方法的统一,数据仓库是指随时间不断更新的数据库。
空间数据仓库是数据仓库的一种特殊形式。数据仓库是90年代发展起来的一种数据存贮、管理和技术。著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。作为决策支持系统(Decision-making Support System,简称DSS),数据仓库系统包括:① 数据仓库技术;② 联机分析处理技术(On-Line Analytical Processing,简称OLAP);③ 数据挖掘技术(Data Mining,简称DM)。
(二)空间数据仓库的主要功能
空间数据仓库的主要任务是将来源于分散在不同地点、不同单位的分布式数据库中的类型不同、结构不同、存贮格式不同、内容与格式丰富多彩的的原始数据,进行标准化、过滤与匹配、净化,标明时间戳和确认数据质量的处理,即求精过程,然后再根据任务的需要,将来源于分布式数据库的不同性质、不同格式的数据再进行集成与分割、概括与聚集、预测与推导、翻译与格式化、转换与再映象处理,最后进行数据仓库的建模、概括、聚集、调整与建立结构化查询等功能。
(三)空间数据仓库的数据组织及体系结构
1.空间数据仓库的数据组织结构:
数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。粒度越大,表示细节程度越低,综合程度越高。
数据仓库中还有一种重要的数据--元数据(metadata)。在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业模型/前端工具之间建立映射,此种元数据称之为DSS元数据,常用来开发更先进的决策支持工具。

图5.3 空间数据仓库的数据组织结构
2.空间数据仓库的数据组织形式
空间数据仓库中常见的数据组织形式为:
简单堆积文件: 它将每日由数据库中提取并加工的数据逐天积累并存储起来。
轮转综合文件: 数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。
简化直接文件: 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。
连续文件: 通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可生成新的连续文件。
对于各种文件结构的最终实现,在关系数据库中仍然要依靠"表"这种最基本的结构。
3.空间数据仓库的数据追加
如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓库的数据是 来自OLTP的数据库中,问题是我们如何知道究竟哪些数据是在上一次追加过程之后新生成 的。常用的技术和方法有:
·时标方法: 如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含有时标。
·DELTA文件: 它是由应用生成的,记录了应用所改变的所有内容。利用DELTA文件效率 很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。
·前后映象文件的方法: 在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。
·日志文件: 最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响O LTP的性能。同时,它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据DB系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。
4.空间数据仓库的体系结构:
整个数据仓库系统是一个包含四个层次的体系结构,包括:
数据源:是数据仓库系统的基础,是整个系统的数据源泉。包括贵州省内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;
数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。






(四)数据仓库的关键技术
与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库的设计的技术咨询四个方面。
1.数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。
2.数据的存储和管理
数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。
数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。关系数据库经过近30年的发展,在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个GB甚至到TB的数据已是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问题,好在数据仓库对联机备份的要求并不高。
数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。
数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。普通关系数据库采用B树类的索引,对于性别、年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单个计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极不均匀,普通查询优化器所得出得最佳查询路径可能不是最优的。因此,面向决策支持的关系数据库在查询优化器上也作了改进,同时根据索引的使用特性增加了多重索引扫描的能力。
以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作,而连接操作对于关系数据库来说是一件耗时的操作。扩充的关系数据库中对连接操作可以做预先的定义,我们称之为连接索引,使得数据库在执行查询时可直接获取数据而不必实施具体的连接操作。数据仓库的查询常常只需要数据库中的部分记录,如最大的前50家客户,等等。普通关系数据库没有提供这样的查询能力,只好将整个表的记录进行排序,从而耗费了大量的时间。决策支持的关系数据库在此做了改进,提供了这一功能。此外,数据仓库的查询并不需要像事务处理系统那样精确,但在大容量数据环境中需要有足够短的系统响应时间。因此,一些数据库系统增加了采样数据的查询能力,在精确度允许的范围内,大幅度提高系统查询效率。
总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可以做,它已成为关系数据库技术的一个重要研究课题和发展方向。可见,对于决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。
数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式与传统的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查询,而是基于用户业务的分析模式,即联机分析。如图5.5所示,它的特点是将数据想象成多维的立方体,用户的查询便相当于在其中的部分维(棱)上施加条件,对立方体进行切片、分割,得到的结果则是数值的矩阵或向量,并将其制成图表或输入数理统计的算法。

图 5.5 联机分析数据处理示意图
关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。采用多维数据库实现的联机分析应用我们称之为MOLAP。多维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。这样的状态直到"星型模式"在关系数据库设计中得到广泛的应用才彻底改变。几年前,数据仓库专家们发现,关系数据库若采用"星型模式"来组织数据就能很好地解决多维分析的问题。"星型模式"只不过是数据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够找到一个固定的算法,将用户的多维查询请求转换成针对该数据模式的标准SQL语句,而且该语句是最优化的。"星型模式"的应用为关系数据库在数据仓库领域打开绿灯。采用关系数据库实现的联机分析应用称为ROLAP。目前,大多数厂商提供的数据仓库解决方案都采用ROLAP。
在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成为数据仓库的中坚力量。
3.数据的表现
数据表现是数据仓库的门面。这是一个工具厂商的天下。它们主要集中在多维分析、数理统计和数据挖掘方面。
多维分析是数据仓库的重要表现形式,由于MOLAP系统是专用的,因此,关于多维分析领域的工具和产品大多是ROLAP工具。这些产品近两年来更加注重提供基于Web的前端联机分析界面,而不仅仅是网上数据的发布。
数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似,数据挖掘与数据仓库也没有直接的联系。而且这个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人,但在实现上却有很大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人来判断其合理性。因此,在当前的数据仓库应用中,有效地利用数理统计就已经能够获得可观的效益。
4.数据仓库设计的技术咨询
在数据仓库的实施过程中,有一些更为基本的问题需要解答。它们包括:数据仓库提供哪些部门使用?不同的部门怎样发挥数据仓库的决策效益?数据仓库需要存放哪些数据?这些数据以什么样的结构存放?数据从哪里装载?装载的频率多少为合适?需要购置哪些数据管理的产品和工具来建立数据仓库?等等。这些问题依赖于特定的数据仓库系统,属于技术咨询的范畴。
事实上,数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系统工程。在数据仓库的实施过程中,技术咨询服务至关重要,是一个不可缺少的部分,它甚至于比购买产品更为重要。目前,数据仓库的技术咨询主要来自数据仓库软件产品的供应商和独立的针对数据仓库技术的咨询公司。
5.数据仓库技术九十年代来的进展
90年代以来,计算机技术,尤其是数据库技术的发展为DSS提供了技术支持;激烈的市场竞争促进了高层次决策人员对DSS的实际需求。两方面的共同作用,促成了以数据仓库为核心、以O-LAP和DM工具为手段建设DSS的可行方案。数据库技术的发展数据仓库需要以下数据库技术的支持。
(1)高性能数据库服务器:数据仓库的应用不同于传统DB的OLTP应用。传统DB的应用是操作型的,而数据仓库的应用是分析型的,它需要高性能的DBMS核心的支持,以使较快地获得分析结果,这通常需数秒至数分钟。虽然比OLTP的响应时间长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此,对DBMS核心的性能要求更高,同DBMS必须具有良好的查询优化机制。
(2)并行数据库技术:数据仓库中的数据量大,而且随着时间的延长,新的数据还会不断进入。数据仓库中的数据库通常是GB甚至TB级的,可谓是超大规模数据库(VLDB)。而并行数据库技术是存储和管理VLDB,并提供对VLDB复杂查询处理的有效技术。
(3)数据库互操作技术:数据仓库中的数据大多来自企业或行业中业已运行的OLTP数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的数据。数据仓库必须从这些异构数据源中定期抽取、转换和集成所需要的数据,并把它们存入数据仓库中。因此,异构数据源之间的互访和互操作技术是必需的。
(五)空间数据仓库的组建流程
数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过程,通常需要较长的时间。这就要求各企业、部门对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,以"总体规划、分步实施、步步见效"为原则,不仅可迅速从当前投资中获得收益,而且可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、健壮的数据仓库系统。
空间数据仓库的建设主要包括:确定范围、环境评估、分析、设计、开发、测试和运行等几个阶段。同时空间数据仓库又是一个在原型的基础上进行不断迭代的过程。
1、确定范围
确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定数据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问题(或对象)等。在确定范围时应该重视的因素是必须用户驱动和数据驱动相结合,同时可以借鉴国内外已有的成功经验。
2、环境评估
环境评估是对空间数据仓库系统建设的硬件环境和软件环境进行选型和准备。在硬件平台选择中需要选择与数据仓库系统规模相适应的核心服务器,同时我们认为数据仓库系统平台与业务处理平台应该相分离。软件平台的选择主要包括数据仓库引擎、OLAP引擎、前端分析展现工具的选择。产品进行测试是软件选型的一种有效方法,各个企业、部门可以根据自身的数据状况对各类产品进行测试。
3、分析
分析阶段主要包括两个方面的任务是深入了解数据源和分析数据仓库系统所包含的主题域及其相互之间的关系。分析阶段必须坚持用户参与,并且与原有系统开发或维护人员进行深入的沟通。
4、设计
数据仓库设计的主要任务包括与操作型系统接口的设计和数据仓库本身的设计两个部分的内容。其中与操作型系统接口的设计主要是指数据抽取、清理、转换和刷新策略的设计。从多个不同的数据源中抽取数据,需要解决数据的不一致性,保证数据的质量。其中的不一致性主要包含模式冲突和语义冲突。从操作型数据库模型到数据仓库模型的转变需要大量细致的工作,例如:消除纯粹是操作型的数据;将包含在多个表中的有关数据进行合理合并;适当增加部分导出数据;在码值中增加时间关键字;按照合适的数据粒度进行综合。
数据仓库本身的设计包括数据仓库逻辑数据模型的设计、数据仓库物理数据模型的设计。由于目前数据仓库产品尚未形成一套统一的标准,因此在数据仓库设计阶段必须要有数据仓库专家和数据仓库系统产品提供商的参与。
5、开发
开发阶段所要完成的主要内容包括数据仓库建模、数据抽取和加载模块、数据访问模块以及开发实际应用撛蛿。实际应用开发建议采用撌缘銛的方法,从急需的业务开始进行,应该重视的因素包括必须有行业专家的参与,同时必须有数据仓库专家的参与。
6、测试
测试是保证系统可靠性的重要手段。数据仓库测试与一般软件系统测试不同的是数据仓库的测试不仅包括对软件系统的测试,同时包括对数据的测试。在测试阶段必须保证测试的充分性,同时注意测试数据的覆盖范围。
7、运行
系统运行主要包括用户培训、数据加载、数据访问及应用等。在数据仓库系统的运行过程中,不断收集用户新的需求。
数据仓库系统的建设不可能一蹴而就,它是一个不断建立、完善、健全的过程。这个过程是随着业务量、业务范围和客户的不断发展而发展的,其成长的速度非常之快,同时随着业务的发展,数据仓库的价值也将随之增长。

5.5信息安全防护技术
    如前所述,在Internet上运行的"数字贵州"技术系统网络的地学空间数据实现共享过程中,可能会出现安全问题,建立信息安全防护体系非常重要。
信息安全体系建设必须符合以下三大基本原则:
(1)系统安全功能的操作性:对于大多数用户来说。系统的安全机制是透明的和易操作的。用户易于访问和操作具有安全功能的软、硬件设施。
(2)进行风险分析:在"数字贵州"技术系统的设计过程中,不仅要考虑到系统的安全功能,而且应采用风险分析方法,对系统整体进行安全分析,包括系统的可能的破坏,数据的泄漏、伪造,病毒的入侵造成的影响等及其科学的对策等方面进行研究,并提出解决方案。
(3)经济性的原则:在考虑安全性的同时,也要考虑到经济的承受能力。在设计安全功能时,应选择投入小、效果好的方案。
另外,体系的功能也必须有安全的保证,主要由两个方面来制订安全策略:
(1)系统的外部安全:包括人员安全和物理安全,如制订工作人员职责,设备的管理制度,严禁非工作人员对系统进行操作等。
(2)系统内部安全,包括加密、鉴别,审计,容错和访问控制等。
技术安全体系主要从三个重要环节上来考虑,它们是:信息传送、交易过程和信息审查。
采用的技术手段主要是:
(1)利用RSD、DES、MD5等成熟的密钥算法技术,实现用户密钥管理、文件加密、"数字指纹"签名验证等功能,防止信息传送途径上的失密。
(2)利用WWW技术的SSL机制确保网络上超文本的传输安全。SSL提供了用"数字指纹"签名来鉴别服务器,用RSA数据加密来确保虚拟专用网(VPN)的信息安全和数据完整性传送第三种有效的安全防护特性。
(3)依赖国际惯例建立安全的资源访问控制。SET规定了交易正当访问和控制资源的过程,规定了处理交易信用的CA(Credence Authentication)。
此外,还将采用虚拟子网、路由过虑、网段划分、安全拨号、防火墙等Internet/Intranet的安全措施。
信息的加密/解密,身份的验证等现代密码技术,随着网络的发展对保证系统安全发挥了重要的作用。审计功能是对应用程序和使用系统资源时,进行必要的登记和检查,以保证操作过程的规范化和信息流动的安全性。防火墙作为对系统的访问的控制是十分重要的方法,访问控制是由"数字贵州"技术系统管理中心统一严格管理,属强制性控制。通过控制被保护网络和外部网络间的进出安全,使外部入侵者不能进入被保护网络,而被保护网络中的成员仍能访问外部网络,因此,可以排除外部干扰,而不妨碍系统的正常运行与外部联系。



贵州省科学电子计算中心  制作维护
Copyright © 2003 gzst.gov.cn, All Rights Reserved