深圳影视制作网 深圳影视制作 深圳影视制作公司专题片制作 宣传片制作 广告片制作
 
 
 
 
您的位置:深圳影视制作网 >> 光盘参数分析数据挖掘>>文章正文
 
光盘参数分析数据挖掘

  1 前言


  在光盘盘片的生产和性能检测中,依据标准对盘片的各种参数进行测试,得到了大量的测试数据,籍此进行盘片的性能评价。但是,目前我们几乎没有对测试得到的大量数据做任何进一步的分析。在这些较低层的原始数据中是否存在较高层的有用信息,是否存在某些未发现的规律,我们都不得而知。


  形成这种状况的主要原因之一就是没有找到一种行之有效的分析方法,面临的困难主要有以下两个方面:一是测试的参数种类多,数据量大,传统的手工分析方法已无法可靠有效地对如此巨大的数据库进行分析;二是各参数相互独立,各数值之间也是离散的,用普通分析方法难以从这样的数据中发现其隐含的规律。


  近年来,随着国际互联网(Internet)和电子商务的迅猛发展,一种新的知识获取技术-数据挖掘得到了迅速地发展。数据挖掘接受了统计学、数据库、联机分析处理(OLAP)、人工智能(AI)、数据可视化(Data Visualization)和高性能计算(high-performance computing)等领域中可用的成果,并根据数据库数据的特点加以发展。它广泛地应用于银行、保险、电信及故障诊断等许多领域,其所带来的经济效益正越来越受到企业的关注,其应用前景也越来越宽阔。


  数据挖掘技术为我们从大规模的数据库中提取有用信息提供了强有力的解决工具。将数据挖掘技术引入光盘参数分析中,有效地解决了基于统计的传统分析方法对光盘生产和测试中得到的大量的、离散的数据进行分析的困难,从而充分地利用了宝贵的数据信息资源。


  2 数据挖掘


  2.1 数据挖掘的定义


  数据挖掘就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到广泛的重视。


  KDD比较公认的一个定义是:数据库中的知识发现是从数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级过程[1-2]。


  2.2 数据挖掘过程(KDD过程)


  KDD过程是一个循环反复的交互过程,其中许多环节需要用户参与作出决定。Brachmand和Anand在1996年对KDD过程给出了一个强调其交互特性的实用描述,主要包括以下基本环节:[3]


  1) 了解应用领域,获取相应的领域背景知识,从用户的角度出发界定KDD过程的目标。


  2) 创建将要用于挖掘的目标数据集。


  3) 数据清理和预处理。


  4) 根据环节1)中的目标确定相应的数据挖掘方法。


  5) 进行数据挖掘,搜索令人感兴趣的模式。


  6) 解释和评估被挖掘出来的模式,对模式实现可视化、变换以及消除冗余等等。


  7) 利用所发现出来的知识。


  2.3 数据挖掘算法


  数据挖掘是多个学科相结合发展而来的,人工智能和统计学领域的常规技术和方法进行改进后,大都可以应用于数据挖掘,这里仅对光盘参数分析中用到的粗糙集理论、关联规则和聚类算法进行简单介绍,详细了解可参阅有关文献[3-8]。


  粗糙集理论(Rough Set Theory)


  粗糙集理论是一种研究不精确、不确定性知识的数学工具,由波兰科学家Z.Pawlak在1982年首先提出[4]。该方法以对数据进行分类的能力为基础,不同于用概率方法描述数据不确定性的统计方法。随着数据挖掘的兴起,粗糙集理论由于其许多适用于KDD的优良特点,受到数据挖掘研究者的重视进而受到研究界的广为注意,它为数据挖掘提供了一种新的方法和工具。


  粗糙集理论研究诸如决策表之类的信息系统。在粗糙集理论中,这种表称为一个信息系统(或信息表)S ,用一个有序4元组(U,A,V,f) 表示,其中:U 是全部有限个处理对象(object)的集合,即全体样本; 是全部有限个属性(attributes)的集合, C是条件属性(condition attribute)集合,即对象的特征,D 是决策属性(decision attribute)集合,即对象的类别,且 ; 是属性值的集合, 表示属性 的范围;f 是一个信息函数,它指定 U中每一对象x的属性值。


  数据挖掘研究的实施对象多为关系型数据库。将关系表看作粗糙集理论中的信息表,可方便的将粗糙集方法应用与其分析中。粗糙集方法通过对信息表的简化而得到分类规则,所得到的分类规则一般是符号形式的显式规则,这正是数据挖掘所追求的,因此近年来得到越来越广泛的应用。


  关联规则(Association Rules)


  关联规则挖掘是数据挖掘中的一个重要方面。关联规则挖掘问题的形式化描述如下: 设T是交易数据,即T={t1,t2,…,tm},其中ti(1≤i≤m)是每笔交易的数据。每笔交易中都含有若干种类的数据,这些数据称之为数据项(items)。I是T 中所有数据项的集合,即I ={i1,i2,…,ik,…,in}, ik(1≤k≤n)是T中的一个数据项。每笔交易中含有I的一个子集。设 且 ,如果一笔交易中既有 X,又含有Y,则称XTY 在此交易中成立。 在T的s%的交易中成立,即称XTY的支持度(support)为s%,即支持度表示XTY在交易数据中出现的普遍程度。但仅凭支持度还不能说明X轞成立的必然程度,为此定义可信度(confidence):


  如果支持度和可信度都超过各自的阈值,则可以看成T中的一个关联规则。


  在许多发现关联规则的方法中,比较著名的是由R.Agrawal等人于1993年提出的方法。其思路是将关联规则的挖掘分为如下两步:首先,找出所有频繁数据项集(frequent itemsets),即找出所有支持度超过指定阈值的数据项集;然后,利用频繁数据项集,生成侯选的关联规则,并验证其可信度。如果可信度超过指定阈值,则该侯选关联规则即为要找的关联规则。在上述两步中,第一步是关键。为此,R.Agrawal等人提出了一个名为Apriori的算法[7],算法细节就不赘述了。 聚类分析


  数据挖掘中聚类的对象是数据库中的数据。它是传统聚类方法的继承和发展,除了改善聚类质量外,还得考虑算法的时空开销和内存限制问题。


  聚类算法大致可分为划分法(partitioning clustering)和层次法(hierarchical clustering)两种。下面以划分法中的K-Means算法为例,说明其基本思路:算法中聚类的个数K事先给定,算法开始为每个聚类选择一个初始的中点(mean),然后以初始中点为核心形成聚类,再用迭代法反复修改初始的聚类,直至无明显改进为止。其具体算法这里就不赘述了。


  3 基于数据挖掘的参数分析


  整个分析系统的结构如图1所示。由测试仪得到的原始数据以电子表格(EXCEL)的形式保存于许多单个文件中。在预处理阶段,将这些原始数据进行清理和综合,并将其以事先确定好的形式存在数据库中,供数据挖掘模块使用。


  数据挖掘模块主要有两个子模块组成:数据分类和规则发现。数据分类模块将各参数的所有参数值进行统一的划分处理,将各参数的测量值用统一的类别符号表示,从而形成便于应用挖掘算法的数据表。规则发现模块应用挖掘算法对数据表进行挖掘,得到规则或知识。


  决策模块提供人机接口,对得到的规则进行过滤,获取有意义的知识。在本系统中,加入了数据再处理模块。如果未能获取满意的结果,则对数据进行再处理,如重新进行聚类后再提交给规则挖掘模块进行处理,从而实现了交互式挖掘,降低了数据分类误差对挖掘结果带来的影响。


  在整个系统中,数据分类和规则发现是最关键的模块。我们采用K-Means算法进行数据的分类处理,应用粗糙集理论去寻求影响光盘关键性能(如抖晃特性等)的关键参数,应用关联规则开采去发现潜在的参数之间的相互关系。下面对这两部分作一简单介绍。


  3.1 数据分类


  以某一属性x为例。设x1,x2,…,xn为其经预处理后的测量值。主要过程如下:


  1) 对x1, x2, ..., xn从小到大排序,排序结果为y1, y2, ..., yn 。


  2) 在y1和yn 之间构造一组等分点z1, z2, ..., zk(k


  3) 用等分点z1, z2, ..., zk 构造区间:


  [y1,(z1 y1)/2),[z1,(z1 z2)/2),…,[(zk-1


  zk)/2,(zk yn)/2),[(zk yn)/2,yn]。


  4) 进行聚类计算得到新的切分点Z1, Z2, ..., Zk(k


  [y1,(Z1 y1)/2),[Z1,(Z1 Z2)/2),…,[(Zk-1


  Zk)/2,(Zk yn)/2),[(Zk yn)/2,yn]。


  5) 将各区间按顺序编号为1, 2, 3, ..., k 1, k 2。


  6) 确定属性值所在区间,用区间编号表示其值。


  重复以上过程对其它参数进行同样处理。这样,就得到了每一组数据的数字表示,将所有元组数据组合起来就得到了数据表,将数据表存入数据库,以进行数据挖掘。


  3.2 规则发现


  根据实际分析的需要,在确定了性能参数和条件参数后,对分类后得到的数据表进行处理,得到便于应用粗糙集理论的信息表,如表1所示。表中,X1, X2, … , Xn为全体样本集合,P1, P2, … , Pn为条件参数集合,d为性能参数。


  为了简化信息表,首先进行条件属性的简化,即从表中消去某些列;然后再消去重复的行;最后消去属性的冗余值,这样就得到了最小信息表。从而得到了条件参数和性能参数之间的一条或多条决策规则,供用户做最后决策。

 
推荐文章
深圳供多媒体制作
深圳光盘转录刻录制作
深圳光盘转录报价
深圳光盘制作中心
光盘制作服务信息
深圳光盘印刷送货上门
深圳光盘数码打印服务与报价
影视光盘制作
深圳VCD光盘制作
深圳DVD光盘制作
深圳影视光盘制作
深圳数据光盘制作
VCD,DVD光盘复制
多媒体光盘制作,光盘封面印
深圳光盘专业打印
光盘制作包装设计
深圳名片光盘专业制作
光盘柯式印刷设计制作规格
深圳光盘压制
深圳专业母盘制作服务
 
 
 

Copyright© 2006-2008 深圳影视制作网 All Rights Reserved.