数据挖掘级别

作为一系列过程,数据挖掘可以分为几个阶段。这些阶段是交互式的,用户直接参与或通过知识库参与。这些阶段包括:

  1. 数据清洗

一般来说,获得的数据,无论是来自公司的数据库还是实验结果,都存在不完善的条目,例如缺失数据、无效数据或只是拼写错误。除此之外,还有一些与我们的数据挖掘假设无关的数据属性。最好丢弃不相关的数据,因为它的存在会降低以后数据挖掘结果的质量或准确性。垃圾进垃圾出(如果也放入垃圾,只会产生垃圾)是一个经常用来描述这个阶段的术语。数据清洗也会影响数据挖掘系统的性能,因为处理的数据量和复杂性都会降低。

数据集成是针对标识唯实体的属性

例如名称属性、产品类型、客户编号等)进行的。数据集成需要谨慎进行,因为数据集成中的错误可能会产生扭曲的结果,甚至误导未来的行动。例如,如果基 伊朗 WhatsApp 号码数据 于产品类型的数据集成最终合并了不同类别的产品,您将获得实际不存在的产品之间的相关性。在这种数据集成中,还需要对数据进行转换和清洗,因为常常两个不同数据库的数据写得不一样,甚至一个数据库中的数据在另一个数据库中不存在。

一些数据挖掘技术需要特殊的数据格式才能应用。例如,一些标准技术(例如关联分析和聚类)只能接受分类数据输入。因此,需要将连续数值形式的数据划分为若干个区间。此过程通常称为分箱。这里还进行所使用的数据挖掘技术所需的数据选择。这种数据转换和选择也决定了以后数据挖掘结果的质量,因为某些数据挖掘技术的几个特征依赖于这个阶段。

数据挖掘技术的应用

数据挖掘技术的应用本身只是数据挖掘过程的一部分。有几种常用的数据挖掘技术。我们将在下一节中进一步讨论这些技术。需要注意的是,有时市场上 现有 新加坡电话列表 的通用数据挖掘技术不足以进行某些领域或某些数据的数据挖掘。例如,最近已经开发出各种新的数据挖掘技术用于生物信息学领域的应用,例如分析微阵列结果以识别DNA及其功能。

在此阶段,对典型模式和预测模型形式的数据挖掘技术的结果进行评估,以评估现有假设是否确实实现。如果事实证明获得的结果与假设不匹配,则可以采取几种替代方案,例如:将其用作反馈来改进数据挖掘过程,尝试其他更合适的数据挖掘技术,或者接受这一点结果是一个可能有用的意外结果。

发表回复