聚文网

聚文网 > 作文 > 写作指导 > 词语

高相似度英语词语自主选取系统设计的论文

词语 2015-05-31 10:00:34
相关推荐

英语词语之间的语义相似度研究课题作为自然语言处理和计算机人工智能的基础性研究[1?3],如选取、搜索、分类以及歧义消除等,需要依赖于包含现实世界概念的知识体系[4]。英语词语的相似度是对英语词语之间语义相似紧密程度的度量,在机器翻译、数据信息检索等方面具有重要的实用价值[5]。在不同的实际应用场景中,英语词语相似度具有不同的用途[6]。另外,在构造统计英语词语语言模型的过程中,由于数据分布稀疏导致未登录英语词语的统计信息无法计算的问题[7],需要进行高相似度英语词语自主选取系统设计。在国内,随着计算机人工智能的不断发展,更准确地进行高相似度英语词语自主选取系统设计引起了很多国内外专家与学者的重视。

文献[8]提出基于朴素贝叶斯的高相似度英语词语自主选取系统设计,首先介绍知网中的英语词语相似度基本概念和体系结构,利用知网的义原层次体系结构计算得到英语词语的义原相似度,计算出英语词语概念的相似度;然后通过支持向量机分类器完成自主选取系统设计。该方法较为简单,但是存在英语词语相似度计算不清的问题,导致在自主选取過程中准确率不高。文献[9]提出基于Corpus库的高相似度英语词语自主选取系统设计,首先构建英语词语语义关联库,利用该库使英语词语空间与关系空间结构化,保存英语词语与其上下文之间的总体信息,通过阅读大量的英语词语语料数据来训练相似度英语词语的相关数据,并对训练过程中涌现的大量英语词语关系进行剪裁,利用朴素贝叶斯分类器完成对高相似度英语词语的自主选取。该方法存在对高相似度英语词语的自主选取时间过长,且英语词语的相似度计算准确率较低的问题。

针对上述问题,本文提出一种基于数据挖掘的高相似度英语词语自主选取系统设计方法,所提系统设计方法可以精确地选取出高相似度英语词语,且选取时间较短,实用性广泛。

英语词语之间的语义相似度研究课题作为自然语言处理和计算机人工智能的基础性研究[1?3],如选取、搜索、分类以及歧义消除等,需要依赖于包含现实世界概念的知识体系[4]。英语词语的相似度是对英语词语之间语义相似紧密程度的度量,在机器翻译、数据信息检索等方面具有重要的实用价值[5]。在不同的实际应用场景中,英语词语相似度具有不同的用途[6]。另外,在构造统计英语词语语言模型的过程中,由于数据分布稀疏导致未登录英语词语的统计信息无法计算的问题[7],需要进行高相似度英语词语自主选取系统设计。在国内,随着计算机人工智能的不断发展,更准确地进行高相似度英语词语自主选取系统设计引起了很多国内外专家与学者的重视。

文献[8]提出基于朴素贝叶斯的高相似度英语词语自主选取系统设计,首先介绍知网中的英语词语相似度基本概念和体系结构,利用知网的义原层次体系结构计算得到英语词语的义原相似度,计算出英语词语概念的相似度;然后通过支持向量机分类器完成自主选取系统设计。该方法较为简单,但是存在英语词语相似度计算不清的问题,导致在自主选取過程中准确率不高。文献[9]提出基于Corpus库的高相似度英语词语自主选取系统设计,首先构建英语词语语义关联库,利用该库使英语词语空间与关系空间结构化,保存英语词语与其上下文之间的总体信息,通过阅读大量的英语词语语料数据来训练相似度英语词语的相关数据,并对训练过程中涌现的大量英语词语关系进行剪裁,利用朴素贝叶斯分类器完成对高相似度英语词语的自主选取。该方法存在对高相似度英语词语的自主选取时间过长,且英语词语的相似度计算准确率较低的问题。

针对上述问题,本文提出一种基于数据挖掘的高相似度英语词语自主选取系统设计方法,所提系统设计方法可以精确地选取出高相似度英语词语,且选取时间较短,实用性广泛。

1 高相似度英语词语自主选取系统设计

1.1 高相似度英语词语选取系统设计endprint

考虑到人们对高相似度英语词语自主选取系统设计需求的精准性与灵活性[10],将英语词语的相似度计算结果与数据挖掘特点相结合,设计出一种高相似度英语词语自主选取系统,如图1所示。

本文高相似度英语词语的自主选取系统设计对硬件系统设计不作考量,主要研究软件和算法。

1.2 基于路径和深度的英语词语高相似度计算方法

1.3 基于数据挖掘的高相似度英语词语自主选取

为了能够有效地在网络中挖掘出高相似度英语词语,在处理两个英语词语义项的最短路径与其距离最近公共父节点的基础上,利用数据挖掘将英语词语文本特征选择转换为一个多目标优化问题;然后以英语词语特征维数最少、分类正确率相对最高为选取标准,采用蚁群算法找到英语词语的最优特征子集;最后通过神经网络建立英语词语相似度文本自动分类器。具体描述过程如下:

式中:[σ]为英语词语神经网络隐节点宽度;[c]表示英语词语第[r]个神经网络隐节点中点;[w]为英语词语神经网络输出权值。参数[w,][c,][σ]对神经网络分类起决定性作用,要想获得高性能神经网络,需要对参数进行优化。在此基础上完成对高相似度英语词语的自主选择。

2 实验结果与分析

实验环境建立的PC机配置为:CPU Core i7?4790 3.60 GHz,RAM=4 GB,Windows7操作系统,通过Java语言编写实现。实验过程中设置32个存储节点,每个节点的最大存储容量为1 TB,数据通道为2 000 Mb/s,英语词语文本采集与数据存储均为10 TB。根据参与对比的系统设计使用的英语词语语义资源所收录的英语词语情况,本文从该英语词语测试集中筛选出一些无法计算的英语词语对,最终结果保留10对英语词语用于测试,如表1所示。

从表1中可以看出,[S1]的英语词语相似度计算结果在数值上普遍较低,主要是由于基于Corpus库的高相似度英语词语自主选取系统设计方法考虑众多英语词语特征,加上一些其他干扰因素的影响,从而造成英语词语特征高维向量的相似度普遍偏低;[S2]数值跨度较大,这是由于基于百度百科的高相似度英语词语自主选取系统设计方法通常情况下在某些方面与人工思维没有较好的符合。

利用1.3节中的平衡最大英语词语特征识别率与英语词语特征维数的权值[λ,]对高相似度英语词语自主选取系统设计方法的选取效率影响,如图2所示。

由图2可知,选取参与测试的英语词语数据集为700个,选取英语词语测试数据为200,400,600时对应的高相似度英语词语自主选取系统设计的选取效率,其中,当[λ=1]时,高相似度英语词语自主选取系统设计的选取效率分别为30%,38%和60%;当[λ=3]时,高相似度英语词语自主选取系统设计的选取效率分别为42%,48%和72%;当[λ=5]时,当高相似度英语词语自主选取系统设计的选取效率分别为60%,70%和90%。通过分析可知平衡最大英语词语特征识别率与英语词语特征维数的权值[λ]在区间[1,5]时,本文所提系统设计方法的选取效率最高。3 结 语

采用当前系统设计方法对高相似度英语词语进行自主选取时,存在选取效率低、选取时间过长等问题。本文提出基于数据挖掘的高相似度英语词语自主选取系统设计方法。通过实验证明,所提系统设计方法可精确地对高相似度英语词语进行自主选取,具有良好的应用价值。

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新