|本期目录/Table of Contents|

[1]胡〓亮,夏〓磊,李〓伟.基于改进TFIDF算法的关键词抽取系统[J].厦门理工学院学报,2017,(5):67-72.[doi:10.19697/j.cnki.1673-4432.201705013]
 HU Liang,XIA Lei,LI Wei.Design and Implementation of a Keyword Extraction System〖JZ〗Using Optimized TFIDF[J].Journal of JOURNAL OF XIAMEN,2017,(5):67-72.[doi:10.19697/j.cnki.1673-4432.201705013]
点击复制

基于改进TFIDF算法的关键词抽取系统(PDF)
分享到:

《厦门理工学院学报》[ISSN:1673-4432/CN:35-1289/Z]

卷:
期数:
2017年第5期
页码:
67-72
栏目:
计算机与信息工程
出版日期:
2017-10-30

文章信息/Info

Title:
Design and Implementation of a Keyword Extraction System〖JZ〗Using Optimized TFIDF
文章编号:
1673-4432(2017)05-0067-06
作者:
胡〓亮夏〓磊李〓伟
(厦门理工学院计算机与信息工程学院,福建 厦门 361024)
Author(s):
HU LiangXIA LeiLI Wei
(School of Computer & Information Engineering,Xiamen University of Technology,Xiamen 361024,China)
关键词:
TFIDF算法卡方校验
Keywords:
keywords extractionTFIDFchisquare test
分类号:
TP3911
DOI:
10.19697/j.cnki.1673-4432.201705013
文献标志码:
A
摘要:
为克服传统TFIDF概念思想与关键词抽取的逻辑相冲问题,引入卡方校验的方法优化TFIDF算法,设计了一个包含文件存储、文本预处理、度量值计算、排序抽取和优化输出4个流程的关键词抽取系统。实验结果表明,该系统能够很好地完成关键词分类抽取的任务,可为数据检索、文本聚类、摘要生成等提供基础支持。
Abstract:
A keyword extraction system including file storage,text preprocessing,measure calculation,extraction,and sequencing and output ranking was designed using a chisquare test optimized TFIDF algorithm to solve the logical conflict between the traditional TFIDF concept and keyword extraction. Experimental results show that the system fulfils the task of keyword extraction well and can provide technical support for data retrieval,text clustering and summarization generation.

参考文献/References:

[1]〖ZK(〗〖JP3〗王健,陈剑云.基于JAVA多线程的IEC608705101规约分层设[J].科技情报开发与经济,2005,15(7):249250.〖ZK)〗〖JP〗[2]〖ZK(〗徐东亮.基于文本挖掘的聚类算法研究[J].微计算机信息,2011,27(2):168169.〖ZK)〗[3]〖ZK(〗周满英.百度和谷歌的中文分词技术浅析[J].中国索引,2011,9(2):4446.〖ZK)〗[4]〖ZK(〗〖JP2〗黄先珍,杨玉珍,刘培玉.信息过滤中基于统计与规则的关键词抽取研究[J].计算机工程,2012,38(2):5759.〖ZK)〗〖JP〗[5]〖ZK(〗RUSSELL M A.Mining the social web:data mining facebook,twitter,linkedIn,google+,gitHub,and more[M].California:OReilly Media,lnc.2013.〖ZK)〗[6]〖ZK(〗猿飞寅.聊天语言环境下关键词提取算法的研究和实现[D].南京:东南大学,2012.〖ZK)〗 [7]〖ZK(〗汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163166.〖ZK)〗[8]〖ZK(〗路永和,李焰锋.改进TFIDF算法的文本特征项权值计算方法[J].图书情报作,2013,57(3):9095.〖ZK)〗[9]〖ZK(〗周威成,马素霞.非法网页过滤的研究与实现[J].计算机应用,2003,23(10):108110.〖ZK)〗[10]〖ZK(〗AGICHTEINE,CASTILLO C,DONATO D,et al.Finding highquality content in social media[C]//Association for Computing Machinery.Proceedings of the 2008 international conference on web search and data mining.ACM,2008:183194.〖ZK)〗[11]〖ZK(〗ASUR S,HUBERMAN B.Predicting the future with social media[J].Social Science Electronic Publishing,2010,7(2):492499.〖ZK)〗[12]〖ZK(〗黄贤英,陈红阳.一种新的微博短文文本特征词选择算法[J].计算机工程与科学,2015,37(9):1 7611 767.〖ZK)〗[13]〖ZK(〗夏天.词语位置加TextRank的关键词抽取研究[J].现代图书情报技术,2013,29(9):3034.〖ZK)〗[14]〖ZK(〗刘俊.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4 2244 227.〖ZK)〗[15]〖ZK(〗逯万辉.基于CRFs的领域爆发词识别的研究与实现[J].情报科学,2014(1):8993.〖ZK)〗[16]〖ZK(〗贺艳梅.学术英语风格再现与重构[D].上海:上海交通大学,2012.〖ZK)〗[17]〖ZK(〗YOSHIDA M,MATSUSHIA S,ONO S,et al.Tweet categorization by query categorization for online reputation management[C]//CLEF 2010 LABs and Workshops,Padua:2010.〖ZK)〗[18]〖ZK(〗勒龙艳.中文微博细粒情绪识别研究[D].衡阳:南华大学,2014.〖ZK)〗[19]〖ZK(〗王惠仙.基于改进的正向最大匹配中文分词算法研究[J].贵州大学学报(自然科学版),2011,28(5):112115.〖ZK)〗[20]〖ZK(〗徐明.基于改进卡方统计的微博特征提取方法[J].计算机工程与应用,2014,50(9):113117.〖ZK)〗〖HT〗

相似文献/References:

备注/Memo

备注/Memo:
[收稿日期]2017-06-30〓〓〓〓[修回日期]2017-10-09〖HTH〗[基金项目]〖HTSS〗福建省自然科学基金项目(2016J01325);福建省中青年教师教育科研项目(JAT160358)〖HTH〗[作者简介]〖HTSS〗〖ZK(〗胡亮(1980-),女,讲师,硕士,研究方向为数据挖掘、人工智能、计算机视觉,〖BF〗Email:lhu@xmut.edu.cn〖BFQ〗。
更新日期/Last Update: