第一:主题和意义
你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。
形式大于内容,在有内容的前提下,可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。
当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。
因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。
比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。
第二:语料收集
个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。
记住这里要有两个数据:1、标签关键词 2、关键词词频,词频决定关键词的显示大小。
语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖掘的结果。
当然你可以从任何途径和资源活动要表现的语料。
img src=”htts:
3douyiniccomlargetos-cn-i-00227628cc55d0d34dadb0fbe29e28a5f6fd” width=”663″ height=”451″ 第三:分词和关键词抽取
当你获得语料后,如果需要抽取关键词,就需要学习中文分词。
中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词。
如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM等,这里推荐初学者考虑用ROST-CM工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。
少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。
特别强调:任何中文分词如果能够加入人工干涉和主观判断都会提升准确性和有效性;下面介绍的在线个性化分词本身也可完成分词。
(包括中文分词,体验效果:不同语料和多少,时好时坏)
可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。
它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。
目前正在飞速发展的虚拟现实技术也是以图形图像的可视化技术为依托的。
可视化的意义
1、展现全貌:很多讨论所涉及的主题都是包括多个元素,其中一个元素会影响到多个其他元素,如果不采取可视化,则无法看到全貌、也无法进行真正的讨论。
2、增强理解、便于对话、探索、交流。
3、简化复杂性,增强审视。
4、处理异议:在讨论过程中,出现观点不同时,争论的双方看到自己的观点得以记录并展现于众时,情绪会逐渐趋于缓和。
张华平
中文名张华平
国籍中国
出生地江西
出生日期1978年2月日
学位/学历博士
职业教师
人物介绍张华平出生于1978年2月,籍贯江西,硕士生导师,中科院计算所百星计划首批入选者;中国计算机学会高级会员,同时担任首都师范大学兼职副教授,辽宁师范大学客座教授,北京市重点产业知识产权联盟专家,中科院计算所首届技术创新大赛组委会主席。
2005年毕业于中科院计算所,获得计算机软件与理论博士学位,研究方向为:信息安全、浅层语言分析、信息检索、文本挖掘与舆情计算机制研究。曾先后获得中科院院长优秀奖、中科院计算所所长特别奖,作为课题组长主持开发了863等国家科研课题6项,目前发明专利2项、译着1部、软件着作权1项,发表论文十余篇。2004年参加TREC Novelty比赛,综合排名国际第一;从2002年至今,研制汉语词法分析系统ICTCLAS,是当前世界上最好的汉语词法分析器,ICTCLAS在国家973评测和第一届国际汉语分词大赛中均获得了综合得分第1名。
科研方向大数据搜索与挖掘、自然语言处理、社交网络分析、信息检索与信息安全。
科研成果1作为课题第一负责人先后主持研制的课题有:中国证监会网络监测系统,网络话题的发现、传播及动态演化特征分析技术(863课题);专项辅助**系统(国家242信息安全计划)、短文本分析(国家242信息安全计划)、面向证券市场的舆情动态分析(科学院支持课题)、社会舆情分析机制研究(计算所知识创新工程课题),面向中文搜索引擎的索引词分析技术(计算所知识创新工程课题);
2从2002年至今,一直研制汉语词法分析系统ICTCLAS,最新研制的ICTCLAS2011版本,速度达到了1MB/s,精度达到9845%,是当前世界上最好的汉语词法分析器,曾获得了国家973专家组评测中获得第一名,获得了第一届国际汉语分词大赛中综合得分第1名。同时,ICTCLAS也是中文自然语言开放平台上最受欢迎的开放源代码项目,目前,已经向国内外的企业和学术机构颁发了60,000多份授权,我们提供的各种形式研究成果,在学术界和产业界得到了广泛的应用。
学术论着1发明专利:完美双数组TRIE树词典管理与检索方法(专利号:2005101306903),第一发明人,已经通过,正在公示中;20067
2软件着作权:
1)计算所汉语词法分析系统ICTCLAS,软件登记号为2003SR0087。
2)汉语机构名称识别系统软件,软件登记号:2004SR00677
3译着:
张华平,李恒训,刘治华,信息检索:算法与启发式规则(译着),人民邮电出版社,20109
刘群,张华平,骆卫华,孙健,自然语言理解(译着),电子工业出版社
获奖情况12016年,新疆自治区科技进步二等奖,维吾尔文目标站点内容监测关键技术研究与系统开发;
2中央网信办十佳讲师
32010年获得钱伟长中文信息处理科学技术奖一等奖(中文信息领域最高奖)
42004年获计算所所长特别奖(05%)
52004年获中科院院长奖(02%)
62006年获计算所优秀个人(1%)
72007年获计算所优秀团队(1%)
82008年获计算所优秀个人(1%)
92007年计算所百星计划首批入选者(1%)
社会兼职中国互联网协会大数据工作委员会(筹)执行主任;
第三届全国社会媒体处理大会程序委员会主席;
同时担任辽宁师范大学客座教授,首都师范大学兼职副教授;
中国中文信息学会社会媒体处理专业委员会常务委员;
中国计算机学会青年科技论坛YOCSEF委员;
中国计算机学会普及工委委员;