1:标准化因子文件nrm
在讨论标准化因子(Normalization Factor)之前,首先应明晰两个概念:
tf(term frequency):term在文档中出现的频次
idf(inverse doc frequency):包含term的词条越少,则此term的...
water
6年前 (2018-07-23) 4610℃ 0评论
5喜欢
转载请说明出处:http://blog.csdn.net/cywosp/article/details/23397179
一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot...
water
7年前 (2018-06-20) 2749℃ 0评论
0喜欢
NSP分词算法是句子粗分的基本算法,在中科院计算所的文章中有详细描述。但是看了不甚明白,今天实现了这个算法,主要用的还是图论的基本算法Dijkstra算法。
将分词转化为图的最短路径问题假设要切分一下句子 :主席出现在这里。可将其转化为以下的图:
从而,找出这个句子的最短切分的...
water
7年前 (2018-05-09) 3254℃ 0评论
0喜欢
什么是中文分词
与大部分印欧语系的语言不同,中文在词与词之间没有任何空格之类的显示标志指示词的边界。因此,中文分词是很多自然语言处理系统中的基础模块和首要环节。
下面以jieba的示例给读者一个对分词的感性认识。
【全模式】: 我/ 来到/ 北京/&...
water
7年前 (2018-05-09) 2774℃ 0评论
0喜欢
最近一直在学习NLP里最基础的几个语言模型:隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场(Conditional Random Field,CRF)。这三种模...
water
7年前 (2018-01-02) 9565℃ 0评论
0喜欢
本文介绍了常用的高效数据结构,包括bloom filter、跳跃表、trie树、线段树、B树、KD树、树状数组、并查集、红黑树和约瑟夫环问题。全部是简要的描述,建立在大家都对这些数据结构有一定的了解基础上,快速的复习。如果想要继续深入研究请看参考文献后面的...
water
7年前 (2017-12-26) 2451℃ 0评论
0喜欢
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。
 ...
water
7年前 (2017-08-17) 2802℃ 0评论
0喜欢
数据结构与算法基础(上)
什么是数据结构,数据结构研究的主要内容,了解什么是算法,如何评价一个算法的性能
数据结构
人们在使用计算机解决客观世界中存在的具体问题时,通常过程如下:首先通过对客观世界的认知形成印象和概念从而得到了信息,在此基础上建立概念模型,它必须能够如实地反映客...
water
8年前 (2017-03-22) 2590℃ 0评论
0喜欢