2018年05月9日的内容

计算机核心期刊新排名

八大学报 1.计算机学报 2.软件学报 3.计算机科学与技术学报（JCST） 4.计算机研究与发展 5.自动化学报 6.电子学报 7.通信学报 8.中国科学被SCI检索的国外期刊（顶级会议）新排名 2004部分核心期刊名单（自动化、计算机部分与无线电、电信部分) 自...

water 7年前 (2018-05-09) 5149℃ 0评论 0喜欢

NSP分词算法是句子粗分的基本算法，在中科院计算所的文章中有详细描述。但是看了不甚明白，今天实现了这个算法，主要用的还是图论的基本算法Dijkstra算法。将分词转化为图的最短路径问题假设要切分一下句子：主席出现在这里。可将其转化为以下的图：从而，找出这个句子的最短切分的...

water 7年前 (2018-05-09) 3540℃ 0评论 0喜欢

什么是中文分词与大部分印欧语系的语言不同，中文在词与词之间没有任何空格之类的显示标志指示词的边界。因此，中文分词是很多自然语言处理系统中的基础模块和首要环节。下面以jieba的示例给读者一个对分词的感性认识。【全模式】: 我/ 来到/ 北京/&...

water 7年前 (2018-05-09) 3106℃ 0评论 0喜欢

文/赵玉锡 2004 年进入华为，一直在消息产品开发一线耕耘，今年下半年转入华为融合视频业务。曾参与多个重要项目与重要版本的设计、重构与开发，辗转多个语言：长期从事 C、C++ 开发，Java 与 Python 也有约 30K+ 代码的开发经验，目前正在基于 Go 语言开发，对 ...

water 7年前 (2018-05-09) 3433℃ 0评论 0喜欢

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。 Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎，...

water 7年前 (2018-05-09) 2805℃ 0评论 1喜欢

当前是云计算和数据快速增长的时代,今天的应用程序正以PB级和ZB级的速度生产数据，但人们依然在不停的追求更高更快的性能需求。随着数据的堆积，如何快速有效的搜索这些数据，成为对后端服务的挑战。本文，我们将比较业界两个最流行的开源搜索引擎，Solr和ElasticSearch。两者都...

water 7年前 (2018-05-09) 3243℃ 0评论 0喜欢

Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持（Hive、Impala、Drill等），并且它是语言和平台无关的。Parquet最初是由Twitter和Clo...

water 7年前 (2018-05-09) 3852℃ 0评论 0喜欢

分布式系统中，即便是一个小型的集群，也需要通过一个机制来维护各个节点或服务的状态一致性和数据一致性。zab、paxos是使用较早的协议，后来出现了RAFT协议，这些主要通过RPC的机制进行节点连接，因此主要用于局域网或数据中心内部。Gossip（意：八卦、流言）支持p2p协议，是...

water 7年前 (2018-05-09) 4863℃ 0评论 4喜欢

前言 Apache Kudu是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展，使用Raft协议进行一致性保证，并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。本文将为...

water 7年前 (2018-05-09) 3002℃ 0评论 0喜欢