zhan-bin

just do it

mapreduce原理及其执行过程

mapreduce原理及其执行过程1.定义 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)”和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情..


HDFS读写流程、文件权限、安全模式

HDFS读写流程、文件权限、安全模式1.HDFS读写流程(1)HDFS读取文件 首先通过分布式文件系统向namenode取得所需0文件分块及其所在位置 再通过FSDataInputStream向指定datanode取得文件分块,然后合并文件,最后关闭数据流。 (2)HDFS写入文件 首先通过D..


一种基于哈希的字符串匹配

一种基于哈希的字符串匹配(论文综述)论文来源:IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 30, NO. 1, JANUARY 2018论文原文:String Similarity Search: A Hash-Based ..


Windows上第一个mapreduce程序

Windows上第一个mapreduce程序作者:Zhan-bin日期:2018-07-07 MapReduce原理及其执行过程 这里实在windows上开发执行mapreduce程序,如果要放到hdfs集群,将地址改成集群地址即可。 Map Reduce原理参考参考链接:MapReduce原理..


win配置eclipse

win10下 eclipse配置hadoop开发环境作者:Zhan-bin日期:2018-07-06 本文配置环境 win10hadoop2.9.1 用到的工具及其下载链接 hadoop2x-eclipse-plugin-master.zip winutils-master.zip 步骤wi..