在spark平台上面运行wordcount


##一.上传源文件提交到hdfs上

###①在hadoop目录中,运行sbin/start-dfs.sh,打开hdfs服务.

###②上传需要统计字频的文件到hdfs中.如上传到(hdfs://localhost:9000/in/in01)

##二.通过控制机连接登陆到集群.
在确保机器能够访问集群的前提下,输入

1
2
MASTER=spark://Chen:7077 spark-shell
//指定master节点运行shell Chen为集群master的hostname

##三.运行程序
①从hdfs上读取文件

1
val file = sc.textFile("hdfs://localhost:9000/in/in01")

②进行分词操作

1
val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

③整合

1
count.collect()