##一.上传源文件提交到hdfs上
###①在hadoop目录中,运行sbin/start-dfs.sh,打开hdfs服务.
###②上传需要统计字频的文件到hdfs中.如上传到(hdfs://localhost:9000/in/in01)
##二.通过控制机连接登陆到集群.
在确保机器能够访问集群的前提下,输入1
2MASTER=spark://Chen:7077 spark-shell
//指定master节点运行shell Chen为集群master的hostname
##三.运行程序
①从hdfs上读取文件1
val file = sc.textFile("hdfs://localhost:9000/in/in01")
②进行分词操作1
val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
③整合1
count.collect()