博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark on yarn
阅读量:5110 次
发布时间:2019-06-13

本文共 734 字,大约阅读时间需要 2 分钟。

公司中一般采用spark on yarn 模式,下面主要介绍spark on yarn的安装与简单程序运行。

1、spark on yarn两种运行模式

yarn-cluster:用于生产环境。Driver和AM运行在一起,client单独。

yarn-client:能立即看到输出结果。Driver运行在本地。AM仅用来管理资源。

client提交的job都会在worker上分配一个唯一的APPmaster。

2、配置spark-env.sh文件,让spark找到yarn在哪里

HADOOP_CONF_DIR=/home/hadoop/app/hadoop/etc/hadoop

3、配置slaves文件,指定在哪些节点运行worker

4、spark-env.sh—spark的环境变量

5、试运行集群

bin/spark-shell --master yarn-client

启动成功:

6、作业提交(运行pi)

bin/spark-submit \

--class org.apache.spark.examples.JavaSparkPi \
--master yarn-client \
--num-executors 1 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
lib/spark-examples-1.6.1-hadoop2.6.0.jar

错误解决:

 

解决方式:

  • 同步时间
  • 在hadoop配置文件中yarn-site.xml配置

 

转载于:https://www.cnblogs.com/VillageKnight-Ding/p/8082893.html

你可能感兴趣的文章
json数据在前端(javascript)和后端(php)转换
查看>>
[Serializable]的应用--注册码的生成,加密和验证
查看>>
Day19内容回顾
查看>>
第七次作业
查看>>
SpringBoot项目打包
查看>>
Linux操作系统 和 Windows操作系统 的区别
查看>>
《QQ欢乐斗地主》山寨版
查看>>
文件流的使用以及序列化和反序列化的方法使用
查看>>
Android-多线程AsyncTask
查看>>
第一个Spring冲刺周期团队进展报告
查看>>
C++函数基础知识
查看>>
红黑树 c++ 实现
查看>>
Android 获取网络链接类型
查看>>
linux中启动与终止lnmp的脚本
查看>>
gdb中信号的处理[转]
查看>>
LeetCode【709. 转换成小写字母】
查看>>
如何在Access2007中使用日期类型查询数据
查看>>
Jzoj4757 树上摩托
查看>>
CF992E Nastya and King-Shamans(线段树二分+思维)
查看>>
oracle 几个时间函数探究
查看>>