博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
(1)安装----anaconda3下配置pyspark【单机】
阅读量:6890 次
发布时间:2019-06-27

本文共 1121 字,大约阅读时间需要 3 分钟。

1、确保已经安装jdk和anaconda3。【我安装的jdk为1.8,anaconda的python为3.6】

2、安装spark,到官网 http://spark.apache.org/downloads.html 上下载,我下载的是

  (1)将上面的压缩包解压在一个文件夹下:注意存放的路径一定不能带空格,我存放在目录下E:\programs2\spark\spark-2.3.1-bin-hadoop2.7,然后将其加入环境变量中。

新建:SPARK_HOME = 'E:\programs2\spark\spark-2.3.1-bin-hadoop2.7'

在Path中添加:

%SPARK_HOME%\bin

%SPARK_HOME%\sbin

 (2)配置anaconda的python环境变量:

新建 PYTHONPATH = %SPARK_HOME%\python\lib\py4j-0.10.7-src;%SPARK_HOME%\python\lib\pyspark

(3)将E:\programs2\spark\spark-2.3.1-bin-hadoop2.7\python\pyspark整个文件夹复制到Anaconda3\Lib\site-packages文件夹中。

(4)添加系统环境变量

变量名:PYSPARK_DRIVER_PYTHON;变量值:ipython
变量名:PYSPARK_DRIVER_PYTHON_OPTS;变量值:notebook

3、安装Hadoop

到官网上下载hadoop-2.7.3.tar.gz,然后解压缩在E:\programs2\hadoop\hadoop-2.7.3

并且还需winutils.exe,winutils.pdb等,可在https://github.com/srccodes/hadoop-common-2.2.0-bin下载,然后复制到目录为:E:\programs2\hadoop\hadoop-2.7.3\bin

添加环境变量 HADOOP_HOME = E:\programs2\hadoop\hadoop-2.7.3

在Path中添加:%HADOOP_HOME%\bin;%HADOOP%\sbin

4、确认是否安装成功

当输入命令pyspark出现界面时表明spark安装配置完成了,如果环境变量配置成功的话,直接把jupyter notebook打开。

 

 

参考:https://www.e-learn.cn/content/python/786199

转载于:https://www.cnblogs.com/Lee-yl/p/9759348.html

你可能感兴趣的文章
基于域的无线安全认证方案
查看>>
Android平板开发永久实现全屏的方法
查看>>
windows远程连接失败的原因
查看>>
我的友情链接
查看>>
Centos下邮件服务器(postfix)的配置(一)
查看>>
Thread类常用方法
查看>>
Yarn大体框架和工作流程研究
查看>>
vue学习笔记(一)
查看>>
微软专家推荐11个Chrome 插件
查看>>
三天学会HTML5——SVG和Canvas的使用
查看>>
MySql基本操作(二)
查看>>
我的友情链接
查看>>
文件上传时几个Content-type
查看>>
我的友情链接
查看>>
Exchange Server 2013 集成Office Web App
查看>>
字节转换工具,在线字节转换工具
查看>>
实验心得
查看>>
mysql 生成行号
查看>>
Control your Thinkpad T430 fan speed in Ubuntu 12.
查看>>
【OSC手机App技术解析】- 在WebView中组装HTML
查看>>