使用默认的pyspark会调用python命令行,但总是不太方便.
本文会讲解2种方法使用jupyter打开pyspark,加载spark的环境.
简直太简单.
本次环境
1 | spark:2.2.0 |
效果
配置方法1
- 配置环境变量:
1
2
3
4
5export SPARK_HOME=/home/temp/spark-2.2.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook' - 使变量生效后和原方法一样使用命令:
1
2source .bashrc
pyspark配置方法2
通过findspark这个库.
- 先安装:
1
pip install findspark
- 加载notebook
1
jupyter notebook
- 通过导入使用:
1
2
3
4
5
6
7
8
9
10
11
12
13
14import findspark
findspark.init()
import pyspark
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):
x, y = random.random(), random.random()
return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()
本文翻译自:https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f