본문 바로가기

python

AWS 에서 크롤링을 위한 Python과 selenium 사용환경

# YUM 업데이트

sudo yum update -y

 

# 파이썬3 설치 

sudo yum install python3 -y

 

# 크롤링을 위한 크롬 드라이브 자동 설치

curl https://intoli.com/install-google-chrome.sh | bash

 

# selenium 과 pycurl 등등에서 쓰이는 유틸 설치

sudo yum install build-essential autoconf libtool pkg-config python-opengl python-pil python-pyrex python-pyside.qtopengl libgle3 python-dev libssl-dev  libcurl-devel python3-devel  openssl-devel -y

 

# pycurl 설치 설정

export PYCURL_SSL_LIBRARY=openssl

pip3 install  pycurl --no-cache-dir --user

 

또는

export CPPFLAGS=-I/usr/local/opt/openssl/include

export LDFLAGS=-L/usr/local/opt/openssl/lib

pip3 install pycurl --global-option="--with-openssl"

 

# 내 프로그램에서 쓰는 모듈들 설치 

pip3 install pydash --user

pip3 install selenium --user

pip3 install bs4 --user

 

# 크롬 드라이브 권한 설정 

chmod a+x chromedriver

 

# headless에서 먹통인 사이트가 있어서 가상 디스플레이 모듈로 사용.

sudo yum install xorg-x11-server-Xvfb -y  

pip3 install pyvirtualdisplay --user

sudo yum install xorg-x11-utils -y

 

pip3 install requests --user

 

이러면 기본적으로 크롤링 할 수 있는 환경은 다 갖췄다.