목록빅데이터 (12)
khstar
빅데이터 Spark 공부중입니다. Spark 애플레케이션(jar)을 만들어서 spark-submit으로 실행하는 것을 확인 중이었는데요. 우선 코드는 아래와 같습니다. 코드 출처는 빅데이터 분석을 위한 스파크2 프로그래밍 예제입니다. https://book.naver.com/bookdb/book_detail.nhn?bid=13483878 package com.wikibooks.spark.ch6; import kafka.serializer.StringDecoder; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.streaming.Durations; impor..
kafka를 사용하려면 zookeeper를 반드시 사용해야 합니다. kafka를 설치하게 되면 기본적으로 zookeeper가 같이 설치 됩니다. config/zookeeper.properties에 설정만 해서 사용하면 되는데요. 전 kafka에 기본으로 설치된 zookeeper의 log 파일이 어디 생성되는지 어디를 설정해야 하는지 찾지 못해 별도로 zookeeper를 설치하였습니다. zookeeper를 실행하고 kafka를 실행하는데 log에 WARN Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect (org.apache.zookeeper.ClientCnxn) java.net.C..
kafka를 설치하고 실행했는데 실행은 잘 된다. 그런데 topic을 생성하려는데 Replication factor: 1 larger than available brokers: 0. 오류가 발생한다. 다양한 이유가 있는듯 합니다. 전 server.properties의 설정이 잘못되어 발생했습니다. server.properties의 zookeeper.connect 값을 잘못 설정한겁니다. ㅜㅜ zookeeper.connect=master:2181/kafka-test, slave1:2181/kafka-test 이렇게요. 저 kafka-test는 왜 붙였던건지도 기억이 안나네요. zookeeper.connect=master:2181, slave1:2181 이렇게 바꿔서 다시 실행하고 topic을 생성하니 잘 ..
zookeeper의 설치 방법은 https://mslee89.tistory.com/188 에 잘 나와 있습니다. 참고 하시고요. 전 zookeeper를 실행하는 방법에 대해 글을 적습니다. zookeeper 실행하기 글을 적는 이유는 하다 보면 저 처럼 단순한 경우 오해를 할수 있기 때문입니다. ;; 우선 서버 두대만 설치했습니다. CentOS7에 설치하면서 /usr/local/zookeeper로 설치를 하였습니다. 환경설정은 zoo.cfg 파일에 작성을 하면 됩니다. standalone 실행인 경우 아래의 서버 설정을 삭제하거나 주석처리 하시면 됩니다. #server.1=master:2888:3888 #server.2=slave1:2888:3888 실행방법은 /usr/local/zookeeper/bin..
hadoop의 yarn을 이용한 spark cluster를 구성중입니다. 공부중이라 그냥 이슈사항만 작성합니다. core-site.xml, yarn-site.xml 파일이 위치한 경로를 시스템 환경설정 파일(.profile, .bash_profile 등)에 HADOOP_CONF_DIR, YARN_CONF_DIR로 환경설정을 추가해 줍니다. export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop export YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop 우선 다음의 명령어를 이용하 spark-shell을 실행했을때 # spark-shell --master yarn 아래와 같은 에러가 발생하면 cluster.YarnSchedulerBacke..
빅데이터 분석을 위한 스파크2 프로그래밍 책으로 Spark를 공부중입니다. 예제를 따라하던중 pyspark로 wordcount 테스트 중에 UserWarning: Please install psutil to have better support with spilling 이라는 메시지가 나옵니다. 뭐 내용상 psutil을 설치해 달라는 얘기입니다. 저는 우선 Mac OSX에서 테스트 중이라 Mac에 설치하는 방법을 알아봤습니다. https://pypi.org/project/psutil/#files 에서 가장 아래있는 psutil-5.6.3.tar.gz 파일을 다운로드 받았습니다. 다운로드 받고 압축을 해제한 폴더를 응용프로그램(/Applications)하위로 이동시키고 /Applications/psutil-..
Eclipse에서 Python 샘플 프로젝트를 만들어 보려고 합니다. 우선 Eclipse Marketplace에서 PyDev를 설치하고(구글에 Eclipse Python Plugin 설치를 검색하시면 많이 나올겁니다.) Project를 생성합니다. Project Name을 입력하니 오류가 납니다. 이런 된장 ㅜㅜ 이 문제를 해결하기 위해 Preferences 로 들어갑니다. 전 맥이라 상단 메뉴의 Eclipse -> 환경설정입니다. 윈도우라면 Window -> Preferences가 아닐까 싶네요.. ;; 환경설정 페이지가 열리면 왼쪽 트리 메뉴에서 PyDev -> Interpreters -> Python Interpreters를 선택합니다. Python Interpreters 화면의 Browser fo..
기본적으로 Mac에는 Python이 설치되어 있습니다. 하지만 2.x 버전이 설치되어 있습니다. 터미널에서 python -V 명령어를 실행하면 버전을 확인할 수 있습니다. 이번에 빅데이터를 공부하면서 spark을 공부중입니다. 참고로 어렵네요 죈장 ㅜㅜ 그런데 spark이 향후 Python의 경우 3.x 버전만 지원한다고 합니다. 하여 3.x 버전의 python을 설치해 보도록 하겠습니다. 우선 python 홈페이지로 이동합니다. https://www.python.org/ 기본적으로 최신 버전을 다운로드 받으려는 경우는 Downloads -> Mac OS X 에 마우스만 올려도 다운로드 링크가 나옵니다. 하지만 전 3.7.1을 설치할 겁니다. Downloads-> Mac OS X를 선택하면 다음과 같이 ..
flume에서 hive로 JSON 스트림 데이터를 추가하는 작업을 테스트 중입니다. 과정에서 테이블이 잘못 만들어져서 다시 만들기 위해 기존 테이블을 Drop 했는데 에러가 발생합니다. 이런 죈장. ㅜㅜ 에러 로그는 캡쳐를 못했네요.. 또 죈장 ㅜㅜ 암튼 Drop 하는데 에러가 발생한다면 hive에서 hive>show locks extended; 를 하면 Lock된 정보가 표시됩니다. Lock 되어 있는 지도 모르고 계속 요청 했더니 리스트가 많네요. ㅜㅜ 검색을 해보면 unlock을 하면 된다고 하는데 hive> unlock database medical; 을 하니까 추가로 아래와 같은 메시지가 나옵니다. ㅜㅜ FAILED: Execution Error, return code 1 from org.apa..
flume에서 실시간으로 json데이터를 읽어서 hive에 데이터를 추가하는 작업을 테스트 중입니다. 그 과정에서 flume에 아래와 같은 에러 메시지가 발생하는데 말그대로 transactional이 테이블에 설정되어 있지 않다는 거네요. caused by: org.apache.hive.hcatalog.streaming.InvalidTable: Invalid table db:kalyan, table:users2: 'transactional' property is not set on Table hive에서 테이블 생성시 CREATE TABLE IF NOT EXISTS kalyan.users2 ( userid BIGINT, username STRING, password STRING, email STRING,..