데이터분석 10

[빅데이터분석기사] 제 4회 빅데이터분석기사 실기 및 최종 합격 후기

최근 방학동안 이것저것 개인 활동을 하느라 바쁘던 와중이었다. 오늘 문자로 미리 가채점 점수가 나왔다고 해서 급히 사이트에 들어가 점수를 확인했다. 과거 6월 25일에 실기 시험을 치뤘고, 그 결과로 다음의 점수를 얻어낼 수 있었다. 예상했던 것보다 성적이 매우 좋게 나와서 안정적으로 합격할 수 있었다. 실기 또한 필기시험처럼 100점 만점에 60점 이상 점수를 넘겨야 합격인데, 위 사진처럼 무려 84점이라는 높은 점수로 합격했다;;; 단답형에선 2문제 정도 틀린 것 같고, 작업형 1유형은 1문제 틀리고, 작업형 2는 만점으로 나왔다. 사실 빅분기 실기를 준비하면서 어떤 식으로 준비해야 하나 고민이 들었고, 실기 시험 방식을 찾아보니 코딩형으로 문제가 나온다 해서 기존에 했던 방식을 바꿔 학습을 진행했다..

여러 후기 2022.07.08

[빅데이터분석기사] 제 4회 빅데이터분석기사 필기 합격 후기

바빴던 중간고사 시즌도 끝나가고 어느덧 4월 말에 다와갔다. 이제 다시 기존에 하던 일들을 하려던 도중 반가운 소식이 문자로 왔다. 원래는 다음 주 쯤에 공개되어야 할 기사 성적이 오늘 예비 공개되었다는 내용이다. 지난 4월 9일날 시험을 치르러 갔기에 내심 결과가 궁금하였다. 결과는 운 좋게도 합격으로 나왔다. 전체 100점 만점 대비 60점 이상 넘어야 하고, 과목마다 40퍼 이상 정답을 맞춰야 하는데, 각 4개 단원 모두 최소 60% 이상의 정답을 맞췄고, 총합 76.25점으로 합격 통보를 받게 되었다. 사실 이전에 ADP를 준비한 경험이 있어서 조금 수월하게 정보들을 다시 리마인드할 수 있지 않았나 싶다. (ADP가 난이도는 높지만 생각보다 다른 자격증 칠 때 효자역할을 톡톡히 해주고 있다.) 다..

여러 후기 2022.04.22

[ADP] 제24회 데이터분석 전문가(ADP) 필기 합격 후기

지난 2월 26일날 토요일에 전문가 과정 시험을 치렀던 적이 있었다. 시험이 오전 10시부터 시작이었는데 9시 반까지가 입실이라고 해서 미리 고사장에 도착해서 요약본을 봤던 기억이 남는다. 당시 ADP와 ADsP 모두 한 학교에서 시험을 치뤘는데, 그 중 30개 고사장은 ADsP였고 한 3 ~ 4개 분반만 ADP였다. (치는 사람 수가 적었다) 게다가 그 마저도 내가 있던 분반에선 20명 정원 중 11명이 안 왔었다. (필기도 접수비 8만원이라 안 오면 아까운데) 시험 시간은 약 3시간 정도인데, 실제로 쓴 시간은 1시간 반밖에 안 걸렸다. 내가 있던 고사장에서 내가 시험장 탈출(?) 금메달인 것 같았다. 자격증 시험을 이것 저것 치뤄보긴 했는데, 현재까지는 이게 가장 어려웠던 것 같다. 일단 단원이 5..

여러 후기 2022.03.21

[데이터분석] 구글 스프레드시트 활용하기 -2

Intro 이전 글: https://rubpcase.tistory.com/49 앞선 챕터에서 스프레드시트가 무엇인지 알아보고 간단하게 사용해보는 시간을 가졌다. 이번에는 조금 더 넘어가서 함수와 피벗 테이블(피봇 테이블)을 만들고 활용하는 시간을 가져보도록 할 것이다. 사실 이런 시트에서 사용하는 함수는 진짜 많은데, 여기선 아주 조금만 다룰 생각이다. (컴활 1급 자격증 책 보면 알겠지만 외워야 할 함수가 너무 많다...) 함수 사용하기 1 (제조사 명 추출) 이번에는 시트에서 함수를 활용해 볼 생각이다. 스프레드시트에는 활용할 수 있는 다양한 함수들이 제공되고 있다. 앞선 글에서도 importdata()와 같은 친구를 활용했는데, 이게 함수라 보면 된다. 먼저 위와 같이 지난 번에 사용했던 엑셀의 데..

[데이터분석] 구글 스프레드시트 활용하기 -1

Intro 데이터 분석을 하기 위해서 ML이나 DL 등의 학습모델을 사용하는 것도 중요하지만, 일단 엑셀과 같은 스프레드시트를 활용해서 분석하는 과정도 중요하다. 다만, 엑셀은 유료이기 때문에, 여기선 무료로 웹에서 설치 없이 구동할 수 있는 구글 스프레드시트를 활용해서 간단한 데이터 탐색을 수행하려 한다. 주로 파이썬이나 R을 활용해서 수행하는 EDA의 기초 과정이라 보면 되겠다. 데이터셋 설명 설명 링크(영문): https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.htmls 데이터 셋: https://gist.github.com/seankross/a412dfbd88b3db70b74b Raw data: https://gist.githu..

[데이터분석] 웹 크롤러 제작하기 -1 (BeautifulSoup 활용)

Intro 여기선 데이터 분석을 위해 정보를 뽑아오는 크롤러를 제작하는 방식을 기술할 생각이다. 따라서 웹의 구조를 뽑아내어서 정보를 저장하는 과정을 수행하려 한다. 웹 관련 공부를 해본 사람은 알겠지만 정적/동적 형태에 따라서 뽑는 방법이 달라지며, 경우에 따라선 API를 활용해서 정보를 얻어야 하는 경우도 있다. 대표적으로 유튜브의 경우 API를 써서 정보를 얻는게 더 빠르다. 유튜브 데이터 뽑는 과정은 이전 포스트를 뒤져보면 나온다. 유튜브 데이터 뽑는 포스트: https://rubpcase.tistory.com/18 아무튼 여기선 먼저 단순한 정적 사이트의 정보를 끌어오도록 하겠다. 간단한 웹 크롤링 먼저 파이썬 환경에서 BeautifulSoup 모듈을 불러오도록 하자. 이때, 웹으로의 정보 요청..

[Hadoop] 하둡 관련 내용 & 명령어 간단 정리

Intro 개인적으로 데이터 분석 관련 내용을 정리하자는 차원에서 현재 ADP자격증 공부를 하고 있다. 그런데 보면 알겠지만 분산 처리 시스템 관련 내용이 자주 등장한다. 그 중 하둡이라는 기술은 실무에서 잘 쓰인다고 알려져 있어서 올해 안으로 이에 관해 알아보려 계획했다. 물론 당장은 다른 일정 때문에 실제 환경을 구축하고 사용해보기는 힘들다고 생각한다. 아마 본격적으로 사용하게 된다면 올해 중반쯤에나 조금 다뤄볼 생각이긴 하다. 아무튼 하둡을 다루는 강의를 들어보며 개괄적인 내용과 명령어를 복습 노트를 남긴다는 차원에서 정리해보려 한다. 적어도 이론적인 측면은 알아두면 나중에 편하지 않을까 생각한다. 하둡 시스템이란? 아파치 하둡(Apache Hadoop)이라 불리우는 친구는 HDFS와 맵리듀스를 구..

[데이터분석] 유튜브 데이터 분석하기 -2

Intro 지난번엔 유튜브 정보를 끌어오기 위한 기본 설정을 했다. 이번엔 앞선 코드를 조금 더 변형해서 원하는 데이터를 추출하는 크롤러를 제작하려 한다. 또한, 차후 다른 데이터 파일로 활용할 수 있도록 DataFrame의 형태로 추출하려 한다. 이번 장의 목표는 다음과 같다. 간단한 크롤러를 제작하자 유튜브 API의 쿼리 할당량을 알아보자 레퍼런스를 확인해보자 모듈 불러오기 from urllib.parse import quote import urllib.request import json import pandas as pd # DataFrame 형태로 자료를 저장 import time # 시간 측정 용먼저 사전에 사용할 라이브러리를 불러오자. 이전 장에서 다뤘던 라이브러리도 있으며, 새로 추가된 친구..

[데이터분석] 유튜브 데이터 분석하기 -1

Intro 내가 과거 어떤 기업체에서 현장실습을 하면서 유튜브의 정보를 끌어오는 업무를 받은 적이 있었다. 해당 팀장님께 여쭤보면서 API를 활용하는 방법을 차근차근 배웠는데, 처음 사용하다 보니 그때 당시엔 다소 복잡하게 느껴졌다. 따라서 '유튜브 데이터 분석하기' 시리즈에선 여기서는 유튜브의 데이터를 끌어오는 방법을 기술하고 이를 활용하는 과정을 기술하려 한다. 나도 그때그때 맞춰가면서 포스팅할 생각이라 중간중간 방향이 바뀔 수 있다. 일단 현재 게시물에서 다룰 주제는 다음과 같다. 유튜브 API 등록하기 구글 Colab 활용하기 API 요청해서 정보 받기 (간단) 기본 베이스 당연하지만 구글 계정이 필요하다. 만일 학교 연동 계정이라면 일부 기능이 제한될 수 있으니 어떤 계정을 쓸 지..

728x90