본문 바로가기

Data_Analytics

[Data Analytics] 데이터 분석이란?

데이터 분석

데이터 분석이란 유용한 정보를 발견하고 결론을 유추하거나,

의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링 하는 과정을 의미합니다. 

 

데이터 분석과 세트인 단어로는 데이터 사이언스가 있죠!

데이터 사이언스란, 통계학, 데이터 분석, 머신러닝, 데이터 마이닝 등을 포괄하는 큰 개념으로 볼 수 있습니다. 

 

데이터 분석은 의사결정을 돕기 위한 통찰을 얻는 것에, 

데이터 사이언스는 더 나아가 문제해결을 위한 솔루션을 만드는 것에 초점을 맞춥니다. 

 

 

 

 

데이터 분석의 단계

데이터 분석을 통계적 관점에서 보면 3단계로 나눌 수 있습니다. 

 

1. 기술 통계(Descriptive Statics)

: 수집한 데이터를 정량화/ 요약하는 기법

 

2. 탐색적 데이터 분석 (EDA: Exploartory data analysis)

: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법 

 

3. 가설검증

: 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법

 

이를 포함하여 더 넓은 의미에서 데이터 분석의 작업을 바라본다면,

데이터 수집/ 처리/ 정제, 모델링이 포함됩니다. 

 

 

Python Package

데이터 분석을 할 때 주로 Python 언어를 사용합니다. 

주로 사용하는 Python Package로는 Numpy, Pandas, Matplotlib, Scipy, Sikit-learn 등이 있습니다. 

 

1. Numpy: 고성능 과학 계산과 다차원 배열을 위한 패키지

2. Pandas: 편리한 데이터 처리와 분석 작업을 위한 다양한 기능 제공, 특히 표 형태로 저장할 수 있는  DataFrame 제공

3. SciPy: 넘파이를 기반으로 구축된 수학/과학 계산 전문 패키지

4. Scikit-learn: 머신러닝 패키지로, 넘파이와 사이파이에 크게 의존

5. Matplotlib: 동적, 정적 그래프를 만들 수 있는 시각화 패키지

 

 

데이터 마이닝 vs 머신러닝

- 데이터 마이닝은 데이터에서 패턴 혹은 지식을 추출하는 작업으로 결과물은 의사결정을 돕는 용도로 활용됩니다. 

 

- 머신러닝은 컴퓨터가 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 Software를 만드는 기술로, 흔히 알려진 딥러닝은 머신러닝 알고리즘의 한 종류 입니다. 

반응형

'Data_Analytics' 카테고리의 다른 글

[Data_Analytics] Plotly 패키지  (0) 2023.03.11
[Data_Analytics] Seaborn plot  (0) 2023.03.11