데브코스 데이터 엔지니어링 WEEK8 WIL(2)

2024. 11. 19. 16:05·Data Engineer/데브코스

다양한 시각화 툴 (대시보드)

중요한 지표인 KPI를 설정하고 지표를 데이터 기반으로 분석하고 시각화하여

누구나 쉽게 확인할 수 있도록 돕는 대시보드와 BI 툴

백엔드의 데이터 웨어하우스(Data Warehouse)와 연결되어, 거기에 저장된 데이터로 시각화한다. 

 

ETL 프로세스를 통해 전송된 ROW 데이터를 그대로 사용하는 것이 아니라, 데이터 분석가들이 정제하여 이해하기 쉬운 ELT summary table을 기반으로 대시보드에 사용. 데이터 품질을 관리하여 의미 있는 지표를 만드는 것이 매우 중요하다.

 

대시보드 옵션

Excel, Google Spreadsheet: 가장 기본적인 시각화 도구

Python : 조금 더 프로그래밍적으로 접근 EDA

대시보드 툴: Looker, Tableau, Power BI, Apache Superset(오픈소스)

 

 

Superset에 대해서 알아보자!

- Superset은 SQLAlchemy를 통해 여러 데이터베이스와의 연결을 지원한다. SQLAlchemy는 파이썬 기반의 데이터베이스 인터페이스로,     Superset은 이를 통해 다양한 DB 엔진과 연결할 수 있다.

- 기본적으로 SQLite(파일 기반 DB)를 메타데이터 저장용으로 사용하지만, 병렬 처리 성능이 떨어져 PostgreSQL이나 MySQL로 대체 가능.

-  Redis를 캐시 레이어로 활용해, 반복 조회되는 차트를 백엔드 DB 대신 캐시에서 불러옴으로써 성능 향상.

데이터베이스와 데이터셋

- Database: Superset에서 백엔드 DB 엔진을 의미 (예: Redshift, Snowflake).

- Dataset: 데이터베이스 내 테이블을 의미.

visual한 element가 chart를 만들고 묶어서 dashboard 권한을 줄 수 있다. 

차트와 대시보드

- 데이터를 기반으로 차트를 생성하고, 여러 차트를 묶어 대시보드를 구성.

- 사용 권한 설정 가능.

 

만들려는 대시보드는?

cohort는 같은 속성을 갖는 사용자 그룹

 

Docker를 이용해 Superset 셋 업

Docker란?

내가 실행하고 싶은 특정프로그램과 연관된 소프트웨어들을 하나의 패키지로 만들고(Docker Image->그냥 파일이다.) 그 패키지를 컴퓨터 위의 컴퓨터 일종의 가상환경 위에서 돌리는것이다. 

 

예를 들어 Mysql을 Docker 위에서 실행할 수 있는 Image를 만들수 있다. 이거는 다른 이들과 공유할 수 있고 이거를 Docker Hub라고 한다. 해당 컴퓨터(docker host)에 Docker Engine을 미리 실행 시킨 상태이여야 한다. 그 상황에서 Docker Image를 실행하면은 Docker Container라는 Docker Engin위에서 돌아가는 가상환경이 설정되고 그 위에서 마치 컴퓨터인 양 깨끗한 환경 위에서 image로 만든 소프트웨어가 실행된다. Docker Container는 독립적인 환경을 갖는 가상 컴퓨터라고 생각하면 도니다. 

 

그래서 Superset을 Docker위에서 돌린다는 것은 자신의 운영체제에 맞는 Docker Engine을 다운받아서 실행 시켜놓고 superset에 해당하는 Docker Image를 내 컴퓨터에 다운로드 받아 container 실행하면 그게 Docker Conatiner로 돌아간다. 

 

'Data Engineer > 데브코스' 카테고리의 다른 글

데브코스 데이터 엔지니어링 WEEK10 WIL(2)  (0) 2024.11.19
데브코스 데이터 엔지니어링 WEEK10 WIL(1)  (0) 2024.11.19
데브코스 데이터 엔지니어링 WEEK8 WIL(1)  (0) 2024.11.07
데브코스 데이터 엔지니어링 WEEK6 WIL(2)  (0) 2024.11.07
데브코스 데이터 엔지니어링 WEEK6 WIL(1)  (0) 2024.11.01
'Data Engineer/데브코스' 카테고리의 다른 글
  • 데브코스 데이터 엔지니어링 WEEK10 WIL(2)
  • 데브코스 데이터 엔지니어링 WEEK10 WIL(1)
  • 데브코스 데이터 엔지니어링 WEEK8 WIL(1)
  • 데브코스 데이터 엔지니어링 WEEK6 WIL(2)
dev.di
dev.di
devdi 님의 블로그 입니다.
  • dev.di
    개발 블로그
    dev.di
  • 전체
    오늘
    어제
    • 분류 전체보기 (28)
      • Algorithm (9)
        • Basics (9)
      • AWS (0)
        • AWS (0)
        • SAA (0)
      • Computer Science (1)
        • OS 벼락치기 (1)
        • DB 벼락치기 (0)
      • Data Engineer (8)
        • Airflow (0)
        • Data Warehouse (0)
        • Kafka (0)
        • Spark (0)
        • 데브코스 (8)
      • Docker (0)
      • Interviews (1)
      • Network (2)
        • Physical Layer (0)
        • Data Link Layer (0)
      • OOP (3)
        • GoF (3)
      • Python (4)
        • Django (3)
        • Scraping (1)
      • Software Engineering (0)
      • Spring (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    IPv4
    sql
    데이터 웨어하우스
    포트포워딩
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
dev.di
데브코스 데이터 엔지니어링 WEEK8 WIL(2)
상단으로

티스토리툴바