TensorStore: 인공지능 기반 빅데이터 저장 시스템 개발

From Course@DGIST
Jump to navigation Jump to search
TensorStore: 인공지능 기반 빅데이터 저장 시스템 개발
제안자 이성진
자문교원 이성진
연도 2020
타입 A형 과제
코스 장영실
매칭여부 Yes
참여학생수 6
소개동영상

제안 배경

최근 데이터센터 내에 저장되는 데이터의 용량이 폭발적으로 증가함에 따라, 대용량의 데이터를 딥러닝과 같은 기계학습 알고리즘을 이용해 값싸고 효율 적으로 관리/분석하려는 시도가 이루어지고 있다. 이러한 시도로는 크게 (1) 대용량 데이터에 대한 기계학습을 이용한 빠른 분석, (2) 대용량 데이터의 효율적인 보관을 위한 중복 제거 기술, (3) 가상 데이터 증폭 기술 등을 꼽을 수 있다.

상기 목표를 달성하기 위해서는 다양한 인공지능 알고리즘에 대한 이해뿐만 이 아니라, 해당 알고리즘을 빠르게 수행할 수 있는 컴퓨터 시스템 소프트웨어및 하드웨어 가속기에 대한 학습과 연구가 필수적으로 수반되어야 한다.

따라서 상기 과제를 수행을 통해 학생들은 아래와 같은 학습을 할 수 있으리라 예상된다.

 # 인공지능 알고리즘 학습 및 이해,
 # 컴퓨터 시스템, 운영체제, 시스템 프로그래밍의 이해,
 # 빅데이터 스토리지 시스템의 이해,
 # TPU, FPGA, 혹은 GPU와 같은 하드웨어 가속기 활용 방법의 이해.

과제 목표

본 과제에서는 대용량의 빅데이터 시스템을 대상으로, Solid-State Drives(SSDs)와 같은 저장장치 하드웨어 또는 Peta-byte Scale의 저장장치 서버 환경에 서, TPU (Tensor Processing Unit)등을 기반으로 한 하드웨어 가속기를 통해, 대용량의 데이터를 관리 및 분석하는 다양한 기술에 대해 연구한다. 이후 상기 연구 내용을 바탕으로 TensorStore라 불리는 인공지능 기반 데이터 분석 및 저장 시스템 플랫폼 개발을 그 최종 목표로 한다.

과제 내용

본 과제는 아래와 같은 4가지 큰 주제로 진행될 예정이다.

 가. 인공지능 및 기계학습 알고리즘의 이해
  본 과제에 참여하는 학생들은, CNN, LSTM, RNN과 같은 다양한 인공지능 알고리즘에 대한 학습을 수행하고 그 동작 원리에 대해 이해한다. 이를 위해 인공지능 관련 기본 서적 읽기와 Caffe 및 TensorFlow 등을 활용
  다양한 예제를 구현하고 평가한다.
 나. 빅데이터 스토리지 플랫폼 개발
  인공지능 알고리즘이 수행될 빅데이터 스토리지 플랫폼 환경을 개발한다. 이를 위한 기반 환경으로 ARM 기반 임베디드 리눅스 시스템 및 다수의 저장장치가 탑재된 Xeon 서버 시스템이 활용될 예정이다.   
  고성능 저장장치 시스템 개발을 통해 학생들은 리눅스 운영체제, 디바이스 드라이버, 임베디드 시스템 펌웨어 등에 대한 기술에 대해 익히게 된다.
 다. 인공지능 알고리즘의 스토리지 플랫폼으로의 이식
  TPU, FPGA, 그리고 GPU 등의 하드웨어 가속기를 개발된 빅데이터 스토리지 플랫폼에 이식하고, 다양한 인공지능 알고리즘을 직접 수행하여 그 이점에대해 이해한다.
 라. 사례 연구 수행
  상기 컴퓨터 시스템 플랫폼 개발 후 학생들은 해당 플랫폼에서 아래와 같은 3가지 사례 연구를 수행한다.
  (1) 데이터 분석 가속 기술: 빅데이터 시스템에 가속기 삽입을 통해, 이미지탐색, 추천 단어 탐색, 문서 탐색과 같이 다양한 인공지능 알고리즘을 10배 이상 가속 시키는 것에 목표를 둔다.
  (2) 데이터 중복 제거 기술: 빅데이터 시스템에 저장된 중복된 데이터를 인공지능 알고리즘을 활용하여 탐색 후 제거한다. 제안된 중복 제거 기술은 기존 의 Lossless Compression 비해 매우 효과적일 것이라
      예상되며, 따라서 실질적인 데이터 저장공간을 10배 이상 증가시키리라 기대된다.
  (3) 데이터 증폭 기술 분석: 인공지능 알고리즘을 활용하여, 실제와 같은 가상의 데이터를 생성한다. 이러한 가상의 데이터는 실제 저장 공간을 차지하지 않지만, 사용자에게는 마치 존재하는 것으로 인식된다.
      상기 데이터 증복 기술을 활용을 통해 저장공간을 수배 (예, 5배) 증가시키리라 예상된다.

상기 3가지 사례 연구 수행을 통해 개발될 TensorStore는 빅데이터 저장 시스템의 성능을 수배 이상 개선시킬 뿐만이 아니라 그 저장용량 역시도 수배 이상 증가시킬 수 있으리라 기대된다.

참고자료

Minsub Kim, Jaeha Kung; Sungjin Lee, “Towards Scalable Analytics with Inference-enabled Solid-state Drives,” IEEE Computer Architecture Letters (CAL), 2019

희망학생