[비상장] Gretel: Better data makes better models

 회사명: Gretel

슬로건: The synthetic data platform purpose-built for AI.


루팡님이 번역해주신 와이어드 기사 내용중, 엔비디아가 샀다는 소식에 수박 껍질을 맛보게 됨.

(해당기사 https://www.wired.com/story/nvidia-gretel-acquisition-synthetic-training-data/)


용어
Synthetic data: 인공적으로 만들어졌으나 실제 세계와 동일한 통계적 성질이 유지되는 data



익명성과 사생활 보장 등 Safe Data라는 점을 강조한다

제품은 Generate / Operationalize의 2가지 갈래로 구분된다.
Generate는 직접 데이터셋을 만드는 도구로 볼 수 있겠다
  • Navigator: 기존 dataset에 기반하여 자동화된 synthetic dataset 생성 도구
  • Tabular Fine-Tuning: 입력된 dataset과 "동일한 특성"을 갖는 synthetic dataset 생성
Operationalize는 부수적인 관리 기능들이다
  • Transform: 특정 민감 정보를 제거하고 익명성 강화 등 데이터 정돈
  • Workflows: synthetic data 생성 관리 자동화
  • Evaluate: 데이터 정확도 및 컴플라이언스 측정

요약해보면
1. 기존 임상 정보는 민감한 개인 정보
2. 이를 제거하는데 많은 시간이 들어가 비용 비효율적
3. Gretel은 데이터에 익명성을 부여하면서 동일한 통계적 성질의 합성 데이터 출력
4. 도입 기업은 비용 절감


그래서 얼마나 되는가?
여기서 이제 막막한 부분이다.


Gretel은 illumina를 자사 제품의 케이스스터디로 제시한다


사용한 데이터는 아래 내용 좌측과 같다. 일반적으로 사용한다는 오른쪽과 비교해보자.


(여차저차 복잡한 기술적인 내용의 수박껍데기)

데이터 품질 관련 분석 기법을 적용해 보니까 원본과 유사하단다.


그래서 실제 유전자연관성분석을 했다고 치고 비교해보아도 유사하단다(?)



훈련 및 생성 일체의 컴퓨팅 파워 비용은 $1,440 라고 한다

대학원생 월급보다는 확실히 싸다고 볼 수 있다...


댓글 쓰기

0 댓글