服务器选型:

128G 内存,8T 机械,2T 固态,20 核 40 线程

用户行为数据:

日活 60 万,每人每日产生 100 条,也就是 60G 用户行为数据

ODS 层:6G

DWD 层:6G

DWS,DWT 层:30G

ADS 层忽略

总共:(6+6+30)_3  _180  / 0.7 = 33T

业务数据:

订单 6 万,每人每日产生 10 条,也就是 600M 业务数据

数仓五层存储大概是:600M*3 约等于 2G

总共:2 _3  _180 /0.7= 2T

Kafka 数据:

60G _2 _3  /0.7 =500G

总共:33T+2T+500G 约等于 36T

36T / 8T=5 台

内存:

5 台的话内存就是 128*5= 640G 的内存,

由于每台会有 100G 用于 yarn 那么 yarn 计算总共使用 500G==>那么可以运算 64G 的数据

CPU:

40*5=200 线程

留转 G 复活

活跃:日活 60 万 周活 70 万 月活 120 万   总注册量 1000 万

GMV:60 万日活,大概就有 6 万个订单,6*50~100 也就是 300 万-600 万,最后 10%-20%就剩下:60 万~120 万

复购率:手巾牙膏 10%~20%,手机电脑 1%

转化率:5%70%下单–>90%~95%支付

留存率:1 日 2 日 3 日留存率  10%~20%

如果活动的话,数据量增加多少??

日活增加 50%,GMV 大概是 1.2~1.5 倍左右

有多少张表???

ODS 层:24 张

DWD 层:22 张 (23+5 -5-1-1+1)

DWS 层:5 张

DWT 层:5 张

ADS 层:30 张

总共大概是:80 张表

Kafka 的数据如何???

60 万日活,那么数据就是 60G

60G /3600/24=0.8M/s,平均每秒 800 条

*220M/s,也就是每秒数据大概是 2 千到 2 万条

Sqoop

60 万日活,6 万订单,每个订单 10 条,也就是 600M 的数据