最近在搞data analytics,真的有些东西只有自己搞了候才是真的把它弄懂了,不搞=不懂,或者不是真的懂。碰到很多问题,手上很多tools,一下弄懂哪个tools有用才是行家。
传言是data cleansing 需要最大effort,发现果真如此。
对于missing data, 我们要
a.
throw it,
b.
or if it is categorical datafill it with
appropriate value (e.g.,sampling using the frequency)
c.
or if it is numeric data, we can use medium, mode,
or random sampling value using values between (mean-std, mean+ std)
对于过多的categorical data, get_dummies后会有很多data
需要分析,对于这点,我们可以
a.
Partition it, 比如 i7和i5 速度上差不多,我们可以partition 成快, Pentium 成慢.
就搞了三四天,还有很多要慢慢学习的。
No comments:
Post a Comment