这礼拜要做一个twitter 的topic modeling
于是乎就先把translation part 搞好了
本来以为 LDA 会给我一个好的results, 后来发现了好几个问题
1. 学出来一开始是一推标点符号,把它们去掉之后,又是一堆常见字想"like"什么的
2. 后来去读文章,发现人家七年早就碰过这些问题了,我竟然还build了一堆东西,看了一堆往上articles..
幸运的是这是个有deadline的项目,没有的话我早就深究那些bug了(当时心里想我用trial and error 的方法solve bug是不是太naive),如果深究,我也发现不了现在的问题,等到最后接近deadline的一刻,估计纠正也来不及了。