记录一下通读或者大致浏览过的论文,博文,或者书.一者做个备忘,二者督促自己把东西看得差不多再放下.
1. Spatially-sparse convolutional neural networks
link: https://arxiv.org/abs/1409.6070
许多数据拥有稀疏性,比如使用很细的笔在白纸上写的数字.
本文介绍了一种利用数据稀疏性加速神经网络训练的方法.
提到了一种在线文字识别的建模方法(同时考虑笔的位置和运动方向).
where I found it:
http://blog.kaggle.com/2015/01/02/cifar-10-competition-winners-interviews-with-dr-ben-graham-phil-culliton-zygmunt-zajac/
这篇文章包含一些CNN进行图像识别的基本方法.
2. kaggle ensembling guide
link: http://mlwave.com/kaggle-ensembling-guide/
介绍了集成模型在kaggle中的应用,有很多实例和代码.
3. Latent Semantic Analysis
link: http://www.engr.uvic.ca/~seng474/svd.pdf
介绍了特征值分解,奇异值分解,以及LSI的基本原理.
4. RELAXATION METHODS FOR MINIMUM COST FLOW(not finished yet)
link: https://pdfs.semanticscholar.org/a719/4aaa5b1958dee21aad7de1febf3cafaec0d7.pdf
最小费用流松弛算法的论文.
最开始是参考那本神书 network flow, 但是感觉似乎有些细节没说清楚,感觉还是要二者结合一下...
计划把网络流(主要是费用流)的学习成果做成一个开源库.
松弛算法搞定之后肯定就要学网络单纯形了.
5. Viola and Jones face detection algorithm
link: https://www.slideshare.net/wolf/avihu-efrats-viola-and-jones-face-detection-slides
著名的实时人脸检测算法.
6. Mining High-Speed Data Streams
link: http://homes.cs.washington.edu/~pedrod/papers/kdd00.pdf
在线决策树构建算法Hoeffding tree.
基于Hoeffding bound, 在一定的采样数量下,可以保证以一定的概率在某个节点得到与离线算法相同的分裂结果.
VFDT是它的一个实现.