来来来，学习Shell的命令

By Kubi Code

发表于 2015-11-04

Shell脚本是非常强的大一个脚本语言，但是不用会手生，所以在此记录Shell脚本的相应关键点，也做查字典用^_^

变量

变量定义

先来简单的看一下变量定义的规则

在Shell中，使用变量之前不需要事先声明，只是通过使用它们来创建它们；
在默认情况下，所有变量都被看做是字符串，并以字符串来存储；
Shell变量是区分大小写的；
在赋值变量的时候等号两端不能有空格-_-

KNN算法中KD树的应用

By Kubi Code

发表于 2015-10-12

KNN算法

给一个训练数据集和一个新的实例，在训练数据集中找出与这个新实例最近的k个训练实例，然后统计最近的k个训练实例中所属类别计数最多的那个类，就是新实例的类。

点我查看详情

但是该算法每次在查询k个最近邻的时候都需要遍历全集才能计算出来，可想而且如果训练样本很大的话，代价还是很大的，那有没有啥方法可以优化呢？本文就针对KNN算法实现一个简单的KD树

KD树

KD树是一个二叉树，表示对K维空间的一个划分，可以进行快速检索（那KNN计算的时候不需要对全样本进行距离的计算了）

比如针对6个二维数据点{（2,3），（5,4），（9,6），（4,7），（8,1），（7,2）}，可以形成以下树形结构以及空间划分

numpy工具包常用快速记

By Kubi Code

发表于 2015-10-05

numpy这个科学计算工具大法好，但是里面的东西不用老是会忘，所以在此记录常用的一些语法，以备之后查询之用（也叫懒人模式）^_^,不过详细的使用方法还是得看scipy api

使用之前首先得引入包

1	import numpy as np

array

np.array实现了真正的数组，在numpy中其实就是矩阵啦，同时提供了丰富的矩阵计算方法

关于Scala中Iterator中size/length的一个坑

By Kubi Code

发表于 2015-09-19

Scala语言是出了名的语法诡异，功能强大-_-，他的Iterator也是如此，还提供了亲民心的size/length方法，但是，但是，但是慎用!!

事情是这样的

今天在做这个：进行采样，在mapPartitions中操作，会传来一个Iterator迭代器，里面存着原始数据，我需要做的大概是先统计迭代器中的数量N（使用size方法来做），然后计算出一个需要采样的量n,然后遍历(直接for来做)这个迭代器，按自己的业务采样n个记录！

清晰明了的一个程序,这尼玛最终采样的变量一直是空，一直是空，一直是空。
起初还以为是概率那块算错了，导致采不出来，但是单独把程序剥离出来debuge发现这个for压根没数据，但是明明这个迭代器的里面的size是有值的啊，奇了怪了。。。

python里面的一些小记（方便自己查询）

By Kubi Code

发表于 2015-09-12

python相当方便，有问题可以直接查Doc，但是Doc略有繁琐，所以在词记下常用的一些技巧以及bug解决方案^_^

判断字符串的一些东西

当然下面的判断完全可以自己使用正则表达式来些，但是有一句话是杀鸡焉用牛刀,下面的api使用起来就会非常便捷

s为字符串

s.isalnum() 所有字符都是数字或者字母
s.isalpha() 所有字符都是字母
s.isdigit() 所有字符都是数字
s.islower() 所有字符都是小写
s.isupper() 所有字符都是大写
s.istitle() 所有单词都是首字母大写，像标题
s.isspace() 所有字符都是空白字符、\t、\n、\r

自带的排序函数

python中有两种排序方式:

list.sort(func=None, key=None, reverse=False):这种排序会改变list自身的数据
sorted(list,func=None, key=None, reverse=False):这种会重新生成一个新的list

最简单的栗子:

1
2
3

list=[1,3,4,2,4,7]
list.sort()
print list

会输出

[1, 2, 3, 4, 4, 7]

反向排序

1
2
3

list=[1,3,4,2,4,7]
list.sort(reverse=True)
print list

会输出

[7, 4, 4, 3, 2, 1]

对指定关键字进行排序:

list=[('a',100),('b',10),('c',50),('d',1000),('e',3)]
list.sort(key=lambda x:x[1])
print list

可以看到结果:

[('e', 3), ('b', 10), ('c', 50), ('a', 100), ('d', 1000)]

若不指定，貌似是按第一个关键词排序

还有两种方式均可以完成指定关键词方式:

1	list.sort(lambda x,y:cmp(x[1],y[1]))

1 2	import operator list.sort(key=operator.itemgetter(1))

按多关键字排序

1
2
3

list=[('a',100),('b',10),('c',100),('d',1000),('e',100)]
list.sort(key=lambda x:(x[1],x[0]))
print list

import operator

list=[('a',100),('b',10),('c',100),('d',1000),('e',100)]
list.sort(key=operator.itemgetter(1,0))
print list

[('b', 10), ('a', 100), ('c', 100), ('e', 100), ('d', 1000)]

sorted传参一样，只是会返回一个新的实例而已

异常处理

语法结构

try:
	block
except [Exception as e]:
	do...
finally:
	do...

for Example:

try:
	1/0
except Exception as e:
	print 'err'
	raise e
finally:
	print 'end'

动态载入库

有时候需要载入的库是动态的，类似Java的反射

const_en.py

1	name="xiaoming"

const_ch.py

1
2
3

#! -*- coding=utf-8 -*-

name="小明"

test.py

#! -*- coding=utf-8 -*-
import sys

const = __import__('const_en')
print const.name

const = __import__('const_ch')
print const.name

可以看到输出结果:

xiaoming
小明

参数中*和**的使用

在Python函数的入参列表中经常会看到*和**,他们其实并不是代表指针或者引擎，其中
*表示传递任意个无名字参数，放置在一个元组中，比如

def array_para_test(a,b,*c):
    print a,b
    print c

array_para_test(1,2,3,4,5)

它的最终输出将会是

1 2
(3, 4, 5)

**表示任意个有名字的参数，用于存放在字典中进行访问，比如

def dict_para_test(a,b,**c):
    print a,b
    print c

dict_para_test(1,2,name="tome",age=23)

他的最终输出是

1 2
{'age': 23, 'name': 'tome'}

下面应该回持续更新

《台大机器学习基石》Validation

By Kubi Code

发表于 2015-09-07

Model Select problem

在机器学习的世界里面有非常多的模型（基石这个课暂时只讲了Perceptron Learning Algorithm，Linear Regression,Logistic Regression），各个模型也会有自己不同的特点，有各自长处，也有各自的短处,并且除模型之外，还有其他的附属选择，比如Regularization的类型，或者具体参数的值，比如Gradient Descent里面的步长等，我们知道，现在机器学习的目的就是得到最小化的E_out（也就是测试误差啦），那么现在给你一批数据，然后会出现上述那么多的选择，如果做才能得到最小的E_out呢？

也就是我们要找到一个最好的模型H_m，使得E_out(g_m)最小。

《台大机器学习基石》Regularization

By Kubi Code

发表于 2015-09-05

Regularization

正则化(Regularization)是缓解Overfitting非常有效的一项手段，在了解正则化之前，先来看下正则化做了什么：

那这种正则化过程又该如何做呢？
其实上面图中的右侧可以看作十次多项式拟合出来的线，而左侧是由二次多项式拟合出得线(这里不了解的点击我)

《台大机器学习基石》Overfitting

By Kubi Code

发表于 2015-09-01

What is Overfitting

假设现在我们使用一个二次函数随机产生几个点，并且加入非常少量的噪声，然后使用一个四次函数来进行拟合
将得到如下的结果

可以发现4次函数可以完全拟合含有噪声的2次函数产生的点，也就是拟合出来的E_in=0，但是此时如果使用新的2次函数的点用这个4次的拟合函数来进行预测的话，可以发现E_out会很高，
这种低E_in高E_out就是叫做泛化能力差(BAD generalization)，也是往往我们在做训练预测时不希望看到的。

《台大机器学习基石》Multiclass-Classification

By Kubi Code

发表于 2015-08-30

Multiclass-Classification

Perceptron Learning Algorithm,Logistic Regression这些算法的最初出现都是基于2分类的(Binary Classification)，但是生活中会出很多多分类的问题出现（比如选择题：四选一，视觉的识别，手写体的识别之类的）

那么我们如何才能使用这些二分类的模型来完成多分类的需求呢？

《台大机器学习基石》Logistic Regression

By Kubi Code

发表于 2015-08-21

Logistic Regression

前两篇文章中的模型Perceptron Learning Algorithm和Linear Regression可以解决的问题是判断一个患者是否会心脏病，但是实际生活中里面里面可能给出的报告的是患者患心脏病的一个概率：

这样的话从模型的角度来说更希望的是得到一个发生在患心脏病的概率f(x)=P(+1|x)∈[0,1],
这个概率值越大，患心脏病的概率越大，反之则越小

Kubi Code'Blog

The palest ink is better than the best memory.

来来来，学习Shell的命令

变量

变量定义

KNN算法中KD树的应用

KNN算法

KD树

numpy工具包常用快速记

array

关于Scala中Iterator中size/length的一个坑

python里面的一些小记（方便自己查询）

判断字符串的一些东西

自带的排序函数

异常处理

动态载入库

参数中*和**的使用

下面应该回持续更新

《台大机器学习基石》Validation

Model Select problem

《台大机器学习基石》Regularization

Regularization

《台大机器学习基石》Overfitting

What is Overfitting

《台大机器学习基石》Multiclass-Classification

Multiclass-Classification

《台大机器学习基石》Logistic Regression

Logistic Regression