机器学习算法

决策树

import pandas as pd
import numpy as np

"""
流程分析
 1.获取数据
 2.数据处理
    缺失值处理
    特征值->字典类型
 3.准备好特征值 目标值
 4.划分数据集
 5.特征工程:字典特征提取
 6.决策树预估器流程
 7.模型评估
"""
# 获取数据
titanic_data = pd.read_csv('../titanic/titanic.csv')

# 筛选特征值 目标值
x = titanic_data[["pclass", "age", "sex"]]  # 特征值
y = titanic_data["survived"]  # 目标值


#数据处理
x = x.copy()
x["age"].fillna(x["age"].mean(), inplace=True)


#缺失值处理
titanic_data = titanic_data.replace(to_replace="NA",value=np.nan)  #将NA值替换为NAN
    #2.删除缺失样本
titanic_data.dropna(inplace=True)
print(titanic_data.isnull().any()) #查看是否存在缺失值

# 筛选特征值 目标值
x = titanic_data[["pclass", "age", "sex"]]  # 特征值
y = titanic_data["survived"]  # 目标值

# 转化成字典
x = x.to_dict(orient="records")

#划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=5 )  #random_state=22随机数种子

#字典特征抽取
from sklearn.feature_extraction import DictVectorizer
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test  = transfer.transform(x_test)

#决策树预估器
from sklearn.tree import DecisionTreeClassifier
estimator = DecisionTreeClassifier(criterion="entropy")
estimator.fit(x_train,y_train)

#模型评估  计算准确率
score = estimator.score(x_test,y_test)
print('准确率为:',score)

随机森林

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_extraction import DictVectorizer
from sklearn.ensemble import RandomForestClassifier
"""
流程分析
 1.获取数据
 2.数据处理
    缺失值处理
    特征值->字典类型
 3.准备好特征值 目标值
 4.划分数据集
 5.特征工程:字典特征提取
 6.决策树预估器流程
 7.模型评估
 8.随机森林
"""

titanic_data = pd.read_csv('../titanic/titanic.csv')


# 数据处理
# x["age"].fillna(x["age"].mean(), inplace=True)
#缺失值处理
titanic_data = titanic_data.replace(to_replace="NA",value=np.nan)  #将NA值替换为NAN
#2.删除缺失样本
titanic_data.dropna(inplace=True)
print(titanic_data.isnull().any()) #查看是否存在缺失值

#筛选特征值 目标值
x = titanic_data[["pclass", "age", "sex"]]  # 特征值
y = titanic_data["survived"]  # 目标值
# 转化成字典
x = x.to_dict(orient="records")

#划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=22)  #random_state=22随机数种子

#字典特征抽取
from sklearn.feature_extraction import DictVectorizer
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test  = transfer.transform(x_test)

#随机森林
#from sklearn.ensemble import RandomForestClassifier
estimator = RandomForestClassifier()
#加入网格验证搜索
#参数准备
param_dict = {"n_estimators": [120, 200, 300, 500, 800, 1200],
                  "max_depth": [5, 8, 15, 25, 30]}
estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)
estimator.fit(x_train, y_train)  # 训练集里面的数据和目标值

# 传入测试值通过前面的预估器获得预测值
y_predict = estimator.predict(x_test)
print("预测值为:", y_predict, "\n真实值为:", y_test, "\n比较结果为:", y_test == y_predict)
score = estimator.score(x_train, y_train)
print("准确率为: ", score)
# ------------------
print("最佳参数:\n", estimator.best_params_)
print("最佳结果:\n", estimator.best_score_)
print("最佳估计器:\n", estimator.best_estimator_)
print("交叉验证结果:\n", estimator.cv_results_)

回归模型

线性回归

import matplotlib.pyplot as plt
import random
import torch
import pandas as pd
import numpy as np

def synthetic_data(w, b, num_examples):
    """生成y = wX+b+噪声"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    """X是一个均值为0,方差为1的随机数,(num_examples, len(w))是样本量和样本长度"""
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape((-1, 1))


true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
"""以房价为例：label是真实售价；feature是预测label的两个因素。"""
print(features[0], labels[0])

plt.scatter(features[:, 1], labels, 1)
plt.show()


def data_iter(batch_size, features, labels):
    """定义一个data_iter函数,该函数接受批量大小,特征矩阵features和标签向量labels作为输入,生成大小为batch_size的小批量"""
    num_example = len(features)  # 样本数量
    indices = list(range(num_example))
    """随机读取数据"""
    random.shuffle(indices)  # 打乱下标
    for i in range(0, num_example, batch_size):
        batch_indices = torch.tensor(indices[i:min(i + batch_size, num_example)])
        yield features[batch_indices], labels[batch_indices]


batch_size = 10 #batch_size:即一次训练所抓取的数据样本数量

for X, y in data_iter(batch_size, features, labels):
    print(X, '\n', y)
    break

"""定义初始化模型"""
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)
"""requires_grad=True 的作用是让 backward 可以追踪这个参数并且计算它的梯度"""
b = torch.zeros(1, requires_grad=True)

"""定义模型"""
def linreg(X, w, b):
    """"线性回归"""
    return torch.matmul(X, w) + b


"""定义损失函数"""
def squared_loss(y_hat, y):
    """均方损失"""
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2


"""定义优化算法"""
def sgd(params, lr, batch_size):
    """params是一个参数里面包含了w和d,lr为学习率"""
    """小批量梯度下降"""
    with torch.no_grad():
        for params in params:
            params -= lr * params.grad / batch_size
            params.grad.zero_()  #手动把梯度设为0

print('_____________________________________________________________________________')

"""训练过程"""
lr = 0.01 #学习率
num_epochs = 10   #把整个数据扫三遍
net = linreg  #模型
loss = squared_loss  #均方损失

for epoch in range(num_epochs):
    """先把数据扫一遍"""
    for X, y in data_iter(batch_size, features, labels):
        """再拿出一个批量大小的x和y"""
        l = loss(net(X,w,b),y)
        """把下x,w,b放在模型中做预测,把预测值与真实值y来做损失"""
        """x,y是小批量损失,l的形状是(batch_size,1),而不是一个标量"""
        l.sum().backward()  #求和之后算梯度
        sgd([w,b],lr,batch_size)  #使用参数的梯度更新参数

    with torch.no_grad():
        train_l = loss(net(features,w,b),labels)
        print(f'epoch{epoch + 1},loss {float(train_l.mean()):f}')

print(f'w的误差值:{true_w-w.reshape(true_w.shape)}')
print(f'b的误差值:{true_b-b}')

逻辑回归

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
#读取数据
column_name = ['Sample code number', 'Clump Thickness',
                   'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion',
                   'Single Epithelial Cell Size',
                   'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']

data = pd.read_csv('../cancer/breast-cancer-wisconsin.data',names=column_name)
data.head()

#缺失值处理
    #1.替换?为nan
data = data.replace(to_replace="?",value=np.nan)
    #2.删除缺失样本
data.dropna(inplace=True)
data.isnull().any()  #不存在缺失值

#划分数据集
from sklearn.model_selection import train_test_split
    #1.筛选特征值和目标值
x = data.iloc[:,1:-1]
y = data["Class"]
x.head()
x_train,x_test,y_train,y_test=train_test_split(x,y)  #将x,y传入  也就是特征值和目标值

#特征工程 标准化
from sklearn.preprocessing import StandardScaler
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test  = transfer.transform(x_test)


from sklearn.linear_model import LogisticRegression
estimator  = LogisticRegression()
estimator.fit(x_train,y_train)

#逻辑回归的模型参数:回归系数和偏置
print(estimator.coef_) #回归系数

print(estimator.intercept_) #偏置

#模型评估  计算准确率
score = estimator.score(x_test,y_test)
print('准确率为:',score)

特征工程

特征抽取

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split #划分数据集
from sklearn.feature_extraction import DictVectorizer #字典特征提取
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer #文本特征提取
import jieba   #中文分词

def datasets_demo():
    iris = load_iris()
    print('特征值名字\n',iris.feature_names)
    print('特征值\n', iris.data,iris.data.shape)
    print('目标值名字\n', iris.target)

    # 数据集划分
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)

    print("训练集的特征值",x_train,x_train.shape)
    return None

def dict_demo():#字典特征提取
    data =[{'city':'北京','temporary':100},{'city':'上海','temporary':0},{'city':'深圳','temporary':50}]
    #实例化转换器
    transfer = DictVectorizer(sparse=False)
    #调用fit_transform()
    data_new = transfer.fit_transform(data)
    print("特征名字",transfer.get_feature_names())
    print(data_new)

    return None
def count_demo():       #英文文本特征提取

    data = ["life is short,i like like python","life is too long,i dislike python"]
    transfer = CountVectorizer()  #不能使用sparse=False 要生成二维数组可以使用sparse内部的toarray()方法
    data_new = transfer.fit_transform(data)
    print(data_new.toarray())
    print("特征名字",transfer.get_feature_names())
    return None

def cut_word(text):

    text= " ".join(list(jieba.cut(text)))
    return text

def count_chinese_demo2():  #中文文本提取
    data = ["燕子去了，有再来的时候；杨柳枯了，有再青的时候；桃花谢了，有再开的时候。",
            "但是，聪明的，你告诉我，我们的日子为什么一去不复返呢？",
            "——是有人偷了他们罢：那是谁？又藏在何处呢？是他们自己逃走了罢：现在又到了哪里呢？"]
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    transfer = CountVectorizer(stop_words=["有人","现在"])  # 不能使用sparse=False 要生成二维数组可以使用sparse内部的toarray()方法
    data_final = transfer.fit_transform(data_new)
    print(data_final.toarray())  #sparse内部的toarray()方法
    print("特征名字", transfer.get_feature_names())

    return None
def tfidf_dem0():  #使用tfidf进行文本特征抽取
    data = ["燕子去了，有再来的时候；杨柳枯了，有再青的时候；桃花谢了，有再开的时候。",
            "但是，聪明的，你告诉我，我们的日子为什么一去不复返呢？",
            "——是有人偷了他们罢：那是谁？又藏在何处呢？是他们自己逃走了罢：现在又到了哪里呢？"]
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    transfer = TfidfVectorizer(stop_words=["有人", "现在"])  # 不能使用sparse=False 要生成二维数组可以使用sparse内部的toarray()方法
    data_final = transfer.fit_transform(data_new)

    print(data_final.toarray())  # sparse内部的toarray()方法
    print("特征名字", transfer.get_feature_names())


if __name__ == "__main__":
   tfidf_dem0()

特征预处理

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler,StandardScaler  #归一化 标准化

def minmax_demo():  # 归一化
    # 1.获取数据
    data = pd.read_csv("../data/datingTestSet2.csv")
    data = data.iloc[:, :3]

    # 2.实例化一个转换器
    transfer=MinMaxScaler()

    #3.调用fit_transform
    data_new = transfer.fit_transform(data)

    print(data_new)

    return None

def stand_demo(): #标准化  对数据进行无量纲化处理  (x-mean)/std标准差
    # 1.获取数据
    data = pd.read_csv("../data/datingTestSet2.csv")
    data = data.iloc[:, :3]

    # 2.实例化一个转换器
    transfer = StandardScaler()

    # 3.调用fit_transform
    data_new = transfer.fit_transform(data)
    print(data_new)
    return None

if __name__ == "__main__":
    stand_demo()

特征降维

import pandas as pd
import numpy as np
from sklearn.feature_selection import VarianceThreshold
from scipy.stats import pearsonr
from sklearn.decomposition import PCA

def variance_demo():  #低方差特征过滤
    data = pd.read_csv("../data/datingTestSet2.csv")
    data = data.iloc[:,0:-1]
    print(data)
    transfer = VarianceThreshold(threshold=3)
    data_new=transfer.fit_transform(data)
    print(data_new,data_new.shape)

    #计算两个变量之间的相关系数
    r=pearsonr(data["Liters"],data["Consumtime"])
    print("相关系数",r)

def pca_demo():  #pca降维适用于  特征冗杂
    data = [[2,8,4,5],[6,3,0,8],[5,4,9,1]]

    transfer = PCA(n_components=0.95)
    data_new=transfer.fit_transform(data)
    print(data_new,data_new.shape)

#案例分析
#1.数据获取
#2.合并表
#3.找到user_id和aisle之间的关系
#4.pca降维

def case_test():
    # 1.数据获取
    aisles = pd.read_csv("../data/instacart/aisles.csv")
    orders = pd.read_csv("../data/instacart/orders.csv")
    order_products = pd.read_csv("../data/instacart/order_products__prior.csv")
    products = pd.read_csv("../data/instacart/products.csv")

    # 2.合并表
    #合并aisles 和products 让aisles和products_id在一起
    tab1 = pd.merge(aisles,products,on=["aisle_id","aisle_id"])
    tab2 = pd.merge(tab1, order_products, on=["product_id", "product_id"]) #按照什么值
    tab3 = pd.merge(tab2, orders, on=["order_id", "order_id"])
    print(tab3)

    # 3.找到user_id和aisle之间的关系
    table=pd.crosstab(tab3["aisle"],tab3["user_id"])
    data = table
    #4.pca降维
    transfer = PCA(n_components=0.95)
    data_new = transfer.fit_transform(data)
    print(data_new, data_new.shape)
    return None

if __name__ == '__main__':
   case_test()

KNN

"""鸢尾花数据预测KNN
1.获取数据
2.划分数据集
3.特征工程
    预处理标准化
4.KNN预估器流程
5.模型评估
"""
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
def knn_iris():
#1.获取数据
#from sklearn.datasets import load_iris
    iris = load_iris()

#2.划分数据集
#from sklearn.model_selection import train_test_split
    x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=6)

#3.特征工程
    #标准化
#from sklearn.preprocessing import StandardScaler
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

#4.KNN预估器流程
#from sklearn.neighbors import KNeighborsClassifier
    estimator = KNeighborsClassifier(n_neighbors=3) #1
    estimator.fit(x_train,y_train)

#6.模型评估
    score = estimator.score(x_test,y_test)
    print("准确率为:",score)

    return None

def knn_iris_gccv():  #网格验证和交叉搜索
#1.获取数据
#from sklearn.datasets import load_iris
    iris = load_iris()

#2.划分数据集
#from sklearn.model_selection import train_test_split
    x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=22)

#3.特征工程
    #标准化
#from sklearn.preprocessing import StandardScaler
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

#4.KNN预估器流程
#from sklearn.neighbors import KNeighborsClassifier
    estimator = KNeighborsClassifier()

    #网格验证和交叉搜索
    #参数准备
    param_dict = {"n_neighbors":[1,3,5,7,9,11,13]}
    estimator=GridSearchCV(estimator,param_grid=param_dict,cv=10)

    estimator.fit(x_train,y_train)

#5.模型评估
    score = estimator.score( x_test,y_test)
    print("准确率为:\n",score)

    #最佳参数:best_paparms_
    print("最佳参数为:\n",estimator.best_params_)

    #最佳结果:best_score_
    print("最佳结果:\n",estimator.best_score_)

    #最佳估计器:best_estimator_
    print("最佳估计器:\n",estimator.best_estimator_)

    #最佳交叉验证:cv_results_
    print("最佳交叉验证\n", estimator.cv_results_)

    return None

if __name__ == "__main__":
    knn_iris_gccv()

facebook实例

"""
1.获取数据
2.数据处理
目的:
    特征值x
    目标值y
    a.缩小数据范围
     2<x<2.5
     1<y<1.5
    b.time-> 年月日时分秒
    c.过滤签到少的地点
3.特征工程:标准化
4.KNN算法预估流程
5.模型的选择与调优
6.模型评估
"""
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
def face_book_demo():
#1.获取数据
    data=pd.read_csv('../data/FBlocation/train.csv')
#2.缩小数据范围
    data = data.query("x>2.0&x<2.5&y>1.0&y<1.5")
    time_value=pd.to_datetime(data["time"],unit="s")  #time-> 年月日时分秒
    date = pd.DatetimeIndex(time_value)
    data["day"] = date.day
    data["weekday"] = date.weekday
    data["hour"] = date.hour

    place_count= data.groupby("place_id").count()["row_id"]

    data_final=data[data["place_id"].isin(place_count[place_count>3].index.values)]
#筛选特征值目标值
    x = data_final[["x","y","accuracy","hour","weekday","day"]]
    y = data_final["place_id"]
    print(x)
#数据集划分

    x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=22)
#特征工程
    #标准化
#from sklearn.preprocessing import StandardScaler
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

#4.KNN预估器流程
#from sklearn.neighbors import KNeighborsClassifier
    estimator = KNeighborsClassifier()

    #网格验证和交叉搜索
    #参数准备
    param_dict = {"n_neighbors":[3,5,7,9,11]}
    estimator=GridSearchCV(estimator,param_grid=param_dict,cv=3)

    estimator.fit(x_train,y_train)

#5.模型评估
    score = estimator.score( x_test,y_test)
    print("准确率为:\n",score)

    #最佳参数:best_paparms_
    print("最佳参数为:\n",estimator.best_params_)

    #最佳结果:best_score_
    print("最佳结果:\n",estimator.best_score_)

    #最佳估计器:best_estimator_
    print("最佳估计器:\n",estimator.best_estimator_)

    #最佳交叉验证:cv_results_
    print("最佳交叉验证\n", estimator.cv_results_)

    return None


    return None

if __name__ == "__main__":
    face_book_demo()

朴素贝叶斯

"""
1.获取数据
2.数据处理
目的:
    特征值x
    目标值y
    a.缩小数据范围
     2<x<2.5
     1<y<1.5
    b.time-> 年月日时分秒
    c.过滤签到少的地点
3.特征工程:标准化
4.KNN算法预估流程
5.模型的选择与调优
6.模型评估
"""
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
def face_book_demo():
#1.获取数据
    data=pd.read_csv('../data/FBlocation/train.csv')
#2.缩小数据范围
    data = data.query("x>2.0&x<2.5&y>1.0&y<1.5")
    time_value=pd.to_datetime(data["time"],unit="s")  #time-> 年月日时分秒
    date = pd.DatetimeIndex(time_value)
    data["day"] = date.day
    data["weekday"] = date.weekday
    data["hour"] = date.hour

    place_count= data.groupby("place_id").count()["row_id"]

    data_final=data[data["place_id"].isin(place_count[place_count>3].index.values)]
#筛选特征值目标值
    x = data_final[["x","y","accuracy","hour","weekday","day"]]
    y = data_final["place_id"]
    print(x)
#数据集划分

    x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=22)
#特征工程
    #标准化
#from sklearn.preprocessing import StandardScaler
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

#4.KNN预估器流程
#from sklearn.neighbors import KNeighborsClassifier
    estimator = KNeighborsClassifier()

    #网格验证和交叉搜索
    #参数准备
    param_dict = {"n_neighbors":[3,5,7,9,11]}
    estimator=GridSearchCV(estimator,param_grid=param_dict,cv=3)

    estimator.fit(x_train,y_train)

#5.模型评估
    score = estimator.score( x_test,y_test)
    print("准确率为:\n",score)

    #最佳参数:best_paparms_
    print("最佳参数为:\n",estimator.best_params_)

    #最佳结果:best_score_
    print("最佳结果:\n",estimator.best_score_)

    #最佳估计器:best_estimator_
    print("最佳估计器:\n",estimator.best_estimator_)

    #最佳交叉验证:cv_results_
    print("最佳交叉验证\n", estimator.cv_results_)

    return None

if __name__ == "__main__":
    face_book_demo()

Wool Blue 发布于 2024-02-26

最后更新于 2024-02-27

决策树

随机森林

回归模型

线性回归

逻辑回归

特征工程

特征抽取

特征预处理

特征降维

KNN

facebook实例

朴素贝叶斯

Wool Blue