Pytorch学习 for hw3（2）Logisitic Regression_不归一化容易发散-程序员宅基地

文章目录

逻辑回归是由概率公式推导产生的，常用来做分类任务，拿手写数字辨识1-10为例：通过计算max{ $P (x = 0), P (x = 1), . . ., P (x = 9)$ }，找出最大的概率值即为该x对应的类别。

1、Logisitic Regression

（1）前言

介绍一种下载数据集的方法，但是本次案例未使用到。
在安装pytorch时，有个torchvison工具包可以提供一些比较流行的数据集如MNISIT Dataset（手写数字数据），CIFAR-10（32╳32像素的像图片），但是需要在网上下载，下载方法如下：

import torchvision

train_set = torchvision.datasets.MNIST(root='D:/py文件/Hong YiLee/homework3/dataset/mnist', train=True, download=True)
test_set = torchvision.datasets.MNIST(root='D:/py文件/Hong YiLee/homework3/dataset/mnist', train=False, download=True)

root：若未下载过则标明下载地址，已经下载过则标明数据所在位置
train=True：表示提取的是training data，=False表示提取的是testing data
download=True：表示将在往网上下载，=False表示从本机提取

运行结果如下，就是速度有点慢（开了VPN也慢）
在这里插入图片描述
由于是分类问题所以，本次实例和上次的略有区别：现有三个输入x，对应两个分类y=0和y=1，求输入为4时，输出y为多少。

x	y
1.0	0
2.0	0
3.0	1
4.0	？

所以，进而将问题简化为二分类问题即求P(y=0)、P(y=1)，且P(y=1)=1-P(y=0)，若P(y=0)>0.5那么y=0。由于P(y=0)可能接近0.5，那么在这种情况下分类器对于该x的类别是不确定的，应该输出“不确定”。

（2）知识点介绍：

可以将二分类问题简化为输出为[0,1]之间的回归问题。那么我们只需要将的线性回归的输出映射到[0,1]即可，而sigmiod函数恰好满足：定义域为(-∞,+∞)，值域为(0,1)。当输出y>0.5则被归为1，小于0.5则被归为0。损失函数选用由概率推导出来的cross entropy（交叉熵），简称BCE（Binary Cross Entropy），最后要求和取平均值（对loss求导数的时候1/N会影响lr的大小，加上则不用将lr调的过大）。
在这里插入图片描述
torch.nn.BCELoss的参数详解点击链接

torch.nn.Functional的模块包含很多函数，其中有sigmoid函数，我使用的pytorch1.7.1版本已经弃用这种方法，可直接使用torch.sigmoid()

（3）完整代码：

（和Linear Regression差不多）

import torch

x_data = torch.Tensor([[1.0], [2.0], [3.0]])
y_data = torch.Tensor([[0], [0], [1]])


class LogisticRegressionModel(torch.nn.Module):
    # 初始化
    def __init__(self):
        # 初始化从torch.nn.Module继承的属性
        super(LogisticRegressionModel, self).__init__()
        # 设置实例属性self.linear
        self.linear = torch.nn.Linear(1, 1)

    # 定义实例方法，添加输入x
    def forward(self, x):
        y_pred = torch.sigmoid(self.linear(x))
        return y_pred


model = LogisticRegressionModel()

criterion = torch.nn.BCELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

for i in range(1000):
    y_pred = model(x_data)
    loss = criterion(y_pred, y_data)
    print(i, loss.item())
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

输出如下：
能看出随迭代次数的增加loss值在减小，最后一次的loss值为1.0836951732635498。

0 2.484407901763916
1 2.4654228687286377
2 2.44744610786438
3 2.4304330348968506
4 2.4143383502960205
5 2.399118423461914

测试对x=4的y的分类，结果y_pred =0.8407>0.5 所以分类正确

x_test = torch.tensor([[4.0]])
y_test = model(x_test)
print('y_pred = ', y_test.data)
# y_pred =  tensor([[0.8407]])

（4）查看y(是否通过考试)对x(每日的学习时间)的函数

（实际上并不是函数，是在取多个点之后的预测值绘制的图像）

import numpy as np
import matplotlib.pyplot as plt


x = np.linspace(0, 10, 200)  # 取1-10之间等间距的200个点，并组成一个列表
x_t = torch.Tensor(x).view((200, 1))  # 将1行的列表转为200行1列的列向量

y_t = model(x_t)  # 输入x，调用logistic model
y = y_t.data.numpy()  # 将y_data转化为numpy数据才能进行画图

plt.plot(x, y)
plt.plot([0, 10], [0.5, 0.5], c='r')  # 画出分界线
plt.xlabel('Hours')
plt.ylabel('Possibility of pass')
plt.grid()  # 画出背景网格线
plt.show()  # 显示图

由于一使用plt.plot就出现下面的错误
在这里插入图片描述
所以添加了一句，问题就解决了

import os

os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'

结果如下，可以看到当学习时间为两个小时多的时候就会使possibility达到0.5，也就是y的取值为1，自然当x=4时y的取值也为1.
在这里插入图片描述

2、多层神经网络的连接

一层的时候运算过程如下：
在这里插入图片描述
可以将单个函数的运算拼成矩阵相乘，进而能够使用GPU加速运算过程。torch.nn.Linear(8,1)表示输入x有8列特征，输出y有1列。

当有三层的时候，可以将矩阵乘法看成维度转换的函数，只需要改变torch.nn.Linear()的参数就可以实现两层神经网络的连接单元数如下：
在这里插入图片描述

（1）二分类

在二分类中我们用到糖尿病的数据集（diabetes），通过8个特征辨别其是否患有糖尿病，患病输出y=1，否则y=0。
一、数据集的准备
下载链接：https://pan.baidu.com/s/1udhg5-pvS6UsQlpawmd8-w
提取码： itm0
打开文件如下
在这里插入图片描述
开始分离x、y

import numpy as np


xy = np.loadtxt('E:\\自制笔记\\课外\\PyTorch深度学习实践\\diabetes.csv.gz', delimiter=',', dtype=np.float32)
x = torch.from_numpy(xy[:, :-1])  # 取所有行的前8列，并转化为tensor
y = torch.from_numpy(xy[:, [-1]])  # 取所有行的的最后一列
print(x.shape, y.shape)

二、根据继承的模块定义model类

import torch


class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()  # 初始化从Module继承的方法
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.activation = torch.nn.Sigmoid()

    def forward(self, x):
        x = self.activation(self.linear1(x))
        x = self.activation(self.linear2(x))
        x = self.activation(self.linear3(x))
        return x


model = Model()

三、设置loss和optimizer
由于size_average已经被弃用，所以使用reduction='mean’代替来求取平均值。

criterion = torch.nn.BCELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

四、迭代更新

for epoch in range(100):
    y_pred = model(x)
    loss = criterion(y_pred, y)
    print(epoch, loss.item())

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

输出结果：

0 0.7159094214439392
1 0.7150604128837585
2 0.7142216563224792
3 0.7133930325508118
4 0.7125746011734009
5 0.7117661237716675

最后的loss值为 0.6668325662612915，当迭代次数达到1000次时，loss值为0.6445940732955933，并趋于稳定。
五、完整代码：

import torch
import numpy as np


class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()  # 初始化从Module继承的方法
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.activation = torch.nn.Sigmoid()

    def forward(self, x):
        x = self.activation(self.linear1(x))
        x = self.activation(self.linear2(x))
        x = self.activation(self.linear3(x))
        return x


model = Model()

xy = np.loadtxt('E:\\自制笔记\\课外\\PyTorch深度学习实践\\diabetes.csv.gz', delimiter=',', dtype=np.float32)
x = torch.from_numpy(xy[:, :-1])  # 取所有行的前8列，并转化为tensor
y = torch.from_numpy(xy[:, [-1]])  # 取所有行的的最后一列
print(x.shape, y.shape)


criterion = torch.nn.BCELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

for epoch in range(100):
    y_pred = model(x)
    loss = criterion(y_pred, y)
    print(epoch, loss.item())

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

（2）回归问题

下面的案例是根据sklearn的diabetes数据集来做的回归问题。已知影响糖尿病的10列特征，和对应的target，查看随训练的变化loss的变化。
一、数据集准备：
如果安装了sklearn的话，在anaconda文件夹下能找到下图的路径，里面有自带的数据集，如我的位置是D:\anaconda\Lib\site-packages\sklearn\datasets\data
在这里插入图片描述
查看输入x： 打开之后发现WPS和excel并不能将每一列分割（只有两列间为" , "数据才能被分割，这里的是空格所以不能被分割为单独的列）

对应的y如下：
其中最小的为25，最大的为346 ，所以先对y进行归一化处理。不进行归一化结果会发散，loss值会很大。
在这里插入图片描述

import torch
import numpy as np
np.random.seed(0) #当我们设置相同的seed，每次生成的随机数相同

print()
# 按照sklearn中包的位置将数据读取出来
x = np.loadtxt('D:\\anaconda\\Lib\site-packages\\sklearn\\datasets\\data\\diabetes_data.csv.gz', delimiter=' ',
                dtype=np.float32)
y = np.loadtxt('D:\\anaconda\\Lib\site-packages\\sklearn\\datasets\\data\\diabetes_target.csv.gz', delimiter=' ',
                dtype=np.float32)
y = y.reshape(-1, 1) #转为一列

#归一化处理
mean_y = np.mean(y, axis = 0)
std_y = np.std(y, axis = 0)
for i in range(len(y)):
    if std_y[0] != 0:
         y[i][0] = (y[i][0] - mean_y[0]) / std_y[0]

#创建两个tensor
x = torch.from_numpy(x)
y = torch.from_numpy(y)

# 将数据的行数打乱
def _shuffle(X, Y):
 # This function shuffles two equal-length list/array, X and Y, together.
    randomize = np.arange(len(X))
    np.random.shuffle(randomize)
    return (X[randomize], Y[randomize])


 x, y = _shuffle(x, y)

二、根据继承的模块定义model类
与二分类类似，但是由于y的输出不再是单个的类别（0、1），所以最后一层不能使用激活函数限制他的值域。

class Model(torch.nn.Module):
    # 初始化，并定义激活函数
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(10, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.activation = torch.nn.Sigmoid()

    # 最后一层不要添加激活函数，否则最后的值域会被限制
    def forward(self, x):
        x = self.activation(self.linear1(x))
        x = self.activation(self.linear2(x))
        x = self.linear3(x)
        return x

model = Model()

三、设置loss和optimizer

criterion = torch.nn.MSELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

四、迭代更新

for i in range(100):
    y_pred = model(x)
    loss = criterion(y_pred, y)
    print(i, loss.item())

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

结果如下：

0 1.1163854598999023
1 1.0310304164886475
2 1.0081417560577393
3 1.001995325088501
4 1.0003454685211182

随迭代次数增加loss变小，最后趋于稳定为0.9996225833892822

本文链接：https://blog.csdn.net/qq_46126258/article/details/113802776

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

稀疏编码的数学基础与理论分析-程序员宅基地

文章浏览阅读290次，点赞8次，收藏10次。1.背景介绍稀疏编码是一种用于处理稀疏数据的编码技术，其主要应用于信息传输、存储和处理等领域。稀疏数据是指数据中大部分元素为零或近似于零的数据，例如文本、图像、音频、视频等。稀疏编码的核心思想是将稀疏数据表示为非零元素和它们对应的位置信息，从而减少存储空间和计算复杂度。稀疏编码的研究起源于1990年代，随着大数据时代的到来，稀疏编码技术的应用范围和影响力不断扩大。目前，稀疏编码已经成为计算...

EasyGBS国标流媒体服务器GB28181国标方案安装使用文档-程序员宅基地

文章浏览阅读217次。EasyGBS - GB28181 国标方案安装使用文档下载安装包下载，正式使用需商业授权, 功能一致在线演示在线API架构图EasySIPCMSSIP 中心信令服务, 单节点, 自带一个 Redis Server, 随 EasySIPCMS 自启动, 不需要手动运行EasySIPSMSSIP 流媒体服务, 根..._easygbs-windows-2.6.0-23042316使用文档

【Web】记录巅峰极客2023 BabyURL题目复现——Jackson原生链_原生jackson 反序列化链子-程序员宅基地

文章浏览阅读1.2k次，点赞27次，收藏7次。2023巅峰极客 BabyURL之前AliyunCTF Bypassit I这题考查了这样一条链子：其实就是Jackson的原生反序列化利用今天复现的这题也是大同小异，一起来整一下。_原生jackson 反序列化链子

一文搞懂SpringCloud，详解干货，做好笔记_spring cloud-程序员宅基地

文章浏览阅读734次，点赞9次，收藏7次。微服务架构简单的说就是将单体应用进一步拆分，拆分成更小的服务，每个服务都是一个可以独立运行的项目。这么多小服务，如何管理他们？(服务治理注册中心[服务注册发现剔除])这么多小服务，他们之间如何通讯？这么多小服务，客户端怎么访问他们？(网关)这么多小服务，一旦出现问题了，应该如何自处理？(容错)这么多小服务，一旦出现问题了，应该如何排错?(链路追踪)对于上面的问题，是任何一个微服务设计者都不能绕过去的，因此大部分的微服务产品都针对每一个问题提供了相应的组件来解决它们。_spring cloud

Js实现图片点击切换与轮播-程序员宅基地

文章浏览阅读5.9k次，点赞6次，收藏20次。Js实现图片点击切换与轮播图片点击切换<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <script type="text/ja..._点击图片进行轮播图切换

tensorflow-gpu版本安装教程（过程详细）_tensorflow gpu版本安装-程序员宅基地

文章浏览阅读10w+次，点赞245次，收藏1.5k次。在开始安装前，如果你的电脑装过tensorflow，请先把他们卸载干净，包括依赖的包（tensorflow-estimator、tensorboard、tensorflow、keras-applications、keras-preprocessing），不然后续安装了tensorflow-gpu可能会出现找不到cuda的问题。cuda、cudnn。..._tensorflow gpu版本安装

随便推点

物联网时代权限滥用漏洞的攻击及防御-程序员宅基地

文章浏览阅读243次。0x00 简介权限滥用漏洞一般归类于逻辑问题，是指服务端功能开放过多或权限限制不严格，导致攻击者可以通过直接或间接调用的方式达到攻击效果。随着物联网时代的到来，这种漏洞已经屡见不鲜，各种漏洞组合利用也是千奇百怪、五花八门，这里总结漏洞是为了更好地应对和预防，如有不妥之处还请业内人士多多指教。0x01 背景2014年4月，在比特币飞涨的时代某网站曾经..._使用物联网漏洞的使用者

Visual Odometry and Depth Calculation--Epipolar Geometry--Direct Method--PnP_normalized plane coordinates-程序员宅基地

文章浏览阅读786次。A. Epipolar geometry and triangulationThe epipolar geometry mainly adopts the feature point method, such as SIFT, SURF and ORB, etc. to obtain the feature points corresponding to two frames of images. As shown in Figure 1, let the first image be and th_normalized plane coordinates

开放信息抽取(OIE)系统（三）-- 第二代开放信息抽取系统(人工规则, rule-based, 先抽取关系)_语义角色增强的关系抽取-程序员宅基地

文章浏览阅读708次，点赞2次，收藏3次。开放信息抽取(OIE)系统（三）-- 第二代开放信息抽取系统(人工规则, rule-based, 先关系再实体)一.第二代开放信息抽取系统背景第一代开放信息抽取系统(Open Information Extraction， OIE， learning-based, 自学习, 先抽取实体)通常抽取大量冗余信息，为了消除这些冗余信息，诞生了第二代开放信息抽取系统。二.第二代开放信息抽取系统历史第二代开放信息抽取系统着眼于解决第一代系统的三大问题: 大量非信息性提取（即省略关键信息的提取）、_语义角色增强的关系抽取