北太天元应用案例分享：机器学习预测心脏病风险

社区小助手 2024-07-26 17:38:40

卢朓老师《数值方法：原理、算法及应用》课堂学生大作业~

供大家参考学习~

相关代码和结果如下：

%The accuracy of the SVM model is 81.11%

修改之后的代码可以在北太天元上运行, 所有的代码如下:

load_plugin("optimization");
% 导入数据
data = readmatrix('heart disease.csv');
% 检查并处理缺失值
if any(any(ismissing(data)))
data = rmmissing(data);
end
% 分离特征和标签
X = data(:,1:end-1);
y = data(:,end);
% 主成分分析降维
[coeff,score,latent] = pca(X);
X_pca = score(:,1:2);
% 划分训练集和测试集
cv = my_cvpartition(size(X_pca,1),'HoldOut',0.3);
idx = cv.test;
train_idx = setdiff(1: size(X_pca,1), idx);
X_train = X_pca(train_idx,:);
Y_train = y(train_idx,:);
X_test = X_pca(idx,:);
Y_test = y(idx,:);
% 训练SVM模型
C = 1e2; % 设置较大的C值以确保硬间隔分类（对于线性可分数据）
SVMModel = my_fitcecoc(X_train,Y_train,C);
% 预测测试集
[label,score] = predict(SVMModel,X_test);
% 计算准确率
accuracy = sum(label-1 == Y_test) / length(Y_test);
% 可视化
gscatter(X_pca(:,1),X_pca(:,2),y);
hold on;
% 绘制决策边界c
d = 0.15;
[x1Grid,x2Grid] = meshgrid(min(X_pca(:,1)):d:max(X_pca(:,1)),...
min(X_pca(:,2)):d:max(X_pca(:,2)));
xGrid = [x1Grid(:),x2Grid(:)];
[~,scores] = predict(SVMModel,xGrid);
contour(x1Grid,x2Grid,reshape(scores(:,2),size(x1Grid)),[0 0],'k');
% 输出准确率
fprintf('The accuracy of the SVM model is %.2f%%\n', accuracy * 100);
hold off;
function [coeff, score, latent] = pca(X)
% X: 数据矩阵，每一列是一个特征，每一行是一个样本
% coeff: 主成分系数
% score: 表示主成分得分
% latent: 主成分对应的特征值
% 标准化数据（均值为0，方差为1）
X = (X - mean(X)) ./ std(X);
% 计算协方差矩阵
CovMat = cov(X);
% 对协方差矩阵进行特征值分解
[V, D] = eig(CovMat);
% 将特征值按降序排序，并获取对应的特征向量
[latent, order] = sort(diag(D), 'descend');
coeff = V(:, order);
% 计算主成分得分
score = X * coeff;
end
function cv = my_cvpartition(n, method, param)
% n: 总样本数
% method: 分区方法，目前仅支持 'HoldOut'
% param: 分区方法的参数，对于 'HoldOut'，该参数为留出的比例
% 初始化输出结构体
cv = struct('train', [], 'test', []);
if strcmp(method, 'HoldOut')
% 生成一个从 1 到 n 的整数数组
idx = 1:n;
% 随机打乱 idx 数组
idx = idx(randperm(n));
% 计算留出样本的数量
numHoldOut = floor(n * param);
% 分配训练和测试索引
cv.test = idx(1:numHoldOut);
cv.train = idx(numHoldOut+1:end);
else
error('Unsupported partition method.');
end
end
function SVMModel = my_fitcecoc(X_train, Y_train, C)
% X_train: 特征矩阵 (n x d)，其中 n 是样本数，d 是特征维度
% Y_train: 标签向量 (n x 1)
% C: 正则化参数，控制对错分样本的惩罚程度
% 获取类别数量
uniqueClasses = unique(Y_train);
numClasses = length(uniqueClasses);
% 初始化 SVM 模型结构体数组
SVMModel = struct('Classifiers', cell(numClasses*(numClasses-1)/2, 1), ...
'ClassPairs', []);
% 训练一对一 SVM 分类器
classifierIndex = 1;
for i = 1:numClasses
for j = (i+1):numClasses
% 提取当前类别对的训练数据
classI = Y_train == uniqueClasses(i);
classJ = Y_train == uniqueClasses(j);
X_train_ij = [X_train(classI, :); X_train(classJ, :)];
Y_train_ij = [ones(sum(classI), 1); -1*ones(sum(classJ), 1)];
% 训练 SVM 分类器
SVMModel.Classifiers{classifierIndex} = my_fitcsvm_soft(X_train_ij, Y_train_ij, C);
% 记录当前分类器对应的类别对
SVMModel.ClassPairs(classifierIndex, :) = [uniqueClasses(i), uniqueClasses(j)];
classifierIndex = classifierIndex + 1;
end
end
end
function [wb] = my_fitcsvm(X, Y)
% X: 特征矩阵 (n x d)，其中 n 是样本数，d 是特征维度
% Y: 标签向量 (n x 1)，取值为 +1 或 -1
load_plugin("optimization");
% 假设X和Y已经定义，如之前的示例
N = size(X, 1); % 数据点的数量
D = size(X,2); % 数据的维度
% 将w和b组合成一个向量，以便使用quadprog
% 注意：这里我们将w放在前面，b放在最后
p = rand(D + 1, 1); % 初始猜测解（通常设为0）
Aeq = []; % 没有等式约束
beq = [];
% 构造二次规划的目标函数和线性不等式约束
H = eye(D+1); % Hessian矩阵（目标函数的二次项系数）
f = zeros(D+1,1); % 目标函数的一次项系数（对于SVM原始问题，通常为负）
% 线性不等式约束 Ax <= b
% 对于每个数据点 (x_i, y_i)，我们有 y_i * (w' * x_i + b) >= 1
A = [-Y.*X, -Y]; % 不等式约束的系数矩阵
b = -ones(N, 1); % 不等式约束的右侧向量
% 使用quadprog求解二次规划问题
options = optimoptions('quadprog','Algorithm','interior-point');
[w_b, fval, exitflag, output] = quadprog(H, f, A, b, Aeq, beq, [], [], p, options);
% 分离出w和b
w = w_b(1:D);
b = w_b(D+1);
wb = struct('w',w,'b',b);
end
function [wb] = my_fitcsvm_soft(X, Y, C)
% X: 特征矩阵 (n x d)，其中 n 是样本数，d 是特征维度
% Y: 标签向量 (n x 1)，取值为 +1 或 -1
% C: 正则化参数，控制对错分样本的惩罚程度
% 假设X和Y已经定义，如之前的示例
N = size(X, 1); % 数据点的数量
D = size(X, 2); % 数据的维度
% 初始化松弛变量（slack variables）
xi = zeros(N, 1);
% 将w和b以及松弛变量组合成一个向量，以便使用quadprog
p = zeros(D + 1 + N, 1); % 初始猜测解
% 构造二次规划的目标函数和线性不等式约束
H = [diag( [ones(1,D),0] ), zeros(D+1, N); zeros(N, D+1), zeros(N,N)]; % Hessian矩阵
f = [zeros(D+1, 1); C*ones(N, 1)]; % 目标函数的一次项系数
% 线性不等式约束 Ax <= b
% 对于每个数据点 (x_i, y_i)，我们有 y_i * (w' * x_i + b) >= 1 - xi_i
A = [-Y.*X, -Y, diag( -ones(1,N) )]; % 不等式约束的系数矩阵
b = -ones(N, 1); % 不等式约束的右侧向量
Aeq = []; % 没有等式约束
beq = [];
lb = [ -inf*ones(D+1,1); zeros(N,1)];
ub = inf*ones(D+1+N,1);
% 使用quadprog求解二次规划问题
options = optimoptions('quadprog','Algorithm','interior-point');
[w_b_xi, fval, exitflag, output] = quadprog(H, f, A, b, Aeq, beq, lb, ub, p, options)
% 分离出w, b和xi
w = w_b_xi(1:D);
b = w_b_xi(D+1);
xi = w_b_xi(D+2:end);
% 构造并返回结构体wb，包含w和b
wb = struct('w', w, 'b', b);
end
function [label, score] = predict(SVMModel, X_test)
% SVMModel: 训练好的多类SVM模型，由my_fitcecoc函数返回
% X_test: 测试集特征数据
% label: 预测的类别标签
% score: 预测的得分（可选，这里简化为投票得分）
% 初始化预测标签和得分
[numTest, ~] = size(X_test);
numClasses = length(SVMModel.Classifiers);
label = zeros(numTest, 1);
score = zeros(numTest, numClasses);
% 对每个测试样本进行预测
for i = 1:numTest
sample = X_test(i, :);
votes = zeros(1, numClasses+1);
% 使用每个SVM分类器进行预测，并进行投票
for j = 1:numClasses
svmModel = SVMModel.Classifiers{j};
[~, ~, ~, output] = predictOneVsAll(svmModel, sample);
if output == 1
classIdx1 = SVMModel.ClassPairs(j, 1)+1;
votes(classIdx1) = votes(classIdx1) + 1;
else
classIdx2 = SVMModel.ClassPairs(j, 2)+1;
votes(classIdx2) = votes(classIdx2) + 1;
end
end
% 找到得票最多的类别作为预测标签
[~, maxVoteIdx] = max(votes);
label(i) = maxVoteIdx;
score(i, maxVoteIdx) = votes(maxVoteIdx); % 将最高票数作为得分
end
end
function [predictedLabel, predictedScore, decisionValues, output] = predictOneVsAll(svmModel, sample)
% 使用单个SVM模型进行预测
% 这里简化为直接计算决策函数的值，实际应用中可能需要更复杂的处理
w = svmModel.w;
b = svmModel.b;
decisionValues = dot(w, sample) + b;
if decisionValues >= 0
predictedLabel = 1; % 属于正类
else
predictedLabel = -1; % 属于负类
end
predictedScore = abs(decisionValues); % 决策函数的绝对值作为得分
output = predictedLabel; % 用于投票的输出
end

---

软间隔SVM通过引入松弛变量（slack variables）$\xi_i$来允许一些样本被错误分类，从而处理非线性可分的数据。这些松弛变量衡量了每个样本违反约束条件的程度。软间隔SVM的优化问题可以写成以下形式：

$$\min_{\mathbf{w}, b, \xi} \frac{1}{2} ||\mathbf{w}||^2 + C \sum_{i=1}^{m} \xi_i$$

约束条件为：

$$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad i = 1, \ldots, m$$
$$\xi_i \geq 0, \quad i = 1, \ldots, m$$

其中，$\mathbf{w}$是权重向量，$b$是偏置项，$C$是一个正则化参数，用于控制对错分样本的惩罚程度。$\xi_i$是第$i$个样本的松弛变量。

这个优化问题仍然是一个二次规划问题，但目标函数和约束条件都包含了松弛变量。当数据不是完全线性可分时，通过允许一些样本被错误分类（即$\xi_i > 0$），优化问题可以找到一个更好的分类超平面。

现在，我们来解释如何克服可行域为空集的问题。在硬间隔SVM（即不允许任何错误分类的SVM）中，如果数据不是线性可分的，那么约束条件$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1$对于所有样本可能都无法同时满足，导致可行域为空集。

然而，在软间隔SVM中，由于引入了松弛变量$\xi_i$，约束条件变为了$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i$。这意味着即使某些样本不能满足原始的硬间隔约束（即$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1$），但只要它们满足新的软间隔约束（即$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i$），并且松弛变量$\xi_i$足够小，那么这些样本就不会对优化问题的解产生太大的影响。

因此，通过引入松弛变量和软间隔约束，软间隔SVM能够处理非线性可分的数据，并找到一个尽可能将数据正确分类的分类超平面。在实际应用中，可以使用二次规划求解器（如SMO算法）来求解这个优化问题。

872 0 0 收藏回复

北太天元应用案例分享：机器学习预测心脏病风险

回复

回复

推荐话题

热门标签

社区牛人

产品介绍

生态合作

服务支持

关于我们