卢朓老师《数值方法:原理、算法及应用》课堂 学生大作业~
供大家参考学习~
相关代码和结果如下:
%The accuracy of the SVM model is 81.11%
修改之后的代码可以在北太天元上运行, 所有的代码如下:
load_plugin("optimization"); % 导入数据 data = readmatrix('heart disease.csv'); % 检查并处理缺失值 if any(any(ismissing(data))) data = rmmissing(data); end % 分离特征和标签 X = data(:,1:end-1); y = data(:,end); % 主成分分析降维 [coeff,score,latent] = pca(X); X_pca = score(:,1:2); % 划分训练集和测试集 cv = my_cvpartition(size(X_pca,1),'HoldOut',0.3); idx = cv.test; train_idx = setdiff(1: size(X_pca,1), idx); X_train = X_pca(train_idx,:); Y_train = y(train_idx,:); X_test = X_pca(idx,:); Y_test = y(idx,:); % 训练SVM模型 C = 1e2; % 设置较大的C值以确保硬间隔分类(对于线性可分数据) SVMModel = my_fitcecoc(X_train,Y_train,C); % 预测测试集 [label,score] = predict(SVMModel,X_test); % 计算准确率 accuracy = sum(label-1 == Y_test) / length(Y_test); % 可视化 gscatter(X_pca(:,1),X_pca(:,2),y); hold on; % 绘制决策边界c d = 0.15; [x1Grid,x2Grid] = meshgrid(min(X_pca(:,1)):d:max(X_pca(:,1)),... min(X_pca(:,2)):d:max(X_pca(:,2))); xGrid = [x1Grid(:),x2Grid(:)]; [~,scores] = predict(SVMModel,xGrid); contour(x1Grid,x2Grid,reshape(scores(:,2),size(x1Grid)),[0 0],'k'); % 输出准确率 fprintf('The accuracy of the SVM model is %.2f%%\n', accuracy * 100); hold off; function [coeff, score, latent] = pca(X) % X: 数据矩阵,每一列是一个特征,每一行是一个样本 % coeff: 主成分系数 % score: 表示主成分得分 % latent: 主成分对应的特征值 % 标准化数据(均值为0,方差为1) X = (X - mean(X)) ./ std(X); % 计算协方差矩阵 CovMat = cov(X); % 对协方差矩阵进行特征值分解 [V, D] = eig(CovMat); % 将特征值按降序排序,并获取对应的特征向量 [latent, order] = sort(diag(D), 'descend'); coeff = V(:, order); % 计算主成分得分 score = X * coeff; end function cv = my_cvpartition(n, method, param) % n: 总样本数 % method: 分区方法,目前仅支持 'HoldOut' % param: 分区方法的参数,对于 'HoldOut',该参数为留出的比例 % 初始化输出结构体 cv = struct('train', [], 'test', []); if strcmp(method, 'HoldOut') % 生成一个从 1 到 n 的整数数组 idx = 1:n; % 随机打乱 idx 数组 idx = idx(randperm(n)); % 计算留出样本的数量 numHoldOut = floor(n * param); % 分配训练和测试索引 cv.test = idx(1:numHoldOut); cv.train = idx(numHoldOut+1:end); else error('Unsupported partition method.'); end end function SVMModel = my_fitcecoc(X_train, Y_train, C) % X_train: 特征矩阵 (n x d),其中 n 是样本数,d 是特征维度 % Y_train: 标签向量 (n x 1) % C: 正则化参数,控制对错分样本的惩罚程度 % 获取类别数量 uniqueClasses = unique(Y_train); numClasses = length(uniqueClasses); % 初始化 SVM 模型结构体数组 SVMModel = struct('Classifiers', cell(numClasses*(numClasses-1)/2, 1), ... 'ClassPairs', []); % 训练一对一 SVM 分类器 classifierIndex = 1; for i = 1:numClasses for j = (i+1):numClasses % 提取当前类别对的训练数据 classI = Y_train == uniqueClasses(i); classJ = Y_train == uniqueClasses(j); X_train_ij = [X_train(classI, :); X_train(classJ, :)]; Y_train_ij = [ones(sum(classI), 1); -1*ones(sum(classJ), 1)]; % 训练 SVM 分类器 SVMModel.Classifiers{classifierIndex} = my_fitcsvm_soft(X_train_ij, Y_train_ij, C); % 记录当前分类器对应的类别对 SVMModel.ClassPairs(classifierIndex, :) = [uniqueClasses(i), uniqueClasses(j)]; classifierIndex = classifierIndex + 1; end end end function [wb] = my_fitcsvm(X, Y) % X: 特征矩阵 (n x d),其中 n 是样本数,d 是特征维度 % Y: 标签向量 (n x 1),取值为 +1 或 -1 load_plugin("optimization"); % 假设X和Y已经定义,如之前的示例 N = size(X, 1); % 数据点的数量 D = size(X,2); % 数据的维度 % 将w和b组合成一个向量,以便使用quadprog % 注意:这里我们将w放在前面,b放在最后 p = rand(D + 1, 1); % 初始猜测解(通常设为0) Aeq = []; % 没有等式约束 beq = []; % 构造二次规划的目标函数和线性不等式约束 H = eye(D+1); % Hessian矩阵(目标函数的二次项系数) f = zeros(D+1,1); % 目标函数的一次项系数(对于SVM原始问题,通常为负) % 线性不等式约束 Ax <= b % 对于每个数据点 (x_i, y_i),我们有 y_i * (w' * x_i + b) >= 1 A = [-Y.*X, -Y]; % 不等式约束的系数矩阵 b = -ones(N, 1); % 不等式约束的右侧向量 % 使用quadprog求解二次规划问题 options = optimoptions('quadprog','Algorithm','interior-point'); [w_b, fval, exitflag, output] = quadprog(H, f, A, b, Aeq, beq, [], [], p, options); % 分离出w和b w = w_b(1:D); b = w_b(D+1); wb = struct('w',w,'b',b); end function [wb] = my_fitcsvm_soft(X, Y, C) % X: 特征矩阵 (n x d),其中 n 是样本数,d 是特征维度 % Y: 标签向量 (n x 1),取值为 +1 或 -1 % C: 正则化参数,控制对错分样本的惩罚程度 % 假设X和Y已经定义,如之前的示例 N = size(X, 1); % 数据点的数量 D = size(X, 2); % 数据的维度 % 初始化松弛变量(slack variables) xi = zeros(N, 1); % 将w和b以及松弛变量组合成一个向量,以便使用quadprog p = zeros(D + 1 + N, 1); % 初始猜测解 % 构造二次规划的目标函数和线性不等式约束 H = [diag( [ones(1,D),0] ), zeros(D+1, N); zeros(N, D+1), zeros(N,N)]; % Hessian矩阵 f = [zeros(D+1, 1); C*ones(N, 1)]; % 目标函数的一次项系数 % 线性不等式约束 Ax <= b % 对于每个数据点 (x_i, y_i),我们有 y_i * (w' * x_i + b) >= 1 - xi_i A = [-Y.*X, -Y, diag( -ones(1,N) )]; % 不等式约束的系数矩阵 b = -ones(N, 1); % 不等式约束的右侧向量 Aeq = []; % 没有等式约束 beq = []; lb = [ -inf*ones(D+1,1); zeros(N,1)]; ub = inf*ones(D+1+N,1); % 使用quadprog求解二次规划问题 options = optimoptions('quadprog','Algorithm','interior-point'); [w_b_xi, fval, exitflag, output] = quadprog(H, f, A, b, Aeq, beq, lb, ub, p, options) % 分离出w, b和xi w = w_b_xi(1:D); b = w_b_xi(D+1); xi = w_b_xi(D+2:end); % 构造并返回结构体wb,包含w和b wb = struct('w', w, 'b', b); end function [label, score] = predict(SVMModel, X_test) % SVMModel: 训练好的多类SVM模型,由my_fitcecoc函数返回 % X_test: 测试集特征数据 % label: 预测的类别标签 % score: 预测的得分(可选,这里简化为投票得分) % 初始化预测标签和得分 [numTest, ~] = size(X_test); numClasses = length(SVMModel.Classifiers); label = zeros(numTest, 1); score = zeros(numTest, numClasses); % 对每个测试样本进行预测 for i = 1:numTest sample = X_test(i, :); votes = zeros(1, numClasses+1); % 使用每个SVM分类器进行预测,并进行投票 for j = 1:numClasses svmModel = SVMModel.Classifiers{j}; [~, ~, ~, output] = predictOneVsAll(svmModel, sample); if output == 1 classIdx1 = SVMModel.ClassPairs(j, 1)+1; votes(classIdx1) = votes(classIdx1) + 1; else classIdx2 = SVMModel.ClassPairs(j, 2)+1; votes(classIdx2) = votes(classIdx2) + 1; end end % 找到得票最多的类别作为预测标签 [~, maxVoteIdx] = max(votes); label(i) = maxVoteIdx; score(i, maxVoteIdx) = votes(maxVoteIdx); % 将最高票数作为得分 end end function [predictedLabel, predictedScore, decisionValues, output] = predictOneVsAll(svmModel, sample) % 使用单个SVM模型进行预测 % 这里简化为直接计算决策函数的值,实际应用中可能需要更复杂的处理 w = svmModel.w; b = svmModel.b; decisionValues = dot(w, sample) + b; if decisionValues >= 0 predictedLabel = 1; % 属于正类 else predictedLabel = -1; % 属于负类 end predictedScore = abs(decisionValues); % 决策函数的绝对值作为得分 output = predictedLabel; % 用于投票的输出 end
---
软间隔SVM通过引入松弛变量(slack variables)$\xi_i$来允许一些样本被错误分类,从而处理非线性可分的数据。这些松弛变量衡量了每个样本违反约束条件的程度。软间隔SVM的优化问题可以写成以下形式:
$$\min_{\mathbf{w}, b, \xi} \frac{1}{2} ||\mathbf{w}||^2 + C \sum_{i=1}^{m} \xi_i$$
约束条件为:
$$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad i = 1, \ldots, m$$ $$\xi_i \geq 0, \quad i = 1, \ldots, m$$
其中,$\mathbf{w}$是权重向量,$b$是偏置项,$C$是一个正则化参数,用于控制对错分样本的惩罚程度。$\xi_i$是第$i$个样本的松弛变量。
这个优化问题仍然是一个二次规划问题,但目标函数和约束条件都包含了松弛变量。当数据不是完全线性可分时,通过允许一些样本被错误分类(即$\xi_i > 0$),优化问题可以找到一个更好的分类超平面。
现在,我们来解释如何克服可行域为空集的问题。在硬间隔SVM(即不允许任何错误分类的SVM)中,如果数据不是线性可分的,那么约束条件$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1$对于所有样本可能都无法同时满足,导致可行域为空集。
然而,在软间隔SVM中,由于引入了松弛变量$\xi_i$,约束条件变为了$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i$。这意味着即使某些样本不能满足原始的硬间隔约束(即$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1$),但只要它们满足新的软间隔约束(即$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i$),并且松弛变量$\xi_i$足够小,那么这些样本就不会对优化问题的解产生太大的影响。
因此,通过引入松弛变量和软间隔约束,软间隔SVM能够处理非线性可分的数据,并找到一个尽可能将数据正确分类的分类超平面。在实际应用中,可以使用二次规划求解器(如SMO算法)来求解这个优化问题。