03 Mar 2021

Discussion meeting

This is a summary of the group meeting on 03 March 2021

Stealing Machine Learning Models via Prediction APIs

文章首次提出模型生成攻击(model extraction attack),即攻击者对于机器学习模型具有一定的黑盒途径,不了解模型的具体参数大小,但是可以通过预测API掌握针对给定输入后模型的输出(label,confidence level即分类为各个label的概率等等),根据输入输出关系推导出模型参数大小从而生成模型,并达到在特定输入集上准确度与原模型极为接近。该攻击在偷取当今ML-as-a-service的付费服务内容,由生成白盒模型进一步引发对训练集数据的攻击(model inversion),以及减弱模型预测作用(如偷取训练Spam的模型以采取措施避免被分类成Spam,叫做model evasion)等方面发挥作用。

文章在几个常见算法如二分类/多标签分类的logistic regression,SVM,简单神经网络,判决树等都达到了成功攻击的效果。具体方法是根据label与confidence level求解线性方程组(二分类logistic regression能达到100%准确度),非线性则化为优化问题用梯度下降等方法求解。文章也讨论只给label不给confidence的攻击情况,解决关键是用线搜索寻找label的边界值,query数量明显增加。当生成模型后,作为白盒进行inversion attack的效率比直接从黑盒inversion attack的效率更高,query数、时间大量减少。实验在Amazon、BigML等常见服务网站上进行攻击,取得不错效果。同时能学到的不止是模型,还有feature extraction的过程,针对特征为numerical或categorical,采用线搜索的方法或缺省部分输入的方法,以推断出特征生成过程。

几个思路:

  1. 弄清楚神经网络inversion attack,即通过黑白盒攻击推导出训练集数据的方式;
  2. 与差分隐私dp结合,有无防止相关inversion attack的工作,dp在神经网络的应用;
  3. 能否结合已有的Model extraction生成神经网络模型后,评估此网络的dp隐私保护作用,与原模型比较;