论文分享_07_06

When the Differences in Frequency Domain are Compensated: Understanding and Defeating Modulated Replay Attacks on Automatic Speech Recognition.

        自动语音识别(ASR,Automatic speech recognition)系统已广泛应用于现代智能设备中,为用户提供方便多样的语音控制服务。研究发现的最强大、最实用的ASR系统攻击方法之一是音频重放攻击。它收集预先录制的语音样本进行回放,从而绕过语音验证并欺骗系统。例如,简单地重放所有者预先录制的语音命令来进行设备解锁。目前防御音频重放攻击的主流方法是检查频域的可疑特征,如:倒谱系数、高频子带的幅频特性、低频子带的能量特征、调制特性等。

一、背景介绍

Signal Frequency Spectrum 信号频谱

傅立叶分析将时域信号x(t)分解为不同频率的多个正弦信号之和,频谱是振幅谱相位谱的组合。

Frequency Response 频率响应

输出系统响应刺激信号的频率和相位谱。输出与输入振幅之比(即信号增益)随刺激信号的输入频率而变化,称为振幅响应相位响应表示通过系统的不同频率信号的相移。

二、调制重放攻击

1、组件影响分析

录音设备的非线性和环境噪声、A/D转换器的采样率和D/A转换器的采样率对音频信号的影响很小。对回放信号影响最大的是回放设备。主要是由于扬声器的声学特性与人的发声器官的不同,出现了人类无法产生的20-60赫兹噪声低频响应失真。所以即使真实音频和重放音频具有相同的基频和谐波频率,各频率分量的功率分布不同导致它们的音色也不同。

2、调制处理器

为了使重放音频与真实音频幅度谱相同,在AD和DA转换之间添加调制处理器,补偿幅度谱失真,使调制后的重放过程类似全通滤波器。

  1. 使用FFT将音频从时域变换到频域,并只处理幅度谱。
  2. 基于说话人特性估计逆滤波器,将幅度频谱转换为补偿频谱。
  3. iFFT将重构信号从频域转换到时域,得到时域调制音频

3、逆滤波处理

逆滤波器和扬声器的振幅响应应该互补,所以这两个传递函数的组合是全通滤波器,为常数函数。

  1. 单频信号为输入,改变输入频率,得到整个语音频率范围内的幅度响应
  2. 对离散响应曲线三次样条插值曲线拟合得到连续响应函数H(f)。使用 ∆f 采样,得到数字响应函数H(k)。
  3. 对离散的H(k)求逆滤波器满足:H(k)·H^(-1)(k)=C。

三、防御:双域防御DualGuard

1、频域防御

针对经典重放音频与真实音频的音色不同。

数学描述:不同频率分量的功率分布。

  • 信号幅度谱K(n)
  • 信号功率谱K^2(n)
  • 功率谱密度D(n)=K^2(n)/ΣK^2(i)
  • 累积密度函数(CDF)A(n)

真实音频和重放音频的功率谱CDF有很大的不同。用CDF曲线下的区域AUC来区分经典的重放音频。

  • AUC=ΣnA(n)/N

AUC小于特定阈值a∈(0,1),判断为经典重放攻击。

2、时域防御

振铃伪影是调制重放音频的独特时域特征。

数学描述:局部极值比LER,局部极值量与信号总长度的比值。

  1. 极值:采样点yi是[yi−r,yi+r]的最大或最小值。
  2. 局部极值比与窗参数r有关。
  3. r小时,LER计算的粒度细,反映小的振铃伪影;r大时,LER显示信号的整体变化趋势。

小窗口下调制重放音频由于振铃伪影有小杂散振荡,局部极值数明显多于真实音频。

通过不同r∈[1,rmax]的LER,训练SVM分类器检测局部极值模式(LEP),识别调制重放攻击。

四、结果与评价

采集 TascamDR-40数字录音机96 kHz

扬声器 iphonex、ipadpro、Mi Phone 4、googlenexus5、Bose Soundlink Micro和三星UN65H6203智能电视

数据处理 MATLAB

语音交互平台 ReSpaCeReCK2 V2

1、调制重放攻击的有效性

L2度量音频的归一化频谱分布的距离。下图分别是原音频、直接重放音频和调制重放音频的频谱分布。

上表中对比8种流行的检测方法,调制重放攻击可以绕过所有防御。

2、DualGuard的有效性

DualGuard对调制重放攻击的检测精度总是超过97%。假阳性率在8%以下。

3、DualGuard的鲁棒性

ASR采样间隔越小,检测粒度越细,检测精度越高。44.1 kHz是生活中常见电子设备的最小采样率,DualGuard仍能达到85%左右的检测精度。

信噪比60db时检测精度基本保持不变,40db平均下降3.2%。影响主要体现在时域防御上,噪声功率的增加使局部极值检测不精确。