CSK与KCF算法推导（一）

从2015年João F. Henriques等人提出KCF以来，网上已经有了很多相关的科普，也有博主给出了非常详细的推导，但如果想要真正理解我觉得还是得自己推导一遍，所以我在这里准备写一下自己学习过程中的一些想法。
本文是CSK与KCF算法推导的第一篇，主要介绍DFT、相关运算和循环卷积相关的内容。
SpringerLink上的ECCV2012里的CSK的论文里公式（4）落了一个共轭，下面链接里的CSK论文没有问题。知乎上有人说作者的论文中推导有问题，我推导了之后也发现确实是有那个问题，但无伤大雅。

2012 - CSK: Exploiting the Circulant Structure of Tracking-by-detection with Kernels
2015 - KCF: High-Speed Tracking withKernelized Correlation Filters
2015 - 作者博士论文: Circulant Structures in Computer Vsion
作者Github源码

上面的这些链接是我的主要参考资料。

向量内积

在二维平面中，两个向量如果长度相同，它们之间的相似程度可以用它们之间的夹角来衡量。 $cos(\theta)$ 越接近1，说明两个向量越相似。如果两个向量 $\vec a$ , $\vec b$ 在直角坐标系下用坐标表示为 $(x_1, y_1)$ 和 $(x_2, y_2)$ ，那么它们之间的夹角余弦可以这样计算：

$cos(\theta)=\frac{\vec a\cdot \vec b}{|\vec a||\vec b|}=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\sqrt{x_2^2+y_2^2} }$

前一个等号是通过余弦定理得到的。

$|\vec a - \vec b|^2 = |\vec a|^2+|\vec b|^2-2|\vec a||\vec b|cos(\theta)$

化简上面这个式子就可以得到结论。那么为什么两个向量相乘是对应的坐标相乘呢？因为两个向量的坐标是在一组正交基为基底表示的。 $\vec a = x_1e_1+y_1e_2$ ，其中，{ $e_1,e_2$ }是一组单位正交基。

$\vec a \cdot \vec b=(x_1e_1+y_1e_2)(x_2e_1+y_2e_2)=x_1x_2+y_1y_2$

从上面的例子中可以看到，向量内积在两个向量的长度相同的前提下能够反映两个向量的夹角大小。

向量范数

向量范数被用来衡量向量的长度。严格的数学定义我就不写了，我感觉只要能够知道L-p范数的形式就行，L-p范数用 $||\cdot||_p$ 表示，根据p的不同，它表示的含义也不同。

$||\cdot||_p:=\left(\sum\limits_{i = 1}^{i = n} x_i^p\right)^{\frac{1}{p} }$

$L^2$ 范数就相当于求向量的模长，是向量自己与自己的内积再开根号。 $L^2$ 范数 $||\cdot||_2$ 也通常省略右下角的“2”，所以论文中经常看到的 $||\cdot||^2$ 表示的实际上是向量自己和自己的内积。

Gram矩阵与协方差矩阵

Gram矩阵和协方差矩阵都可以用 $X^HX$ 或者 $XX^H$ 表示，这两种表示方法取决于样本向量的摆放方式。如果样本是竖着排列的，那么 $X^HX$ 才是Gram矩阵或协方差矩阵；如果样本是横着排列的，那么 $XX^H$ 才是。

计算得到的方阵中，对角线上元素是每个样本向量自己和自己内积的结果；非对角线元素是不同样本向量之间的内积。
协方差矩阵是Gram矩阵的特殊形式。协方差矩阵要求样本向量的期望是零向量。这样一来对角线的值就是样本各个维度的方差；非对角线的值能够衡量样本各个维度之间的相关性。

DFT与DFT的矩阵表示

DFT的本质还是DFS，我觉得DFT只是DFS的一种表示方式。我们处理的序列是有限长的，可以把时域上的序列周期延拓，那样就可以用DFS处理。DFS的主值区间的系数就是DFT的结果。所以在做DFT分析的时候一定要注意序列隐含的周期性。
与DFT类似的还有DTFT，它是离散非周期时域信号到周期连续频谱的变换，这个在采样率变换的时候经常会用到。
DFT分析式：

$\hat x[k]=\sum \limits_{n=0}^{N-1}x[n]W_N^{kn}$

DFT合成式（IDFT）：

$x[n]=\frac{1}{N}\sum \limits_{k=0}^{N-1}\hat x[k]W_N^{-kn}$

上面的式子中 $\hat x[k]$ 表示DFT之后频域的序列， $x[n]$ 表示时域的序列， $W_N^{kn}$ 是“旋转因子”， $W_N=e^{-j2\pi/N}$ ，因为 $W_N$ 的模长始终是1，它的幂次始终落在复平面的单位圆上。把DFT和IDFT写成矩阵的形式可以便于后面分析。

$\hat x[k]= {\begin{bmatrix} 1&1&1&1& \cdots &1\\ 1&W_N^1&W_N^2&W_N^3& \cdots &W_N^{N-1}\\ 1&W_N^2&W_N^4&W_N^6& \cdots &W_N^{2(N-1)}\\ 1&W_N^3&W_N^6&W_N^9& \cdots &W_N^{3(N-1)}\\ \vdots & \vdots & \vdots & \vdots& \ddots & \vdots \\ 1&W_N^{N-1}&W_N^{2(N-1)}&W_N^{3(N-1)}& \cdots &W_N^{(N-1)(N-1)} \end{bmatrix} } {\begin{bmatrix} x[0]\\ x[1]\\ x[2]\\ x[3]\\ \vdots\\ x[N-1] \end{bmatrix} } = Fx[n]$

$F$ 矩阵可以看作是由傅立叶变换的一组正交基组成的， $F$ 中的每一行是一个基向量。简单计算就可以得到，基向量只有自己和自己的内积才不为0，不同基向量之间的内积为0，因为在复平面单位圆上均匀间隔分布的向量求和之后就相互抵消了。
DFT计算，每行基向量都分别和 $x[n]$ 内积，得到 $\hat x[k]$ 。内积可以理解为一个向量往另一个向量做投影，这里也就直观地展示了 $\hat x[k]$ 是 $x[n]$ 往一组正交基上做投影得到的结果。

DFT矩阵的性质

DFT矩阵 $F$ 有非常好的性质，首先从结构上就可以看出来，它是一个对称矩阵， $F^T=F$ ， $F^H=F^*$ 。然后，它的Gram矩阵几乎是一个单位阵。

$FF^H={\begin{bmatrix} s&0&0& \cdots &0\\ 0& s& 0 & \cdots &0\\ 0 & 0& s& \cdots & 0\\ \vdots & \vdots& \vdots& \ddots& \vdots\\ 0& 0& 0& \cdots& s\\ \end{bmatrix} }=s\boldsymbol I_s$

前面分析的时候， $x[n]$ 和 $\hat x[k]$ 的维度均为N，但考虑到大写的N容易和矩阵混淆，所以这里沿用了作者博士论文中的表示方式，改用 $s$ 来表示。上式左乘 $F^{-1}$ 之后可以求出：

$F^{-1}=\frac{1}{s}F^H$

$F^{-1}$ 自然就表示离散傅立叶逆变换，因为 $x[n]=F^{-1}Fx[n]$ ，直接通过合成式来写也能得到一样的结果。

酉矩阵（Unitary Matrix）

$F$ 矩阵有个重要性质就是能跟酉矩阵建立起联系。酉矩阵满足 $UU^H=U^HU=I$ ，对上面的性质做简单的变换可以得到：

${\left (\frac{1}{\sqrt s}F\right )}\left( \frac{1}{\sqrt s}F^H\right )=I_s$

所以 $\frac{1}{\sqrt s}F$ 是一个酉矩阵，酉矩阵不改变 $L^2$ 范数，也就是不改变向量自己和自己的内积。令 $U=\frac{1}{\sqrt s}F$ ，由于 $F$ 是对称的，这个 $U$ 还满足 $U^H=U^*$ ，后文提到的 $U$ 都特指这个 $\frac{1}{\sqrt s}F$ 。

$\left \{ \begin {matrix} ||x||^2=x^Hx\\ ||Ux||^2=x^HU^HUx=x^Hx \end {matrix} \right .$

这是酉矩阵都具有的性质，除此之外还可以根据这一关系推导出帕斯瓦尔定理，信号在时频域的能量相等。

$||x||^2=||Ux||^2=||\frac{1}{\sqrt s}Fx||^2=\frac{1}{s}||\hat x||^2$

循环卷积

频域乘积等于时域卷积。DFT也有这一性质，考虑到DFT隐含的周期性，循环卷积需要从DFS的周期卷积开始讲起。
周期卷积是将两个周期均为 $s$ 的周期序列进行卷积，求和只在一个周期的序列长度上进行。设 $\tilde x_1[n]$ 和 $\tilde x_2[n]$ 是两个周期为 $s$ 的序列，它们的DFS系数分别为 $\tilde X_1[k]$ 和 $\tilde X_2[k]$ 。 $\tilde x_1[n]$ 和 $\tilde x_2[n]$ 的周期卷积为：

$\tilde x_3[n]=\sum\limits_{m = 0}^{s - 1} { { {\tilde x}_1}[m]{ {\tilde x}_2}[n - m]}$

${\tilde X_3}[k]$ 是 $\tilde x_3$ 的离散傅立叶级数表示。

${\tilde X_3}[k] = \sum \limits_{n = 0}^{s - 1} \left( {\sum\limits_{m = 0}^{s - 1} { { {\tilde x}_1}[m]{ {\tilde x}_2}[n - m]} } \right)W_N^{kn} = \sum\limits_{m = 0}^{s - 1} { { {\tilde x}_1}[m]\sum\limits_{n = 0}^{s - 1} { { {\tilde x}_2}[n - m]W_N^{k(n - m)}W_N^{km} } }$

$= \sum\limits_{m = 0}^{s - 1} { { {\tilde x}_1}[m]W_N^{km} } { {\tilde X}_2}[k] = { {\tilde X}_1}[k]{ {\tilde X}_2}[k]$

先周期卷积再计算DFS可以通过交换求和顺序，来推导出时域卷积等于频域乘积的结论。回到DFT上，循环卷积实际上和周期卷积是同样的数值计算，只是换一种说法而已。
只有循环卷积才能用DFT来加速运算，如果是做线性卷积，那么需要对循环卷积的长度做调整，然后才能用DFT，因为循环卷积相当于是一种有混叠的线性卷积。不过好在论文里要用的都是循环卷积，所以可以直接用DFT加速。