Learning Representations by Maximizing Mutual Information Across Views

时间： 2019-06

链接： https://arxiv.org/abs/1906.00910

Abstract

本文提出了一种基于最大化共享上下文（context）的多个视图（views）之间提取的特征的互信息（mutual information）的自监督表示学习方法。例如，可以通过从不同位置（如场景中的摄像机位置）和通过不同模态（如触觉、听觉或视觉）观察局部时空上下文来生成多个视图。或者，ImageNet 图像可以提供一个上下文，从中可以通过重复应用数据增强来生成多个视图。最大化从这些视图中提取的特征之间的互信息，需要捕获影响多个视图的高级因素（例如，某些对象的存在或某些事件的发生）。遵循这种方法，作者开发了一个模型（AMDIM），该模型学习到的图像表示在所考虑的任务上显着优于先前的方法。最值得注意的是，使用自监督学习，该模型学习到的表示在使用标准线性评估时在 ImageNet 上达到了 68.1% 的准确率。这比先前的结果高出 12% 以上，比同期的结果高出 7%。当将模型扩展到使用基于混合的表示时，分割行为作为一种自然的副作用出现。

1 Introduction

从无标签数据中学习有用的表示是一个具有挑战性的问题。本文提出了一种自监督表示学习方法，该方法基于最大化从共享上下文的多个视图中提取的特征之间的互信息。这类似于人类学习表示由共享原因产生的观察结果（例如，烘焙的景象、气味和声音），这是由预测其他相关观察结果（例如，饼干的味道）的愿望驱动的。关键思想是，最大化从共享上下文的多个视图中提取的特征之间的互信息，迫使特征捕获广泛影响共享上下文的高级因素。

作者引入了一种基于局部深度互信息最大化（Local Deep InfoMax, DIM）的模型。该模型在三个关键方面扩展了 Local DIM：
1. 它预测每个输入的独立增强版本之间的特征。
2. 它同时跨多个尺度（scales）预测特征。
3. 它使用了更强大的编码器。

自监督学习依赖于程序生成的监督学习问题。本文的方法通过最大化从共享上下文的多个视图中提取的特征之间的互信息来进行自监督学习。这与 Contrastive Predictive Coding (CPC) 等工作密切相关，使用了 CPC 中的对比界限（contrastive bound）。

3 Method Description

本文提出的模型称为增强多尺度深度互信息最大化（Augmented Multiscale DIM, AMDIM）。

3.1 Local DIM

Local DIM 最大化由卷积编码器 $f$ 生成的全局特征 $f_1(x)$ 与编码器中间层生成的局部特征 $\{f_7(x)_{ij}: \forall i,j\}$ 之间的互信息。下标 $d \in \{1,7\}$ 表示来自空间维度为 $d \times d$ 的顶层编码器层的特征。

我们可以通过祖先采样构建 (antecedent, consequent) 特征对的分布 $p(f_1(x), f_7(x)_{ij})$：
1. 采样输入 $x \sim \mathcal{D}$。
2. 采样空间索引 $i \sim u(i)$ 和 $j \sim u(j)$。
3. 计算特征 $f_1(x)$ 和 $f_7(x)_{ij}$。

3.2 Noise-Contrastive Estimation

Local DIM 使用基于噪声对比估计（NCE）的互信息界限。通过最小化以下损失来最大化 $I(f_1(x); f_7(x)_{ij})$ 的 NCE 下界：

$$ \mathbb{E}_{(f_1(x),f_7(x)_{ij})} \left[ \mathbb{E}_{N_7} \left[ \mathcal{L}_{\Phi}(f_1(x),f_7(x)_{ij},N_7) \right] \right]. \tag{1} $$

其中正样本对 $(f_1(x), f_7(x)_{ij})$ 从联合分布中抽取，$N_7$ 是负样本集。损失函数 $\mathcal{L}_{\Phi}$ 定义为：

$$ \mathcal{L}_{\Phi}(f_1, f_7, N_7) = -\log \frac{\exp(\Phi(f_1, f_7))}{\sum_{\tilde{f}_7 \in N_7 \cup \{f_7\}} \exp(\Phi(f_1, \tilde{f}_7))}, \tag{2} $$

匹配分数 $\Phi$ 定义为简单的点积：

$$ \Phi(f_1(x), f_7(x)_{ij}) \triangleq \phi_1(f_1(x))^{\top} \phi_7(f_7(x)_{ij}). \tag{3} $$

3.4 Data Augmentation

AMDIM 通过最大化每个输入的增强视图之间的互信息来扩展 Local DIM。构建增强特征分布 $p_{\mathcal{A}}(f_1(x^1), f_7(x^2)_{ij})$：
1. 采样输入 $x \sim \mathcal{D}$。
2. 采样增强图像 $x^1 \sim \mathcal{A}(x)$ 和 $x^2 \sim \mathcal{A}(x)$。
3. 采样空间索引 $i, j$。
4. 计算特征 $f_1(x^1)$ 和 $f_7(x^2)_{ij}$。

目标函数变为：

$$ \mathbb{E}_{(f_1(x^1), f_7(x^2)_{ij})} \left[ \mathbb{E}_{N_7} \left[ \mathcal{L}_{\Phi}(f_1(x^1), f_7(x^2)_{ij}, N_7) \right] \right], \tag{4} $$

Figure 1: (a) Local DIM with predictions across views. (b) Augmented Multiscale DIM. (c) Efficient NCE algorithm and Encoder architecture.

3.5 Multiscale Mutual Information

AMDIM 进一步扩展为最大化多个特征尺度之间的互信息。定义 $n$-to-$m$ infomax 代价：

$$ \mathbb{E}_{(f_n(x^1)_{ij}, f_m(x^2)_{kl})} \left[ \mathbb{E}_{N_m} \left[ \mathcal{L}_{\Phi}(f_n(x^1)_{ij}, f_m(x^2)_{kl}, N_m) \right] \right], \tag{5} $$

实验中最大化 1-to-5, 1-to-7, 和 5-to-5 的互信息。

3.7 Mixture-Based Representations

扩展模型以使用基于混合的特征。对于每个前件特征 $f_1$，计算一组混合特征 $\{f_1^1,...,f_1^k\}$。最大化以下目标：

$$ \underset{f,q}{\text{maximize}} \mathbb{E}_{(x^1,x^2)} \left[ \frac{1}{n_c} \sum_{i=1}^{n_c} \sum_{j=1}^{k} \left( q(f_1^j(x^1) | f_7^i(x^2)) \, s_{nce}(f_1^j(x^1), f_7^i(x^2)) + \alpha H(q) \right) \right]. \tag{6} $$

最优分布 $q$ 为：

$$ q(f_1^j|f_7^i) = \frac{\exp(\tau s_{nce}(f_1^j, f_7^i))}{\sum_{j'} \exp(\tau s_{nce}(f_1^{j'}, f_7^i))},\tag{7} $$

4 Experiments

模型在 CIFAR10, CIFAR100, STL10, ImageNet, 和 Places205 上进行了评估。
* STL10: 达到了超过 94% 的准确率（线性评估）。
* ImageNet: 达到了 68.1% 的准确率（线性评估），超过了之前的最佳结果 12%。
* Places205: 使用在 ImageNet 上学习的表示达到了 55% 的准确率。

Figure 2: Visualizing behaviour of AMDIM. (a, b) Retrieval based on similarity. (c, d) Visualization of data augmentation and feature similarity. (e-h) Mixture components visualization on STL10.

5 Discussion

本文提出了 AMDIM，一种基于最大化多个视图之间互信息的自监督学习方法。该方法在多个基准测试中取得了优异的成绩，并且计算上是可行的。未来的工作包括改进架构、扩展到其他领域（如视频、音频）以及进一步研究混合表示。