21 Dec 2017
Paper Notes: The Case for Learned Index Structure

前几周看了Jeff Dean在Nips17上演讲的Slides，其中提到一些有趣的工作，包括最近在网络媒体上出现次数比较多的这篇文章The Case for Learned Index Structure。周末仔细读了一遍，来分享一下思路和具体细节。

有没有想过用机器学习的方式解决系统设计中的问题？这是个蛮有趣的命题，它的难点在哪儿呢：系统里的算法或数据结构往往是确定性的，显式的（我们清楚地知道输入和输出间的映射关系），而机器学习中的模型是依赖于输入数据训练出来的（下文会看到事实上数据结构的建立也是依赖于数据的），并且存在一定的误差（而很多时候系统模块有严格限制条件）。虽然在系统设计时应该考虑所有（最坏）数据的情况，但是在做系统优化的时候，通常会通过一些特殊性来对系统做特定的设计。这里的特殊性包括数据特殊性和使用特殊性。数据特殊，比如对给定范围且没有重复的数组排序，可以直接用bitmap。使用特殊，例如由于业务场景，读写比例相差很多（每周只更新一次），实现某种数据结构的时候可以把读实现成O(1)，写实现成O(n)，而标准实现往往是在保证均摊最优情况下让各操作复杂度尽量接近，因为假设各操作使用频率相近。而大多数时候只可能知道使用特殊性，却很难知道数据的特殊性。这里很自然的思路就是通过数据训练出一个机器学习的模型（由于多层神经网络的泛化能力这里考虑神经网络模型）去encode这种特殊性（如果存在），然后对比看看用这个模型是不是能有些优势，如缩短计算映射的时间，减少存储等等。当然，如果这种映射关系能被人理解，也可以更好地去实现系统模块。

这篇paper就试图用这个想法去优化索引 (Index) 问题。首先，索引的过程本身就是模型：Range Index索引可以看做是从给定key到一个排序数组position的预测过程，Point Index索引可以看做是从给定key到一个未排序数组的position的预测过程，Existence Index索引可以看做是预测一个给定key是否存在（0或1）。这样一来，索引系统是可替换的，我们可以直接用ML模型去替换现有的索引模块实现。其次，数据特殊性对索引设计的影响明显。假设用于Range Index的key的范围是1-100M，那么可以用特殊的hash函数（直接把key本身当成是offset）去做索引而不必再用B-Tree。然而，用ML模型去做索引也可能存在一些问题：

- Semantic Guarantees. 通过数据训练得到机器学习的模型是存在误差的，但是我们设计的索引经常需要满足严格的限制条件。举例来说，bloom-filter的优势之一是可能会有把不存在的错判成存在（False Positive）但绝不会把存在的错判成不存在（False Negative）。

- Overfitting. 如果避免模型的overfitting？换句话说，如果当前训练的模型只能memorize当前数据形态而并不能generalize新的数据，该怎么办？

- No Specialization. 如果数据并没有任何特殊性，如完全随机或者不能被我们的设计模型架构所归纳，该如何处理？另一种情况是，新的数据破坏了之前模型归纳出的特殊性，比如新的数据来源于一个新的或者是变化了的distribution。

- Evaluate Efficiency. 模型的inference过程相比显式索引数据结构的计算更昂贵。

顺着上面的思路，带着这四个问题，具体来探索一下数据库系统中的三类索引：Range Index ，Point Index和Existence Index。

Range Index. 数据库系统通常使用B-Tree或B+-Tree来实现range index。查询时给定一个key（或一些定义range的keys），B-Tree会索引到包含该key的对应范围的叶子节点，在叶子节点内对key进行搜索。如果该key在索引中存在，就会得到其对应的position。这里position代表指向逻辑页的一个offset或pointer 。一般在一个逻辑页内的records会用一个key来index。如图所示，输入是一个key，输出是对应要查询record的position的区间[pos, pos + pagesize]。

index1

有趣的是，在机器学习的观点下，B-Tree索引实际上可以看成是一个regression tree模型，这个模型（B-Tree）的建立过程也是依赖数据的，只不过它不是通过梯度下降的方式得到的，而是通过预先定义的法则（insert函数）。如下图2，对于输入x，模型预测出一个pospred，若区间pospred - minerr, pospred + maxerr中包含这个record，那么预测准确，其中minerr的期望是0（这时pos就是record的位置），maxerr的期望是pagesize（这时record的位置在pos+pagesize）。那么minerr和maxerr在模型中具体如何计算呢？对于训练数据（现有的（key，pos）），计算出每一组pospred和和pos的正负差，然后取最大的正差就是maxerr，负差就是minerr。这里并不需要考虑不在索引中的key，因为B-Tree本身也不能保证在新的key insert后搜索出来的pos和insert前的pos的差距在 $ [0, pagesize] $（insert前B-Tree根本找不到这个key！）。

index2

用图2的模型代替图1的B-Tree能否学到数据特殊性从而优化查询过程呢？假设有1M个key（取值从1M到2M），那么可以直接用一个等价关系（线性模型）代替B-Tree，也就能把log(n)的复杂度减少成常数复杂度。同样的，如果(key, pos)是一个抛物线，那么神经网络模型也可以通过常数复杂度进行预测。考虑到神经网络的泛化能力，如果数据具有特殊性，那么用模型代替B-Tree就能减少查询复杂度。具体B-Tree复杂度和神经网络模型复杂度的时间分析可以参考原文2.1。

更进一步，还可以从概率的角度来思考range index这个问题。Range index实际上是描述一个数据点到一个有序数组的函数关系，也就是说这个函数关系"模拟"出了数据的累计分布函数（CDF）。因此，可以这么来定义这个函数：$ p = CDF(key) * N$ ，其中p是position，CDF(x)是 $ Prob(X <= key)$，N是所有的key的总数。CDF函数可以简单理解成一种描述概率函数的wrapper函数，它描述随机变量X在小于一个key条件下的概率和。有了CDF，就能很容易地描述一个区间X的概率和：$ CDF(key2) - CDF(key1) = Prob(key1 <= X <= key2)$，它能够帮助进一步深入地研究概率分布理论。这么来理解此处的"模拟"就明白了：假设我们把pos和key的函数关系写成$p = F(key) * N$，其中F是一个任意函数。那么F满足以下性质： $$设p1 = F(key1) * N和 p2 = F(key2) * N$$ $$p1 - p2 = (F(key1) - F(key2)) * N = F(key1 - key2) * N$$ 最后这个等式由range index满足，因为range index映射到的pos是一个在有序数列里。而巧合的是累计分布函数（CDF）也满足这个性质。虽然满足这个性质的函数不一定要是CDF，但是如果能把一个更强假设的函数（CDF）学习出来，那么一定也满足range index的功能！使用这个更强假设（CDF）的好处是：拟合数据的CDF函数是一个active的研究方向，可以受益于已有的研究成果。

基于这个想法，让我们先抛开拟合CDF，尝试用一个简单的两层全连接神经网络（每层32个neurons + ReLU acitivation）训练了一个200M的web-server log records，x是timestamp，label是对应B-Tree索引到的position。并测试了用训练得到的模型的预测时间，latency大约是80000 ns，throughput是每秒1250次预测。很遗憾，这比不用索引遍历还要慢。然而B-Tree的索引时间大概是300 ns。那么问题出在哪儿呢？首先，这里用了Tensorflow做训练和预测，Tensorflow是位较大规模的神经网络做的优化，但并不适用于这里的小网络，并且python层因为用swig做胶水层会造成一定的latency开销。其次，机器学习中的树模型（比如B-Tree模型）能够更好地记住数据特征，因为它能不断的split data space。而这里用的神经网络模型能够很快地学习出一个做地还不错的模型，但是很难做到局部数据上的准确（这里可以用overfitting来理解）。为了保证精度，我们要train更多的epoch，并且使用更深的网络来训练。这里还有一个原因导致需要用更深的网络来尽量达到树模型的精度：训练目标不仅要降低每个预测position和label间误差的平均，更重要的是要让训练出来模型的minerr和maxerr尽量小，也就是让预测出来的position在真正的page内（注意这里并没有把minerr和maxerr加到优化函数里，而只是假定预测精度越小，这两err越小）。同时，B-Tree是cache-efficient的：能把很少的上层节点放入cache。而对于全连接神经网络模型，要把模型都加载到内存，并且权重不是稀疏的！

为了尝试解决以上的问题，文中首先提出了Learning Index Framework（LIF）。LIF就是一个索引优化系统，给定一套索引数据，LIF自动生成多组超参数，并且自动地优化并测试，找出最优的一组配置。训练时，LIF任然用了TensorFlow，而在inference时LIF根据训练打包的模型，用code-generation（用特定的模型结构减少运行时开销，比如剪枝、去掉多余的if-else、direct memory access等，这里不展开。如果对数据库系统了解的同学应该比较熟悉）自动生成了相应C++的程序，这里实现具体的细节可以参考21。这样，可以把inference的开销减少到30 ns。

Recursive Model Indexes(RMI). 既然LIF可以在很短的时间里完成预测，我们就可以考虑用更复杂的模型来尝试替换B-Tree索引了。上文提到，单个全连接网络并不能达到很好地准确度。事实上，如下图所示，全连接神经网络模型虽然可以从整体上较好地拟合出整体数据分布，但由于每个数据个体本身的随机性，却很难同时在局部也准确拟合出个体数据，文中把这个问题称作the last-mile accuracy问题。换句话说，对于一个100M条记录的数据集，我们可以先用单个简单的模型把误差控制在10K并不困难，然后对于局部数据，再用另外的模型进行预测把误差从10K降低到100。因此这里的思路就是用多模型来解决the last-mile accuracy问题，这里的多模型的思路并不是boosting，而是来源于混合专家网络（下文用MoE，可以参考51)。

index3

MoE是90年代初提出的模型，下面先来介绍一下MoE模型的思想。真实情况下，数据往往来源于不同的概率分布，即使是单个概率分布也会随着时间变化。举个例子，比如股票价格，很难用一个连续的函数拟合分段函数（每天或每小时的变化曲线），也很难用一个分段函数去拟合一个连续函数（每月或每年整体的变化趋势曲线）。而如同上文所分析的，真实的数据分布函数往往是介于两者之间的：总体上满足一个变化趋势，但是局部却是分段函数（每天数据的分段函数可能都不同），因为这时随机因素更显著。MoE的想法是能否把数据partition，然后对于不同的数据，用不同的模型（称Expert）来进行拟合。这里需要特别指出的是，对数据本身的特征做partition并不一定能解决问题，而是应该根据不同的x和y之间的关系来对x做partition。

index4

比如在上图的例子中，8个数据点来自两个抛物线，如果只根据数据本身做partition（右侧黄线），并不能很好地把数据partition在两个抛物线上，而左边的蓝线才是一个更好的parition。所以MoE的想法就是把x和y之间的关系定义到目标优化函数中，然后训练出不同的Expert来拟合不同的数据。如下图里，Gating Network可以认为是赋予每个Expert的权重，比如可以从输入接一个神经网络得到Softmax概率或Attention当成权重。然后对于这一个特定的输入，只训练在这个Attention下（或者Softmax较大概率）的Expert模型。换句话说，当某个Expert1表现比另一个Expert2好，反向传播时（y_pred - y更接近）Expert1对应Attention的权重就会更高，这样下去对于这个输入MoE就更加依赖于Expert1了。就好比小学一年级老师给大家一份数学卷子，学生A比学生B做的好，以后只要是数学题，老师都会重点培养A，让他成为一个数学特长生。而B可能更擅长语文，这就是MoE的基本思想。这里需要注意两点，不同于boosting，在预测时MoE对于不同的输入分配给各个模型的权重是不同的（softmax的概率或者attention）。而boosting一旦模型训练完成，在预测时分配给每个模型的权重是完全一样的。另一点，MoE有个很好的性质：虽然在训练的时候由于模型很多，参数也很多。但是在预测时候模型的参数并不随着模型复杂度的增加而增加，因此计算开销也不回增加，因为我们总是能Gating Network找出几个相应的Experts来做预测。这种稀疏性对于能够成功替换B-Tree索引至关重要！

index5

回到论文，文中提出了一种特定的MoE模型（文中称作Recursive Regression Model）：RMI包含从顶到下M层，每一层包含 $ M_{l} $ 个Experts和一个Gating策略 $ M_{l} * f_{l-1}(x) / N $ ，每一层的Loss function是 $ L_{l}=∑_{(x,y)}(f^{M_{l}f_{l-1}(x)/N}(x) - y)^2 $ ，也就是说对于特定的(x, y)，RMI委托特定路径的M个experts来对特定范围的x进行训练和预测，很好地解决了the last-mile accuracy问题。可以看到，这个MoE的特殊性在于，除了最下层的experts，其他层的所有experts的训练目标都是为了做Gating。我们可以看成是学一个attention（只有一个非零）的Gating Network，而只有最下层的expert才是做预测真正的experts。这里能这么假设的原因在于对于最下层，相近position范围内的数据分布一致（上一段提到我们通过x和y的关系来对x来做partition，这里通过除了最下层的所有experts层重新组织x来做这种partition使得在一个连续范围内的y的x被partition在了一起），用单个模型就够了（这里可以做进一步优化：在最下层前学出一个稀疏向量或者真正的attention）。需要注意的是，这里的分层模型并不是树，因为每个父节点也可能指向其他父节点的孩子。另外，在顶层expert可以用ReLU neural这种泛化表达能力更强但拟合性稍差的网络，而底层expert可以用拟合性更强的线性回归模型。

indexsp

本文开始提到No Specialization的问题：如果数据本身是随机的，RMI模型并不能归纳出数据中的分布规律，应该怎么办？这里的思路就是rollback到B-Tree Index（下文会看到对于Point Index和Existence Index都会有类似处理来解决No Specialization问题）。由于RMI模型的稀疏性和LIF的高效率，即使对于这种情况，加入RMI的range index效率也并不会降低太多。整个训练过程见下图，文中是分stage训练的（也可以用end-to-end），训练时可以用grid search和一些best practice来tuning hyper-parameter。我们知道，在训练完RMI后，能得到每个experts的minerr和maxerr。我们可以用它们来和预先给定的threshold（比如设成pagesize）对比，当成rollback的条件。更重要的是，它们能够优化索引搜索过程。通常的B-Tree在找到输入key的offset后会用binary search（也有其他的方式如Quaternary Search但是效率提高不明显）。而RMI模型预测出来的position可以用作更准确的pivot来进一步提高搜索record的性能。论文中提出了Model Binary Search，Biased Search和Biased Quaternary Search，这部分比较简单，就不展开说了，可以参考论文3.4。

index6

论文中用了四个数据集来做了实验，分别是Weblogs（日志数据，用timestamp建索引，这个最符合真实复杂环境）, Maps（地图数据用经度建索引，虽然这个也是真实数据，但是相对更规则）, Web-documents（真实的document数据）和合成的Lognormal（采样生成的数据，为了模拟真实环境中的长尾分布）。其中Weblogs、Maps和Lognormal数据使用整数来当索引的，而Web-documents是用字符串来当索引的（因为不连续）。下面分别列出了四组数据的实验效果。在每组数据集的实验中，论文以pagesize=128作为baseline，分别给出了Learned Index与B-Tree Index索引时间（Model列表示搜索position的时间+Search列表示搜索record的时间）的对比、索引内存占用的对比以及索引误差。在最后一组Web-document数据的实验里，文中对比了不同的搜索策略，因为对于string的binary search会更耗时，所以上文提出的搜索策略能够更明显地提高效率。这里Learned Index只用了两层的RMI，Learned Indexed Complex表示第一层用了两层全连接的网络，而不带Complex的没有用hidden layer。而第二层都使用了linear model，论文对第二层里不同的experts数目做了不同的实验。

index7 index8 index9 index10

总的来说，在索引的内存占用上大大有了显著减少。在索引时间上，在特定的配置下也能有一些提升（最后一组实验比较有说服力，因为我们的初衷是找出人们发现不了数据特殊性）。可以看到，这里实验用的RMI只有两层，而且误差不稳定。猜想是如果更深的RMI，精度提出和时间效率提升以及内存占用提升相比并没有太好，当然未来可以进一步采样模型压缩来优化。

Point Index. Point Index顾名思义就是为了搜索出key对应的position，也就是Hashmap。Hashmap天然就是一个模型，输入是key输出是position。对于Hashmap来讲，为了减少冲突，往往需要使用比key本身数目大很多的slots数目（论文中提到在Google通常一个hashmap有78%额外的slots）。对于冲突，虽然有linked-list或者secondary probing的方式来处理，但是它们的开销都不算小。即使用sparse-hashmap的方式来优化内存占用，性能也要比hashmap慢3-7倍。因此能否通过学习出的模型一方面来减少额外内存开销的，另一方面减少一些冲突时的开销（Hashmap可以通过用更多的slots数目来避免冲突，如果冲突很少就很再难优化索引时间因为Hashmap本来就是常数复杂度的，所以说到底这里的目标是在保证索引时间的情况下减少Hashmap的内存开销）。如下图所示，Learned Hashmap可以在slots数目一样多的条件下既减少冲突，也就能更好地利用内存空间。

index11

文中通过实验验证了拟合累计分布函数CDF对学习Hashmap也起作用：$h(Key) = F(Key) * M $，其中想训练处F去拟合数据的CDF函数。由于point index不需要保证records连续（不需要考虑maxerr和minerr），所以训练出的模型F拟合CDF更容易得到满足。如果这时仍有少量的冲突，可以用linked-list的方式来处理。下图给出了实验结果，仍然使用了B-Tree实验中的Map、Weblog和LogNormal数据集以及两层都是线性experts的RMI模型（最底层100K个experts）。结论是learned index能达到更少的（~80%）empty slots而搜索时间和原本Hashmap相近，这大大地提高了内存使用率。同样，若learned index不能很好地学出CDF（比如冲突很多），系统可以rollback到Hashmap。

index12

Existence Index. 对于Existence Index，DBMS采样Bloom-Filter来实现：对于一个key，算出k个hash函数得到的在bit array上的position并标记成1。Bloom-Filter能天然杜绝false negatives的存在，但有false positive的存在。为了降低false positive，比如对于一个100M记录的数据，Bloom-Filter通常需要比records本身大14倍的bits来达到0.1%的false positive准确度。

index13

这里learned index目标和之前讨论的B-Tree及Hashmap都不一样。之前我们想学习出现有的keys里的分布规律，而这里对于存在的keys我们却不需要区别对待。相反，我们想通过模型学出存在的keys和不存在的keys间的差异。换句话讲，如上图所示，我们期望存在的keys对应索引的positions尽量在一起（无所谓冲突不冲突），不存在的keys对应索引的positions尽量在一起，而存在key和不存在key索引出来的position尽量分开。同时，learned index应该满足尽量低的FPR和内存占用且保证FNR为0。

论文中提出了两种思路来建模，来满足上述要求。第一种方式可以把existence index看成是一个binary classification问题。考虑到existence index的使用场景通常是先判断record在cold storage存不存在，再通过disk或网络access数据。所以latency相对可以高一些，这样我们就可以用更复杂的RNN或CNN模型来当做分类器了。在预测的时候，模型会得到输入key是存在的可能性，需要给定一个threshold（τ）来做出实际判断。然而，这样训练出来的不同模型有其对应的FNR和FPR。我们可以通过threshold来降低FPR，但FPR降低FNR会增加，因为对于一个训练好的模型，调整τ整个False Rate是不变的(FR = FPR+FNR)，这破坏了系统的Semantic Guarantees。论文解决的思路非常简单：对于模型要给出negative预测的keys，借助（rollback）传统的bloom filter来保证这个特性。由于这时的bloom filter只对< threshold的数据建，因此总体来说learned index可以很好地优化内存。即使FNR = 50%，理论上我们可以把内存优化到一半（类似Amdahl’s Law）。这样一来， threshold的选取就只需要考虑FPR了。

index14

第二种方式，还是把问题看成一个binary classification问题。训练得到了模型f以后，因为它满足不了FNR=0，我们可以把f来代替Bloom-Filter中的hash函数：$ d(f(key)) = m * f(key) $，其中m是bit array的大小。用这样的函数做成的bloom-filter可以大大减少bit array的大小。可以看到，两种方式都把上一段提到的目标当成一个binary classification问题，然后为了Semantic Guarantees，都是结合Bloom-filter本身来实现的，只是在不同level的hybird。

对于Existence Index，论文用了Google内部的1.7M个钓鱼网站URL当成是存在的key，把合法的URL当成是不存在的key，模型用了GRU。下图给出了在不同GRU配置下和不同FPR的threshold下的结果。实际上，相比B-Tree和Hashmap，这里实验给出的内存优化效果是比较明显的。并且模型预测越准确，内存降低地越明显，但这里论文中没有给出性能对比。

index15

回到本文最开始提到的四个问题。我们已经通过例子讨论了如何解决Semantic Guarantees和Evaluate Efficiency。那么learned index如何处理Overfitting和No Specialization问题呢？对于overfitting，论文的假设是要被新索引的key依然满足CDF。比如对于Learned Range Index的 insert操作，如果新的key也同样来源于训练出的CDF分布，那么我们并不需要重新训练，直接insert到预测出来的position就行了。而B-Tree则需要O(log N)甚至re-balance。但RMI解决the last-mile accuracy的方式决定了learned index并不能很好地generalize，这是可以进一步完善的地方。而对于No Specialization的数据索引，虽然learned index并不能generalize，但能在当前情况下提高查询效率，减少内存使用。对于OLAP为主的系统，更新索引的操作本来就是定期进行，可以这时再重新训练模型，这时训练的初值可以使用之前训练出来的权重。如果OLTP数据更新更频繁的系统，可以采用delta-index的一些技术，增量地更新learned index。文中还提到当CDF分布变化时的模型处理，这里不展开介绍了，详见3.7.1。另外对于面向disk索引的数据库系统来说，逻辑页并不是真正的物理页（从而不能满足前文分析的性质），论文中也给出了几个可能可行的方式优化，详见3.7.2。

说来巧合，其实类似的问题去年和同事讨论过。在Pivotal的时候，我和几个同事结合ML和DB做过一些尝试，比如用SQL写推荐系统，通过Transaction Log检测作弊用户和异常行为并集成到查询层。也经常讨论，如果用数据库系统去实现深度学习，可行吗？有哪些优势？我们从存储，计算，表达问题的泛化能力等几方面讨论过很多次，但每次都没有很好地去切入。现在想来，有点惭愧，因为我当时更关注的是如何用数据库里的一些技术做ML，而不是如何用ML来优化数据库设计。一次，明哥问我能不能用ML尝试优化plan，减少查询次数，能否对各类的join做些优化。我们讨论到索引优化，但遗憾的是当时并没有深入。不过，就像paper里所断言的，this is a fruitful direction for future research。

Hong Wu at 20:00

scribble

21 Dec 2017 Paper Notes: The Case for Learned Index Structure

21 Dec 2017
Paper Notes: The Case for Learned Index Structure