二叉排序树

二叉排序树的定义

二叉排序树是一种既可以保证插入和删除效率，又可以比较高效率地实现查找的算法。

假设我们的数据集开始只有一个数{62}，然后现在需要将88插入数据集，于是数据集成了{62,82}，还保持着从小到大有序。再查找有没有58，没有则插入，可此时要想在线性表的顺序存储中有序，就得移动62和88的位置。

可不可以不移动呢？当然是可以的，就是二叉树结构。当我们用二叉树的方式时，首先我们将第一个数62定为根结点，88因为比62大，因此让它做62的右子树，58因为比62小，所以成为它的左子树。此时58插入并没有影响到62和88的关系。

若我们现在需要对集合{62,88,58,47,35,73,51,99,37,93}做查找，使用排好序的二叉树来创建。

这样我们就得到了一颗二叉树，并且当我们对它进行中序遍历时，就可以得到一个有序的序列{35,37,47,51,58,62,73,88,93,99}。

二叉排序树，又称为二叉查找树，二元查找树。它或者是一棵空树，或者是具有下列性质的二叉树。

若它的左子树不空，则左子树上所有结点的值均小于它的根结点的值；

若它的右子树不空，则右子树上所有结点的值均大于它的根结点的值；

它的左、右子树也分别为二叉树排序树。

二叉排序树的查找

构造一颗二叉排序树的目的，并不是为了排序，而是为了提高查找和插入删除关键字的速度。

比如要查找93，过程如下：

二叉排序树的插入

比如插入95：

二叉排序树的删除

我们不能因为删除了结点而让这棵树变得不满足二叉排序树的特性，所以删除需要考虑多种情况。

如果需要查找并删除如37、51、73、93这些在二叉排序树中是叶子的结点，那是很容易的，毕竟删除它们对整颗树来说，其他结点的结构并未收到影响，如图所示：

对应要删除的结点只有左子树或只有右子树的情况，相对也比较好解决。那就是结点删除后，将它的左子树或右子树整个移动到删除结点的位置即可，可以理解为独子继承父业。如图所示，先删除35和99结点，再删除58结点的变化图，最终，整个结构还是一个二叉排序树。

但是对于要删除的结点既有左子树又有右子树的情况怎么办呢？

最初的想法是：我们当47结点只有一个左子树，做法就和一个左子树的操作一样，让35及它之下的结点成为58的左子树，然后再对47的右子树所有结点进行插入操作。这是比较简单的想法，可是47的右子树有子孙共5个结点，这么做效率不高且不说，还会导致整个二叉排序树结构发生很大的变化，有可能会增加树的高度，增加高度可不是好事。

那么47的两个子树中能否找到一个结点可以替代47？有，37或者48都可以替代47，此时在删除47后，整个二叉排序树并没有发生什么本质的改变。

为什么是37和38呢？因为它们正好是二叉排序树中比它小或比它大的最接近47的两个数。如果我们对这颗二叉排序数进行中序遍历，得到的序列为{29,35,36,47,48,49,50,51,56,62,73,88,93,99}，它们正好是47的前驱和后继。

因此最好的办法是找到需要删除的结点p的直接前驱（或直接后继）s，用s来替代结点p，然后在删除此结点s：

二叉排序树总结

二叉排序树是以链接的方式存储，保持了链接存储结构在执行插入或删除操作是不用移动元素的优点，只要找到合适的插入和删除位置后，仅需要修改链接指针即可，因此插入删除的时间性能比较好。

对于二叉排序树查找，走的就是从根结点到要查找的结点的路径，其比较次数等于给定值的结点在二叉排序树的层数。极端情况，最少为一次，即根结点就是要找的结点，最多也不会超过树的深度。也就是说，二叉排序树的查找性能取决于二叉排序树的形状。可问题在于二叉排序树的形状是不确定的。

例如{62,88,58,47,35,73,51,99,37,93}这样的数组，我们可以构建如下左图的二叉排序树。如果数组元素的次序是从小到大有序，如{35,37,47,51,58,62,73,88,93,99}，则二叉排序树就成了极端的右斜树，但它依然是一颗二叉排序树。同样是查找点99，左图只需要两次比较，而右图就需要10次比较才可以得到结果，二者差异很大。

也就是说，我们希望二叉排序树是比较平衡的，即其深度与完全二叉树相同，均为[log2n]+1，那么查找的时间复杂度为O(logn)，近似于折半查找。不平衡的最坏情况就是上图的右斜树，查找时间复杂度为O(n)，这等同于顺序查找。

我们希望对一个集合按二叉排序树查找，最好是把它构建成一颗平衡二叉排序树。

Aris