新疆自驾游路书 pdf epub azw3 2024 下载

新疆自驾游路书电子书籍推荐下载地址

》新疆自驾游路书电子书籍版权问题请点击这里查看《

新疆自驾游路书书籍详细信息

ISBN：9787807661559
作者：四五
出版社：广东旅游出版社
出版时间：2011-4
页数：271
价格：55.00元
纸张：暂无纸张
装帧：暂无装帧
开本：暂无开本
语言：未知
丛书：暂无丛书
TAG：暂无
豆瓣评分：暂无豆瓣评分
豆瓣短评：点击查看
豆瓣讨论：点击查看
豆瓣目录：点击查看
读书笔记：点击查看
原文摘录：点击查看
更新时间：2025-02-28 04:07:01

内容简介：

《新疆自驾游路书》是一本用车轮写出来的书。它形成在作者四五的旅行途中，是四五多次往返新疆的倾心力作。它全面叙述了北疆、南疆共11条线路18个城区的路况，提供了翔实的沿途风光食宿、加油、修理、治安、医疗、网吧、干洗等18类信息，并把亲身见闻和经历介绍给读者，力图让读者的自驾旅程能精彩无限。

书籍目录：

暂无相关目录，正在全力查找中！

作者介绍：

暂无相关内容，正在全力查找中

出版社信息：

暂无出版社相关信息，正在全力查找中！

书籍摘录：

暂无相关书籍摘录，正在全力查找中！

在线阅读/听书/购买/PDF下载地址：

在线阅读地址：新疆自驾游路书在线阅读

在线听书地址：新疆自驾游路书在线收听

在线购买地址：新疆自驾游路书在线购买

原文赏析：

暂无原文赏析，正在全力查找中！

其它内容：

书籍介绍

精彩短评：

作者：樱木哈哈发布时间：2014-10-07 14:25:14
作者有功底~
作者： ArchidOggy 发布时间：2022-04-26 00:43:45
深规院模式
作者：陶者无缰发布时间：2018-10-04 09:06:13
後面兩個短篇集還可以。雙鳳奇緣辣瞎雙眼，蘇武牧羊的時候跟一頭母猩猩生下了一兒一女……我讀的書少，你可不要嚇我啊！
作者：一碗刀削面发布时间：2022-01-26 08:33:12
同送，不过我后来也是考完研转手送人了
作者：什谈谈发布时间：2014-05-23 00:53:21
精神分析除了童年期对成年后的影响十分巨大之外，通篇的性梦太有主观性的潜意识真是接受无能。对于老弗，雪茄就可以只是单纯的雪茄了？呵呵
作者：来福发布时间：2013-01-21 01:25:40
高尚的可以带收费站的照片，但是城市不全啊

深度书评：

【转】徐建委：《齐民要术》的类书背景与中古时代的知识管理

作者：哲夫成城发布时间：2022-08-05 13:42:18

【作者简介】徐建委，1976年生，山东东营人，中国人民大学文学院副教授，副院长，中国人民大学古代文本文化国际研究中心执行主任。2000年毕业于山东大学文学院，同年就读中国社会科学院研究生院文学系。2004年考入北京大学国学研究院，2008年毕业，获文学博士学位，同年入职中国人民大学文学院。2017年4月与普林斯顿大学柯马丁教授联合创建中国人民大学古代文本文化国际研究中心。研究领域大体在战国秦汉之间，主要关注早期文本与学术、思想的相关问题。同时，也对汉唐之间、唐宋之间的文献变迁、文本生产有兴趣。著有《<说苑>研究：以战国秦汉之间的文献累积与学术史为中心》、《文本革命：刘向、<汉书·艺文志>与早期文本研究》、《汉书艺文志六艺略笺证》等。
Study Notes

作者：S.Z 发布时间：2019-09-09 14:35:12

简单的一些笔记，如有错误欢迎指正
“机器学习”这个概念其实有些误导：机器不能学习。而且机器学习的目标“仅仅”是基于训练样本尽可能对训练集外的“大多数”样本作出正确的预测，而且，训练集外用于预测的样本于训练时使用的样本应该是“有着类似的统计分布特征”（可惜在实践中，尤其是金融行业，我们太经常会忽略对于训练集的划分以及对于样本统计分布变化的考量了）。
其实对于遇到的很多问题，首先要问的是该问题是否适合机器学习模型来解决，如果适合，再分析应该采用哪一类模型（现实中，太多的人轻视原始问题的业务分析和技术适用场景，看到新潮的技术不管三七二十一就上马试试，拿到看似美丽的结果就上生产，结果遇到很多坑）。
机器学习的学习在业内目前一般分为四类：①监督学习；②半监督学习；③无监督学习；④强化学习；
半监督学习是在训练集里混合带标签与不带标签的两类样本，对于机器学习来说，这样带来的信息增量益处在适当处理下能够远超训练数据复杂度带来的拖累（从定义简单逻辑上看，半监督学习是不是能从逻辑上简化为首先使用无监督学习对不带标签的样本进行分类再对分类结果进行监督学习）。
强化学习对于环境的“状态（state）”敏感，可以针对不同的环境状态作不同的决策，因此和其他的机器学习模型区分比较明显，而且似乎强化学习更适合用于金融行业的决策。
支持向量机将N维特征向量投射到一个虚拟的N维空间，并作一条虚拟的N-1维直线将不同的结果划分开，这条直线被称为决策边界decision boundary。
向量vector是有序的，所以有index取值，但集合set是无序而且唯一的，所以python里对于一些元素取唯一值的函数就是set（是不是一般来说机器学习的输出范围都应该是一个set）。
max与arg max对比：后者返回使函数值最大的自变量值。
Model-Based是一般常见的机器学习算法，训练完成后训练集数据即可丢弃，而Instance-Based算法典型的是KNN算法，利用最邻近的样本数据作为标准输出结果，因此训练数据将一直保留。
基础的机器学习算法包括（不包括深度学习算法）：
线性回归：简单，而且极少过拟合（两个特征其实应该差不多是一回事，简单的模型一般都不容易过拟合），损失函数用最小二乘法，原因主要是方便计算，因为二次项的一阶导便于计算。
逻辑回归：其实逻辑回归不算是回归，而是一个分类器，只是在函数看起来比较像线性回归而已，相当于在线性回归输出端叠加一个转换函数，一般就是sigmoid函数（也称为标准逻辑函数standard logistic function），他的损失函数用“最大概率”作为标准。
决策树：通过每一个节点的输出来判断下一个节点的方向，比较基础的一种叫ID3（目前常用的决策树模型是C4.5），损失函数与逻辑回归看起来非常相似，不同的地方在于逻辑回归是带参数的模型，而决策树返回的是一个无参数模型。
可接受离散和连续变量；
解决不完备样本（incomplete examples）问题；
通过剪枝（pruning）解决过拟合问题；
支持向量机：SVM通过满yi(xi*w-b)-1>=0来实现划分，再通过min ½ (||w||)**2来尽量使决策边界离两个子集的边界样本距离相等。如果样本中混合了噪音，引入hinge loss函数max(0, 1-yi(w*xi-b))来惩罚，引入这一函数的SVM称为soft-margin SVM而原始的版本就称为hard-margin SVM。最终SVM的目标函数就成了：
C是超参数，用于权衡泛化能力和拟合水平，C越高，对于维度的惩罚越重要，因此泛化能力越好，C越小则反之，对于噪音的惩罚越大，结果拟合度越高。
对于某些样本在低维度上SVM不能很好划分时，可以使用隐含mapping提升维度，在高维度寻求决策边界，这种方法称为kernel trick。
K邻算法：模型保留所有的训练数据，是一个非参数模型。计算间距时，常用的是Euclidean distance，另外一种常用的算法是cosine similarity（测量的是两个向量方向的相似程度，正交时值为0，相反时值为-1，所以如果作为距离函数需要将该值乘以-1）：
机器学习模型一般包括以下三个部分：
损失函数loss function；
基于损失函数的优化标准；
基于训练集寻找优化结果的优化路径optimization route；
对于像线性回归、逻辑回归以及SVM来说，优化标准都是显性explicitly的，但决策树和kNN算法是最古老的机器学习算法，当时是基于人的直觉建立的，没有显性优化标准。
梯度下降gradient descent和随机梯度下降stochastic gradient descent是常用的优化算法，应用于优化标准是可微的场景，得出的结果是局部最优的local minimum，但对于像逻辑回归以及SVM这类问题，优化标准是凸的convex，局部最优也即全局最优。
线性回归由于是封闭解问题，因此可直接解不需要通过梯度下降来优化求解。
分类器算法中，SVM和kNN返回的是分类，而逻辑回归以及决策数可以返回一个概率值。
特征向量中如果包含类别数据，一般转化成为one-hot encoding（即我们之间称为dummy factors），不使用1/2/3等数字编码是为了避免其排序干扰学习。相对应的，另外还有一种有序分类（分组）称为binning或bucketing，但在分组完成后还是转化成one-hot encoding格式（这个不是很理解，因为似乎这样损失了排序信息）。
特征值的标准化分两类normalization和standardization，使用哪种需要分析人员自己判断，一般来说如果有充足的资源的话可对比两种方法，采用较优的，如果资源不足，一种简单的判断标准是①非监督学习一般用standardization更好；②如果特征值类似于正态分布则最好使用和standardization；③如果存在特别极端的极值，则最好使用和standardization；除前述情况外，一般可以使用类normalization。
缺失值处理：
删除包含缺失值的样本，适用于样本量足够大的情况；
选择能够较好处理缺失值的学习算法模型；
数值插补：
直接用非空样本的简单算术平均；
使用极值插补，例如一个正常取值为[0,1]的，使用-1或2插补；
使用中间值插补，例如中位数（这和第一条类似）；
使用回归等方法从其他特征值学习预测（BARRA使用）；
新增dummy factor用于标记空值，再将空值置0；
算法模型选择（有足够资源应该尽可能多尝试对比，资源有限时考虑）：
可解释性explainability：如果业务需求是需要将算法的预测向非技术人员解释的，那么可能最好使用类似于kNN、线性回归以及决策树等算法，尽管看起来拟合度会差一些，但解释预测逻辑比较直观。相比之下，像神经网络以及集成模型Ensemble Model在拟合上明显有优势，但是个黑箱，很难进行逻辑解释。
内存加载in-memory vs. out-of memory：如果数据可以完全加载到内存的话，基本上所有算法模型都适用，但是如果数据集过大，就需要考虑使用增量学习模型incremental learning algorithms。
特征与样本的数量：神经网络和gradient boosting等模型可以应付特征与样本数量非常巨大的场景，但SVM相对应用的维度要低很多。
特征类别（数值型 vs.类型）：有一些学习模型对于数据的类别敏感，可能不能应用于类别数据，需要分析师进行转化。
数据的非线性：对于线性可分的样本学习，SVM（linear kernel）、逻辑回归以及线性回归是很好的选择，否则的话可能需要使用深度神经网络或者集成模型Ensemble Model。
训练速度：训练速度取决于模型的特征，目前的程度包基本都实现了模型的最优算法，需要结合分析人员硬件的特征选择最合适的算法，比如随机森林就可以利用CPU的多核特性来加快训练速度，（而深度神经网络训练速度的提升众所周知可以利用GPU的特性）。
预测速度：一般考虑业务在生产环境下的预测速度是否能满足实际需求。比如像SVM、线性回归以及逻辑回归等算法，学习完成后进行预测速度很快，而像kNN、集成模型以及深度神经网络或RNN在预测速度上相对较慢（不过目前较新的程度包应该能实现kNN和集成模型较快的预测速度）。
另外：scikit-learn提供了算法选择图供参考
数据集的划分：一般分成三部分（训练集、验证集和测试集），训练集用于训练模型，验证集用来验证选择最合适的模型和超参数，测试集是在生产应用前的最后验证。三个数据集的比例传统上是70%/15%/15%,但在大数据时代可采用95%/2.5%/2.5%。
Bias是指模型对训练样本的拟合程度，而variance是模型对训练集的敏感程度，两者存在此消彼涨的关系。一般来说过低的bias/过高的variance是过拟合，即使是简单的模型比如线性回归也可能过拟合（例如维度高于样本数量），常用的缓解过拟合的方法是regularization正则化。
与我们在neut过程中的正交不同，机器学习中的正则化是指在目标函数中引入对过拟合（模型复杂度）的惩罚项，常用的正则化方法有L1和L2（线性回归中引入L1正则化的也被称为Lasso，引入L2正则化的称为Ridge岭回归）。也可以将L1和L2正则化一起使用称为elastic net正则化。除此之外，还可以使用dropout以及batch-normalization以及非统计方法data augmentation以及early stopping。
回归模型的评价标准可以用MSE（mean squared error）来衡量，如果发现测试集的MSE显著高于训练集时那么可能是因为过拟合了。
对于分类模型的评价标准一般有：
混淆矩阵confusion martix:是一个基础版本的统计，用于观察分类中正确与否的统计量，并可用于后续计算其他评价指标；
准确率precision/召回率recall（很难同时兼顾准确率与召回率，必须进行取舍）：
准确率 = TP / (TP+FP) 对于所有正类预测中正确的比例；
召回率 = TP / (TP+FN)对所有实际正类的预测召回的比例；
正确率accuracy（注意和准确率的区别） = (TP + TN) / ALL，当预测正确（无论是正类或者负类）同样重要时，用正确率能更好衡量模型的效果；
加权正确率cost-sensitive accuracy：对于基础正确率指标中的分子进行系数处理，以体现不同正确预测的相对重要性；
AUC（Area under the ROC Curve）:ROC for receiver operating characteristic，简单说来算法就是根据二维坐标，横轴是FPR（FP/(FP+TN)），纵轴是TPR（TP/(TP+FN)），根据不同的门槛参数计算以后划出一条切分一个[0，1]正方形的对角线，看对角线下方的面积大小，越大代表模型的分类效果越好。
超参数的调参：基础的是grid search，常见的是指数法，比如[0.001,0.01,0.1,1,10,100,100]，基于训练集训练完后再使用验证集看哪套超参数效果最好，测试完成后，还可以在最优超参数的基础上调高精度再叠加一次测试。也可以不穷举测试的超参数列表，而是给出该参数的分布参数以及数量，让机器自动随机生成测试，称为random search。还可以参考之前超参数的有效性来生成下一个测试超参数的Bayesian hyperparameter optimization。最后，还有gradient-based techniques以及evolutionary optimization techniques等等。
如果没有足够的验证集来调试超参数，可以使用交叉验证法cross-validation：对于给定的一组超参数，将训练集随机拆分成N组（一般是5），对每N-1组作为训练，剩下的作为验证，一共验证5次，将5次验证指标平均作为该超参数的指标。
在神经网络中每一个神经元unit计算时都是线性的，只是在激活函数时可进行一系列的非线性变换（这也和大量机器学习领域的专业人士对于线性基石作用的认可相符合）。
一般情况下同一层的神经网络单元共用一个激活函数，但也有例外。
神经网络模型通过最后一层的激活函数类型来区分是分类器还是回归模型。
建立模型时可以尝试任何激活函数，只要该函数是可微的（或者在大部分定义域上是可微的，比如ReLU函数在0处不可微，但经常用来作激活函数）。
如果激活函数也是线性的话，那么整体个神经网络也是线性的（线性叠加保持线性），而为了更好拟合问题的非线性特征，激活函数通常是非线性的。常用的除了logistic（取0或1）以外，还有tanh和relu，前者取值范围是（-1，+1），后者小于0时返回0，其余则返回原值。
深度学习定义为超过2个非输出层的神经网络。过去深度学习的困境主要在vanishing gradient，这现象会导致深层网络的最左侧训练非常缓慢（梯度下降幅度不足，不够敏感），但现在的技术大大提升了训练的速度，因此深度学习的应用才有了大的突破。
卷积神经网络CNN在建立的时候就主要是针对图像识别问题，他解决了传统神经网络中当维度过高时训练参数过多的困难。
初级的卷积神经网络可以扩展成带体积volume的卷积神经网络，同时也可以进行stride和padding（更好学习图像的边缘特征）来训练。
pooling是使用固定的函数（比如max来替代原来的过滤操作），训练的超参数包括stride和pooling大小（常用的stride是2，常用的filter大小是2、3，max函数一般认为效果最好）。
为了缓解RNN在长时间序列上的遗忘性，实践中使用gated RNNs，包括LSTM（long short-term memory）和GRU（gated recurrent unit）。
当简单的线性拟合效果不佳时，可引入非线性方程比如二次方程，搭配梯度下降寻求最优参数。但当维度高于3时，这样的方法也会面临困难。比较好的解决方式是使用无参数的Kernel Regression。
大多数分类器都可以扩展成为多类别的分类器，但如果无法扩展，可以将原始数据集重分类为N个样本，学习N个二元分类器，再选择分类确定性最高的结果。
one-class分类问题不是指二元分类，而是指学习样本全部属于一个特定分类，而没有对照组（或者更少），因此更难学习。这类问题主要应用于异常检测，比如看是安全网络内设备是否受到攻击等。常用的模型包括：
one-class高斯：学习一个能最好描述训练集的高斯分布密度函数，再根据新样本的分布概率密度对比某一个值判断是否异常。如果单一高斯分布无法很好描述样本数据，也可以使用mix混合高斯来解决。
one-class K-means和one-class kNN：与前面高斯的类似，也是先建模描述正常样本，再将新样本与模型对比，超过一定界限认定为异常。
one-class SVM
早前章节介绍的许多模型在实际应用中都有些过于简单了，而想要使用复杂的模型对于训练数据的量要求可能过高，我们无法获取足够的训练样本。因此，相对于训练出一个理想的单一模型，我们可以使用多个简单模型再将他们的结果综合成一个meta-model，称为集成学习ensemble learning（这种方法在FAJ上见到有人介绍过，结果似乎还行）。两种最常用的集成学习方法是：
boosting：使用一个样本不断生成新模型针对原有的缺陷进行学习。常用的比如gradient boosting，首先有初始模型预测值，再将样本标签与预测值残值residual作为新的标签进行学习，不断进行这个步骤直到达到预设次数。
bagging：随机拆分样本进行学习，再综合。随机森林是应用最广的集成学习，而且内在机制也尽量排除相关性的干扰。
从描述上看也可以看到boosting减少bias，可能会过拟合，而bagging则减少variance。
文本处理上除了RNN以外，目前还有一种很有效的方法Conditional Random Fields。
将原始版本的sequence labeling问题泛化以后就是seq2seq问题，这类问题的x和y可能长度不同，典型的就是机器翻译问题、文本总结以及文本纠错等。目前业内认为最适合的模型是神经网络，该网络要包含编码encoder和解码decoder两部分功能。
主动学习active learning针对的是学习样本中标签成本过高的问题，比如在医疗和金融领域，相关的标签不是那么客观直接，需要专家的意见。此时，使用主动学习可以只使用训练集中少量标签数据，并标注其他非标签样本中对模型质量贡献最大的样本数据（并非全部标注）。实用领域的主动学习一般分成两类：
基于数据密度和不确定性的方法：这种方法首先基于有标签的数据进行训练，将初级模型应用于其他无标签数据（可全部也可随机选择），应用后对该部分数据会有一个重要性分值（importance score），该分值分为两部分：数据密度（用样本与邻居的距离衡量，因此密度越低重要性越高）以及不确定性。对于重要性分值高的样本（即密度越低，即本身越有个性，而且不确定性越大的样本），挑出来进行专家打标签，然后重复前述步骤直至达到某一个预设标准。
基于支持向量的方法：看描述和前一个的一部分是一样的，就是用带标签数据训练一个SVM模型，再基于该模型将最接近分界线的样本交由专家打标签。
委员会方法query by committee：是一种综合的方法，是将多个基于标签数据模型对无标签数据进行标记，将分歧最大的样本交给专家打标签。
半监督学习针对的和前述类似是训练样本中并不是所有都带标签的数据，目标是尽可能在不增加标签要求的前提下提升模型效果。目前业内没有公认的最优方法，常用的有：
self-learning自学习：和前面主动学习里找出最不确定的提交给专家打标签相反，自学习是在基于标签样本训练模型应用后，对确定性高于某一临界值的样本自动标记，并循环直至连续N次都无法提升模型效果。这个方法在很多时候效果不佳，甚至会降低模型效果，因为该方法对于训练样本的统计分布特征有一定要求。
业内对于识别手写数据的机器学习算法公认最有效的目前是ladder network，它包含了一个沙漏状的编码解码结构，而且还引入了噪音训练（训练完成后的实际预测时不再加入噪音）。
聚类法也是一种直观的半监督学习方法，即先将样本聚类，再根据所属类别中标签众值对数据进行标记。
S3VM则是对无标签样本的众多可能标签均进行SVM学习，然后选择效果最好的那组标签，至于标签候选组合的选取可参见相关学术文献。
one-shot learning不是指学习时只用一组对比样本即可，而是指最常用的应用场景（人脸识别）中只需要你本人的一张照片作为基准即可，训练时依然需要大量样本数据，尽管相对于其他学习问题，此类问题的样本分布不对称（照片不匹配的样本容易获得，而匹配的样本相对少很多）。目前业内主流的学习模型是Siamese神经网络（暹罗的意思，不知道和猫有什么关系），这种网络主要特征是将一组样本（基准、真对照、伪对照）并列，计算损失函数时同时考虑真伪两种情况，而训练的基础embedding模型则可根据样本特征选择不同的方法，比如CNN、RNN或者MLP。学习过程中，一般在前几批次学习过后，深化学习时只选择那些模型看起来很难区分的伪对照，以便模型尽快脱离学习舒适区，提高学习效率。
zero-shot learning是一个很新的领域，目前相关研究都还不太成熟。
样本数据不均衡处理（决策树、随机森林以及梯度下降模型对不均衡样本相对不敏感）：
对于一些分类问题，如果某些分类的占比过低，而对其分类要求又很高的话可以在损失函数上对其增加权重，比如某些SVM算法就支持对不同的分类配置不同的权重。
over-sampling，即人为的拷贝少数分类样本扩充其比例。
undersampling，和前面相对应，随机剔除一部分多数分类样本来实现样本均衡。
synthetic补充，即根据占少数分类的样本特征值生成新样本扩充原有数据集，常用的算法有synthetic minority oversampling technique(SMOTE)和adaptive synthetic sampling method(ADASYN)。两种算法比较相似，基本逻辑是从少数派分类样本中选一个基点，再根据它邻近N个样本（从全样本中选，不仅仅是少数派）中再随机选一个样本，将该样本与基准样本的偏离量乘一个系数加到基准点上，生成一个新的样本。ADASYN模型的特殊之处在于，最后一步生成合成样本的数量，与N邻样本中非少数派数量成正比，因此均衡机制更为积极。
combining models：像随机森林这样的集成模型本身就综合了多个小模型，但都是弱学习模型而且属于同一类型，数量比较多。我们也可以将几个比较高级的强学习模型进行综合，但数量保持在2到3个为宜。将多个模型组合在一起的假设是需要各个模型之间相关性比较弱，如果只是将同类不同超参数的模型进行组合可能效果不佳。综合的方法包括：
平均法：用于回归模型以及输出是分类值的分类器。
多数法：用于分类器，选最多的分类结果（如果并列可以随机选或者返回异常）。
堆积法stacking：其实可能叫管道法更形象，是将一个模型的输出作为另外一个模型的输入。
transfer learning：一般的用法是将embedding层后面的部分替换成新的层，同时在保持前面部分参数不变的前提下训练模型以适应新的样本。
无监督学习：
密度估计density estimation：经常用于估计样本所属数据集的分布参数，主要应用在异常监测上。
聚类clustering算法：
K-Means：有一个超参数N用于确定分组数量，然后随机选N个起始点作为centroids，再将其他样本分别划至最近的centroid所属分组，再将该组内特征值的平均作为新的为centroids，不断重复前述步骤，直至样本所属分组不再变动。这个算法有可能出现不同起点导致不同分组结果的现象。
DBSCAN和HDBSCAN：DBSCAN有两个超参数，他不再需要人为确定分组数量，而是先选一个起点，将距离小于超参数a的样本划入该分组，再对分组内的每一个样本扫描a距离内的样本，如果数量超过超参数N，将该部分纳入现有分组。然后再分组外再重新选一个起点重复该步骤，直到所有样本均被分组。而HDBSCAN针对DBSCAN的缺陷，用一些巧妙的算法可以动态调整超参数a值，因此不需要人为训练，而且也能应对分布密度变化的问题。
聚类算法分组数量N的选择：可以将训练数据拆分成两份，类似于训练和验证集，然后各自按N分组，再将两者的结果作一个矩阵交叉验证，也可以使用一个比较正式的差异计算公式来判断匹配程度。
如果每个样本只能属于单一分组，则是hard clustering，此外还有Gaussian mixture model可以在过程中使用加权平均来实现同一样本属于不同分组。HDBSCAN也可以实现单样本不同分组的目的。
降维dimensionality reduction：
过去降维的目的是加快运算速度，减少对算力的压力。但随着算法的进步以及硬件的提升（尤其是GPU计算对机器学习的加持），目前降维的目的主要是方便人类进行数据可视化（人类只能处理三维图像）。我觉得可视化有助于人类发现其中的模式，进一步优化机器学习的效果。
另外，当你的算法被限制在一些黑盒化比较弱（可解释性强）的算法时，算法对于数据维度要求比较严格，因此也必须借助于降维来实现。
常用的降维算法包括PCA主成分分析以及UMAP（uniform manifold approximation and projection）还有auto-encoders。
排序优化问题：
pointwise：即将多个排序问题拆解成大量点问题，转换成传统的监督学习，但效果非常一般。
pairwise：即将多个排序问题拆解成多个配对对比问题，输出这对点相互大小。这种方法比前一种效果有所提升但还远远不够。
listwise：目前主流的算法，典型的包括LambdaMART，利用直接优化排序结果的一个评价函数来实现，常见的评价函数是MAP（mean average precision）.
推荐算法learning to recommend：
content-based filtering：基于用户过去的行为习惯进行相似推荐，缺点是容易导致用户陷入filter bubble中，即所有的推荐都过于相似，缺少增量信息，因此实践中可能导致用户不再使用该推荐。
collaborative filtering：这种算法是基于相似用户来进行推荐的，因此缺陷是有可能无视推荐内容本身与用户的匹配性。
实践中一般会综合采用前两种算法。
factorization machines（FM）：一种非常新的算法，主要针对的就是推荐算法中相关数据矩阵过于稀疏的问题（sparse dataset）。
denoising autoencoders（DAE）：
自监督学习self-supervised learning：常见的应用是word embedding词嵌入，主流的算法是word2vec，其中常用的版本是skip-gram。
高斯过程Gaussian processes是与kernel regression竞争的一个模型，前者可以在预测时提供一个置信区间。
对于采样时假设服从高斯分布的模型已经有成熟的分析，因此当采样时样本的分布无法预测时，可能需要采用马尔科夫链蒙特卡洛法Markov Chain Monte Carlo。
对抗算法GAN是在零和博弈下的无监督学习。
遗传算法：当损失函数不可微时，常用的算法是genetic algorithms，比梯度下降速度要慢一些。
强化学习reinforcement learning：前面提到过，是一系列流程性算法，目标是优化长期收益，常用的算法如Q-learning适用的场景主要是游戏机器人、机器人寻路、库存供应链管理、智能电网以及金融交易领域等。