圣萨尔瓦多

注册

 

发新话题 回复该主题

成为伟大的数据科学家需要掌握的基本数学 [复制链接]

1#

数学是任何当代科学学科的基石。现代数据科学的几乎所有技术,包括机器学习,都有深厚的数学基础。

毫无疑问,想要成为一个顶级的数据科学家,需要在各个方面都具有优势如编程能力、一定的商业智慧、以及独特的分析能力等。但了解“引擎盖下的机械原理”总是有好处的。对算法背后的数学机制有一个深入的理解,将使你在同行中具有优势。

对于从其他行业(硬件工程、零售、化学加工工业、医药和卫生保健、商业管理等)进入数据科学领域的新人来说,这一基本数学知识尤为重要。虽然这类领域可能需要电子表格、数值计算和投影方面的经验,但数据科学所需的数学技能可能有很大的不同。

考虑web开发人员或业务分析人员。他们可能每天都要处理大量的数据和信息。数据科学应该是关于科学而不是数据。遵循这一思路,某些工具和技术就变得不可或缺。

通过探测底层动态来建模一个过程形成假设严格评估数据源的质量量化数据和预测的不确定性从信息流中识别隐藏的模式理解模型的局限性理解数学证明及其背后的抽象逻辑数据科学,就其本质而言,并不局限于某一特定的学科领域,它可以处理各种各样的现象,如癌症诊断和社会行为分析。这就产生了令人眼花缭乱的n维数学对象数组、统计分布、优化目标函数等的可能性。

函数、变量、方程和图形

这一领域的数学涵盖了基础,从方程的二项式定理和一切之间:

对数,指数,多项式函数,有理数基本几何和定理,三角恒等式实数和复数,基本性质系列、金额、不平等作图和绘图,笛卡尔坐标和极坐标,圆锥截面可能用到的地方

如果您想了解在对百万条目的数据库进行排序之后,搜索是如何更快地运行的,那么您将会遇到“二分查找”的概念。要理解它的机制,你需要理解对数和递归方程。或者,如果你想分析一个时间序列,你可能会遇到“周期函数”和“指数衰减”这样的概念。

统计数据

掌握统计和概率的基本概念的重要性怎么强调都不过分。该领域的许多实践者实际上认为经典(非神经网络)机器学习只不过是统计学习。有重点的规划对于涵盖最基本的概念至关重要:

数据汇总和描述性统计,集中趋势,方差,协方差,相关性基本概率:期望,概率微积分,贝叶斯定理,条件概率概率分布函数:均匀、正态、二项式、卡方、中心极限定理采样,测量,误差,随机数生成假设检验,A/B检验,置信区间,p值方差分析、t检验线性回归,正规化如果你已经掌握了这些概念,你将很快给人留下深刻印象。作为一名数据科学家,你几乎每天都会用到它们。

线性代数

这是数学的一个基本分支,用来理解机器学习算法如何在数据流上工作。从QQ上的好友推荐,到酷狗上的歌曲推荐,再到用深度转移学习将你的自拍照转换成萨尔瓦多·达利式的肖像,所有这些都涉及到矩阵和矩阵代数。以下是需要学习的基本数学:

矩阵和向量的基本性质:标量乘法,线性变换,转置,共轭,秩,行列式内积和外积,矩阵乘法规则和各种算法,矩阵逆特殊矩阵:方阵,单位矩阵,三角矩阵,单位向量,对称矩阵,厄米矩阵,斜厄米矩阵和酉矩阵矩阵分解概念/LU分解,高斯/高斯-约当消去,解Ax=b线性方程组的方程向量空间,基底,空间,正交性,正交性,线性最小二乘法特征值,特征向量,对角化,奇异值分解如果你用过降维技术(主成分分析),那么你可能已经使用奇异值分解以更少的参数实现了数据集的紧凑维数表示。所有的神经网络算法都使用线性代数技术来表示和处理网络结构和学习操作。

微积分

不管你在大学里喜欢还是讨厌它,微积分在数据科学和机器学习中都有很多应用。这是一项极有价值的技能:

函数的单变量、极限、连续性、可微性中值定理,不定式,洛必达法则最大值和最小值乘积与链式法则泰勒级数,无穷级数求和/积分的概念积分学的基本定理和中值定理,定积分和反常积分的计算函数多元函数,极限,连续性,偏导数常微分方程和偏微分方程基础想知道逻辑回归算法是如何实现的吗?它很有可能使用一种叫做“梯度下降”的方法来寻找最小损失函数。要理解它是如何工作的,您需要使用微积分的概念:梯度、导数、极限和链式法则。

离散数学

这一领域在数据科学中并不常见,但所有现代数据科学都是在计算系统的帮助下完成的,而离散数学是这些系统的核心。

集合,子集计数函数,组合学,可数性基本的证明技巧:归纳法、反证法归纳、演绎和命题逻辑的基础基本数据结构:堆栈、队列、图形、数组、哈希表、树图的性质:连接的组成部分,程度,最大流量/最小切割的概念,图着色递推关系与方程在任何社会网络分析中,你需要知道一个图的属性和快速算法来搜索和遍历网络。在任何算法的选择中,你都需要理解时间和空间的复杂性。

优化和运营研究课题

这些主题在理论计算机科学、控制理论或操作研究等专业领域最为相关。但是对这些强大技术的理解也可以在机器学习的实践中取得丰硕的成果。实际上,每一种机器学习算法的目标都是使受各种约束的某种估计误差最小化,这是一个优化问题。以下是需要学习的数学:

优化的基础,如何制定问题极大值,极小值,凸函数,全局解线性规划,单纯形算法整数规划约束规划,背包问题使用最小二乘损失函数的简单线性回归问题通常有精确的解析解,但是逻辑回归问题没有。要理解其中的原因,您需要熟悉优化中的“凸性”概念。这一系列的研究也将阐明为什么我们必须对大多数机器学习问题的“近似”解决方案保持满意。

虽然有很多东西要学习,网上有很好的资源。在复习这些主题和学习新概念之后,你将有能力在日常数据分析和机器学习项目中听到隐藏的“音乐”。这是成为一个了不起的数据科学家的巨大飞跃。

分享 转发
TOP
发新话题 回复该主题