凯时官网从熵到交叉熵损失的直观通俗的

 凯时公司新闻     |      2021-01-19 23:36

  关于机械进修和数据科学的初学者来讲,必需分明熵和穿插熵的观点。 它们是构建立、降维和图象分类的枢纽根底。

  在本文中,我将测验考试从信息论的角度注释有关熵的观点,当我第一次测验考试把握这个观点时,凯时最新这十分有协助。 让我们看看它是怎样停止的。

  信息论的次要存眷点之一是量化编码和传输变乱所需的总比特数:稀有的变乱即几率较低的变乱,需求暗示更多位,而频仍变乱不需求许多位。因而我们能够从编码器和通讯机的角度动身,将-log(p)界说为编码和传输契合p几率散布的变乱所需的总比特数,即信息。 小 p(稀有变乱)招致大 -log(p)(更多位)。

  在上面会商以后,我们能够界说几率散布为p(x)的变乱的预期之外惊奇水平并称其为熵。正式一些的说法是:熵是量化变乱能够成果中固有的不愿定性程度(对我们来讲不愿定性带来的就是不测的欣喜,固然也有多是惊吓)。 关于持续变量 x,熵能够写为,

  回到信息论,从编码器和通讯机的角度来看,这量化了暗示遵照几率散布p(x)的随机挑选变乱所需的比特数。比方一个包罗圆形和三角形的盒子并回想化学课上熵的观点! 偏态散布(很多圆圈和大批三角形)意味着低熵,由于挑选不愿定性程度很低,这意味着确信挑选圆圈的几率更大。

  如今让我们切换一下思绪,机械进修的次要目的是找到并声明一个最能模仿(近似)实在数据散布的几率散布。 穿插熵供给了一种利用散布 Q 来量化根据散布 P 编码数据所需的均匀位数的办法。

  听着很绕口对吧,上面这个观点能够更庞大。这个量Q能够经由过程以下干系从熵中得到:(原始比特)+(分外比特)=(总比特)。 (分外比特)部门就是所谓的 KL 散度,在统计学中经常使用来权衡两个散布之间的间隔,也被称为相对熵。

  在图象分类中,常常会碰到关于 N 类的穿插熵丧失,以下暗示,此中 y{i} 和 {y{i}}冒 别离是实践标签和猜测。 当 N = 2时穿插熵丧失将简朴地酿成逻辑回归中利用的log丧失。

  · -log(p) 只是表达对以几率 p 察看到变乱的惊奇水平的一种奇异方法。稀有变乱(低 p)招致惊奇水平高。

  · 假如整合一切变乱的”惊奇水平“,就会获得预期的”惊奇“,我们称之为熵。假如高熵则意味着变乱的能够成果中固有的不愿定性程度很高。

  · 穿插熵思索了近似于实在散布 P 的散布 Q,并利用散布 Q 丈量暗示遵照散布 P 的数据所需的比特数。

  · 穿插熵丧失是量化我们的机械进修模子对数据实在散布 (P) 的近似 (Q) 的黑白水平 (Q) 的好办法。请留意,Log丧失只是一个二元穿插熵丧失。