论坛全局菜单下方 - TICKMILL 285X70论坛全局菜单下方 - ThinkMarkets285X70论坛全局菜单下方 - 荔枝返现285X70论坛全局菜单下方 -  icmarkets285X70
查看:722回复:4
咕咚
注册时间2004-08-06
365
[灌水]大数据时代的贝叶斯定理
楼主发表于:2017-06-25 11:49只看该作者倒序浏览
1楼 电梯直达
电梯直达
大数据时代的贝叶斯定理2015-11-29 18:36 池建强 人民邮电出版社 字号:T
| T
[backcolor=transparent]综合评级:[/backcolor]
[backcolor=transparent]想读()
在读()
已读()
品书斋鉴()
已有人发表书评
[/backcolor]


http://images.51cto.com/images/art/newart1012/images/Fav.gif

[backcolor=transparent]《MacTalk跨越边界》本书中作者沿用了一贯的科技与人文相结合的风格,文风有趣,又增加了一点力量。作者充分享受着写作的乐趣,书中的文字对作者意义非凡,它们能够帮助作者探索、梳理和记录生活。希望你在阅读这本书的时候,也能获得这样的乐趣和感受。本节为大家介绍大数据时代的贝叶斯定理。[/backcolor]
[backcolor=transparent]AD:51CTO 网+ 第十二期沙龙:大话数据之美_如何用数据驱动用户体验
[/backcolor]

[backcolor=transparent]大数据时代的贝叶斯定理[/backcolor][backcolor=transparent]今天给大家说说大数据下的贝叶斯定理,算是科普。如果有朝一日你能以之推算出搭讪妹子的成功率,算我一份功劳。[/backcolor][backcolor=transparent]每当有技术热点或新概念出来的时候,人群就会分成三种:炒作的、观望的和踏踏实实干活的。炒作的是不懂的,观望的是保守的,沉下来去研究那些浮萍下面的算法、引擎、框架和语言的人,才是最后吃到果子的人。云计算、大数据莫不如是。[/backcolor][backcolor=transparent]随着搜索、社交网络、电子商务和移动互联网的发展,数据总量和增长速度已经到了常人(注:我这样的人)无法想象的地步。其中数学相关的知识是大数据应用和发展的原动力。[/backcolor][backcolor=transparent]举个例子,比如贝叶斯定理。[/backcolor][backcolor=transparent]搞数理统计如果不知道贝叶斯定理,那么你的人生肯定是不完整的。贝叶斯定理是贝叶斯推断的应用,是英国数学家托马斯·贝叶斯在1763年首次提出的。与其他统计学不同,贝叶斯定理是建立在主观判断的基础上,它需要有大量的样本数据,并在数据的基础上进行计算,数据量越大,计算结果越能反映现实世界。[/backcolor][backcolor=transparent]在计算机诞生之前,这个前提条件是很难满足的,所以贝叶斯定理在历史上很长一段时间内都没有得到很好的应用。然后,互联网时代来临了……[/backcolor][backcolor=transparent]现在贝叶斯定理广泛应用于中文分词、垃圾邮件处理、机器学习、图像识别、拼写检查和一些常用的分类算法上。可以说,我们现在最常用的互联网服务上,贝叶斯定理无处不在。贝老爷子没能挺到今天看到他提出的理论在互联网时代大放异彩,也算是憾事。其实做基础研究和艺术创作的人都非常不容易,每天徜徉在知识的小黑屋里冥思苦想,时时刻刻准备改变世界,结果很多学术成果和艺术成就都是自己挂了之后才流芳百世的,这种事随便想想也会让人感到悲伤。[/backcolor][backcolor=transparent]当然,这些伟大的创造者和先知先觉的神人大都是以认知世界和发现规律为己任,他们注定是要去拯救和影响一代又一代的后人,所以早已超凡脱俗长袖飘飘,肯定不会有我等这些俗人俗想。[/backcolor][backcolor=transparent]关于贝叶斯定理,刘未鹏和阮一峰的博客上都做过详细的介绍,大家可以去深入学习。我这里做个最简介绍,希望能够帮助大家入门。[/backcolor][backcolor=transparent]贝叶斯定理主要是用来描述两个条件概率之间的关系,先介绍下条件概率。[/backcolor][backcolor=transparent]P(A):表示事件A发生的概率。[/backcolor][backcolor=transparent]P(B):表示事件B发生的概率。[/backcolor][backcolor=transparent]P(A∩B):表示事件A和事件B同时发生的概率,也叫联合概率。[/backcolor][backcolor=transparent]而条件概率的意思就是:事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。同理,P(B|A)就是事件A发生的情况下,事件B发生的概率。[/backcolor][backcolor=transparent]用文氏图可以很容易地推导出贝叶斯公式,如图所示:[/backcolor][backcolor=transparent]当事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B),也就是: P(A|B) = P(A∩B)/P(B)[/backcolor][backcolor=transparent]即:P(A∩B) = P(A|B)P(B)[/backcolor][backcolor=transparent]同理可得:P(A∩B) = P(B|A)P(A)[/backcolor][backcolor=transparent]换算一下就得到了贝叶斯公式:[/backcolor][backcolor=transparent]P(A|B)P(B) = P(B|A)P(A)[/backcolor][backcolor=transparent]也就是:[/backcolor][backcolor=transparent]P(A|B) = P(B|A)P(A)/P(B)[/backcolor][backcolor=transparent] 用人话说出来就是:事件B发生的情况下事件A发生的概率等于事件A发生的情况下事件B发生的概率乘以事件A发生的概率,然后再除以事件B发生的概率。[/backcolor][backcolor=transparent]我承认这句话更像是绕口令而不是人话,反正你们懂的,如果不懂竟然能看到这里,那么你赢了。[/backcolor][backcolor=transparent]下面我们举个例子看看这个公式怎么用。有A、B两个一模一样的箱子,每个箱子里都放了很多黑球和白球。A箱子里有6个黑球,4个白球;B箱子里有1个黑球,9个白球。现在随机选择一个箱子拿出一个球,发现是黑球,请问这个球来自A箱子的概率是多少?[/backcolor][backcolor=transparent]解题思路如下。[/backcolor][backcolor=transparent]我们把"从A箱子拿出球"的事件设置为A事件,"拿出的球是黑球"设置为B事件。由于两个箱子是一模一样的,那么"从A箱子拿出球"的概率是二分之一,即:[/backcolor][backcolor=transparent]P(A) = 0.5[/backcolor][backcolor=transparent]"拿出是黑球"的概率也很容易算出来,把所有的黑球加起来除以球的总数,即:[/backcolor][backcolor=transparent]P(B) = (6+1)/20 = 0.35[/backcolor][backcolor=transparent]"从A箱中拿出黑球"的概率就更容易了,用A箱中的黑球数除以A箱中球的总数,即:[/backcolor][backcolor=transparent]P(B|A) = 6/(4+6) = 0.6[/backcolor][backcolor=transparent]那么根据公式,这个黑球来自A箱的概率就是:[/backcolor][backcolor=transparent]P(A|B) = 0.6×0.5/0.35≈0.857[/backcolor][backcolor=transparent]生活中,我们也常常会被类似的概率问题困扰,比如医患关系中常见的误诊问题,这些都是可以通过贝叶斯公式进行概率演算的,网络上有很多相关案例,有兴趣的可以去阅读学习(搜索"贝叶斯实例"即可)。[/backcolor][backcolor=transparent]以前推荐过的书《黑客与画家》的第8章"防止垃圾邮件的一种方法",就采用了贝叶斯原理实现垃圾邮件过滤器,其中有详细的描述和实现思路,有这本书的读者可以去看看。[/backcolor][backcolor=transparent]还有一个学习材料,是PyCon上的一个视频讲座,配有相关的Python代码库,相关网址为:[/backcolor][backcolor=transparent]https://sites.google.com/site/simplebayes/home/pycon-2013
[/backcolor][backcolor=transparent]另外,如果你想从事大数据领域相关的工作,R语言也是值得关注的一门语言,关于这门语言,我还没入门。[/backcolor][backcolor=transparent] 喜欢的朋友可以添加我们的微信账号:[/backcolor][backcolor=transparent]51CTO读书频道二维码[/backcolor][backcolor=transparent]http://s4.51cto.com/wyfs02/M01/76/B7/wKioL1Za1cGBmLAEAADfYf_wVUs686.jpg
[/backcolor][backcolor=transparent] 51CTO读书频道活动讨论群:342347198 [/backcolor]【责任编辑:book
TEL:(010)68476606】

个性签名

1你和她本来都在哪里只是你们互不相见或只是擦肩而过2一切皆变唯变不变变由 ...

咕咚
注册时间2004-08-06
365
楼主发表于:2017-06-25 11:51只看该作者
2楼
其实做基础研究和艺术创作的人都非常不容易,每天徜徉在知识的小黑屋里冥思苦想,时时刻刻准备改变世界,结果很多学术成果和艺术成就都是自己挂了之后才流芳百世的,这种事随便想想也会让人感到悲伤。
个性签名

1你和她本来都在哪里只是你们互不相见或只是擦肩而过2一切皆变唯变不变变由 ...

咕咚
注册时间2004-08-06
365
楼主发表于:2017-06-25 11:52只看该作者
3楼
《黑客与画家》的第8章"防止垃圾邮件的一种方法",就采用了贝叶斯原理实现垃圾邮件过滤器
个性签名

1你和她本来都在哪里只是你们互不相见或只是擦肩而过2一切皆变唯变不变变由 ...

咕咚
注册时间2004-08-06
365
楼主发表于:2017-06-26 06:21只看该作者
4楼
老的把控新的突破
个性签名

1你和她本来都在哪里只是你们互不相见或只是擦肩而过2一切皆变唯变不变变由 ...

行侠客
注册时间2007-01-17
驿站美文奖365积极参与奖
发表于:2017-06-26 11:12只看该作者
5楼
用机器学习的方法分析外汇市场。 有人会用电脑做这个分析吗?
个性签名

我们没必要比别人更聪明,但是我们一定要比别人更有自控力

本站免责声明:

1、本站所有广告及宣传信息均与韬客无关,如需投资请依法自行决定是否投资、斟酌资金安全及交易亏损风险;

2、韬客是独立的、仅为投资者提供交流的平台,网友发布信息不代表韬客的观点与意思表示,所有因网友发布的信息而造成的任何法律后果、风险与责任,均与韬客无关;

3、金融交易存在极高法律风险,未必适合所有投资者,请不要轻信任何高额投资收益的诱导而贸然投资;投资保证金交易导致的损失可能超过您投入的资金和预期。请您考虑自身的投资经验及风险承担能力,进行合法、理性投资;

4、所有投资者的交易帐户应仅限本人使用,不应交由第三方操作,对于任何接受第三方喊单、操盘、理财等操作的投资和交易,由此导致的任何风险、亏损及责任由投资者个人自行承担;

5、韬客不隶属于任何券商平台,亦不受任何第三方控制,韬客不邀约客户投资任何保证金交易,不接触亦不涉及投资者的任何资金及账户信息,不代理任何交易操盘行为,不向客户推荐任何券商平台,亦不存在其他任何推荐行为。投资者应自行选择券商平台,券商平台的任何行为均与韬客无关。投资者注册及使用韬客即表示其接受和认可上述声明,并自行承担法律风险。

版权所有:韬客外汇论坛 www.talkfx.com 联络我们:[email protected]