星星体育

大数据分析、在线聊球、专家推荐

立即下载

打破足球比赛主场优势的迷思

米兰天使西蒙尼 2020/09/21 14:09

在互联网和物联网的大潮之下,加上芯片、感应器、机械人随处都是,大数据大行其道,数据科学成为各个领域中的尚方宝剑,仿佛「得数据者得天下」。在足球产业中,这股旋风也是方兴未艾,不少分析指出近年的冠军球队均得力于数据科学。然而,我们虽然得益于数据大爆炸,在赛事解读上仍然存在许多先天的缺陷,最致命的就是因果分析的落差。当中的原因,便是分析社会现象和足球赛事,科学家很难模仿自然科学在实验室中以干预和介入的方法,找出前因和后果的关系。

不过,全球肆虐的新冠肺炎,和由之所引申的封城和解封,正好提供了一次类似的介入干预,把现象分拆为事前和事后、处理组和控制组等,某程度上模拟实验室中的随机对照检测(RCT)。

《经济学人》今年7月,与一家近年声名鹊起的「21st Club」(顾名思义,他们自诩是英超作赛的「第21队」),以疫前和疫后的赛事,对球坛上一个长期存在、但也难以解释的「迷思」——主场优势,做了一次「类干预」的差分解释。

主场优势既真实却又难以解释

主场优势,既真实却又难以解释,德国数据科学家就曾列出(1)熟识场地,(2)球迷支持,(3)球证偏帮,(4)自我安慰(觉得主场占优所以主场真的占优)等等,作为解释项,并总结地说,没有一项是可以「清晰地被证明」。 (注1)

然而,新冠肺炎所引发的疫症大流行,却给第21队一次难得的数据采集的机会。他们的样本,包括了欧洲16个联赛组别,如英格兰的英超和英冠,和德国的甲、乙和丙组等,疫前是由2019年8月至2020年3月共5294场比赛作为控制组,疫后复赛的就有自2020年5月以来1534场比赛,作为处理组。

经整理后,他们有以下发现疫前和复赛后主队得分是否多于该场比赛的50%的数据。疫前的数据显示,共有15个联赛的主队平均而言取分的确占优,其中以西甲、波兰甲和捷克甲的优势最明显,得分近65%;只有奥地利甲例外。但复赛之后,主场优势有所回落,现在有「只有」有13个联赛平均而言主队仍然取分过半。虽然如此,主场仍然明显占优(13/16),而且,在那13个组别之中,有7个(包括英超和意甲)的主场得分百分比其实是有所提升的!

过去不少分析,指主队的优势,是透过主场球迷排山倒海的叫喊声,影响球证的判断,令其在不自觉之下「偏帮」主队,惩罚客队,这体现在罚牌数目。图中显示,疫前平均而言,客军的罚牌数都多于主队;而复赛后,由于是闭门作赛,情况大幅改善,只有5个联赛仍然呈现客队得罚牌数多于主队。

第一至第四列加在一起,即是说虽然球证比较中立了,主场优势虽然有所修窄,但是整体上,主队得分仍然较多。那该怎么解释呢?数据科学家在这里,拉出进一步的数字,试图解释为什么这个现象会持续。图中第五六列是疫前和复赛后,在那16个联赛的赛事中,平均而言,主队是否能够取得超过50%的射中门机会。结果显示,疫前主队是百分百(16/16)占优;复赛后,主队的优势略为下降,但仍在15个组别中呈明显的优势。由此,数据大师解释指主场优势的持续,是因为主队射中门的次数多,简言之,就是主队踢得好。

以「射中门的次数较多」作因子,难以自圆其说。主场优势,自然是说主队得分多,得分多,大部分情况下自然是因为射中球门的次数较多(有例外、但例外不是普遍)。所以,射门占比,其实很大程度上就是主场优势的反映,在因果关系的链条上,其实更似是一个果子,多于作为一个因子。

大数据或者数据科学,始终须要靠我们用人的思维逻辑(如因果关系的设定)来判断,否则,给五花八门的图表吓唬,还真以为找到了解答迷思的钥匙。

特别声明:所有言论仅代表发布者个人意见,星星体育仅提供发布平台,信息内容请自行判断。

参与评论
(文明上网理性发言, 共同维护评论氛围)
0条评论

22:00
亚足联亚洲杯 23岁以下
周四004
卡塔尔U23
vs
日本U23
00:45
荷兰甲级联赛
周四001
海伦芬
vs
埃因霍温
01:00
瑞典超级联赛
周四002
诺科平
vs
埃尔夫斯堡
01:30
亚足联亚洲杯 23岁以下
周四005
韩国U23
vs
印尼U23
03:00
英格兰超级联赛
周四003
布莱顿
vs
曼城

确定举报此条评论吗?

确认 取消