大数据看球:提升球队成绩的正确打开方式

大数据看球:提升球队成绩的正确打开方式
这个秋天,广州恒大让自己的球迷过得惶惶不安。这支之前在中超联赛中夺得13连胜的球队,在9月遭受了两负一平,10月也仅获得一胜一平的局势,前期堆集的夺冠优势被耗费殆尽,主帅卡纳瓦罗也因而被告诉前往恒大总部“上课”。遐想赛季之初,声称“我国国家集训队”、坐拥强力内外援的广州恒大曾被球迷戏称为联赛的“内定冠军”,这一番比照怎不令人感慨万千? 其实,在中超甚至整个足球运动中,各种“黑马”、“意外”一直都层出不穷,这也是足球运动的魅力地点。关于这样一项既考究单兵才能也考究战术与合作的运动来说,任何单一的优势下风都不足以持久地左右竞赛的成果,不到终场哨声吹响的一刻,变数永久存在。球队想要成为赛场的王者,必定要统筹好球员、资源、规划与履行等各个方面。 这次的事例,咱们测验经过数据的办法,探究哪些要素或许会影响中超球队的成果。 数据阐明 咱们从“创冰DATA”获得了中超2014~2019赛季的竞赛数据(以2019赛季到7月19日前18轮的数据练习模型,以2019赛季到11月21日前27轮的数据进行猜测)。每行数据代表一只球队在某个赛季的竞赛成果和体现,得到如表1所示共35个变量。除球队称号、赛季、球队地点地域外,其它变量均为某支中超球队在一个赛季中各场竞赛数据的平均值。 表1 数据原始变量阐明表 本事例仅有96条观测,却有多达31个定量变量;而且同类变量之间自身存在较强的相关性。为了防止共线性等问题对后续的建模剖析发生负面影响,所以咱们先经过因子剖析的办法对原始变量进行了降维。 咱们运用最大方差法对主成分进行旋转,得到因子载荷矩阵,依据累计方差贡献率大于80%的原则,将原始变量概括为7个因子,并结合业务知识,将因子命名为传球水平因子、进攻水平因子、非决定性因子、禁区外射门因子、进球取胜因子、一般防卫因子和要害防卫失误因子。详细每个因子包括的原始变量及相联系数见表2。 表2 7个因子与原始变量的联系表 描绘性剖析 因变量:场均积分数 从图1可以看出,本事例的因变量“场均积分数”呈现显着右偏的状况:其均值为1.37分/场,中位数为1.23分/场。场均积分数目标的最小值为0.57分/场,对应2015赛季上海申鑫足球队,该球队在这个赛季降级。最大值为2.67分/场,对应的是2019赛季的北京国安足球队,该球队在本年的前18轮联赛中现已累计获得48分,领跑积分榜。 图1.场均积分数的散布状况 自变量:区域 图2左上角的子图展现了球队所在区域与其场均得分之间的联系。从图中可以看到,南边球队在近几个赛季的成果好于北方球队。咱们估测,这与南边球队资金富余,砸重金引入大牌内、外援有必定的联系。比方,广州恒大就引入了很多国脚级内、外援,之前也获得十分不错的成果。相比之下,堕入预算危机的辽宁宏运,则在球队实力不济、赞助商转手的漩涡里日渐沉沦,终究惨遭降级。 图2.区域、传球水平因子、进攻水平因子和进球取胜因子与场均积分数的联系 自变量:球场体现因子 图2中的其他三张子图,别离展现了因变量场均积分与传球、进攻与进球三个因子之间的联系。这三个自变量与因变量之间别离呈现正向必定程度的正相关联系。 右上角的子图展现了传球水平因子与场均积分数之间的正相关联系。一支球队的传球水平高,意味着其控球率高,可以占有场上的主动权,然后也更有或许多进球、少丢球,终究赢得竞赛。 左下角的子图展现了进攻水平因子与场均积分数之间的正相关联系。进攻水平因子归纳了射门次数、禁区内射门次数和进攻主导率等目标的影响,是一支球队的整体进攻才能的体现。右下角的子图则展现了进球水平因子与场均积分数之间的正相关联系。进球水平因子反映了点球数、禁区内射正数等原始目标的影响。一个球队进攻才能越强、拍门次数越多,也就越有或许赢得竞赛。 图3展现了别的四个球场体现因子与因变量之间的联系。从中可以看到,非决定性因子、禁区外射门因子、一般防卫因子和要害防卫失误因子与场均积分数之间的相关性相对较弱。 图3.非决定性、禁区外射门、一般防卫和要害防卫失误因子与场均积分数的散布状况 经过以上剖析咱们发现,或许对球队场均积分数或许会发生影响的主要要素有:球队所属区域、传球水平、进攻水平,是下一阶段建模剖析中需求重视的要点;禁区外射门、进球取胜和要害防卫失误等因子关于竞赛成果或许也会有必定的影响。 回归模型 接下来,咱们在以上调查的基础上,运用对数线性回归模型来定量地探究中超球队场均积分数的影响要素。选用逐步回归的办法,依照AIC原则进行变量挑选,得到如图4所呈现的模型成果(图中变量称号后的星号代表了参数对应的p值巨细,星号越多则p值越小)。从图中可以看出,终究的模型只剔除了非决定性因子这个变量。模型经过了F查验,调整后的R方为0.68,可以在必定程度上解说球队成果水平的改变。残差确诊相关的各项查验成果也都契合假定要求。 图4.对数回归模型的系数 依据图4所呈现的模型,地域和六个球场体现因子对球队的成果都有必定的影响:在中超联赛中,南边球队的成果相对愈加优异。几个球场体现因子中,影响最大的是进球取胜因子,其次是进攻水平因子,它们都是描绘球队进攻风格的变量:一只球队假如可以尽或许多地建议进犯、进步射正比率,天然进球的或许性也会更高,然后更或许赢得竞赛。 传球水平因子、禁区外射门因子和要害防卫失误因子的影响则相对要小一些,其间:要害防卫失误因子的系数为负,意味着防卫中呈现严重失误则会下降赢球的或许。而一般防卫因子在5%明显性水平下不明显,这或许是因为它所对应的犯规数和黄牌数等动作是场上较为常用的一种技战术,不管球队局势怎么,都有或许采纳这种方法来推迟对手的进攻,所以对终究竞赛成果的影响较为有限。 接下来,咱们经过模型猜测各中超球队在2019赛季的终究体现,并将之与更新至11月21日(第27轮)的实在竞赛数据作比。得到的猜测成果和猜测差错如表3所示,对折球队场均成果的猜测差错不超越±16%,标明球场体现目标等关于球队成果有必定的猜测才能。 表3 2019赛季27轮后竞赛成果猜测表 小结 从本次剖析的成果来看,球队要想在中超联赛中获得好成果,首要要做到活跃进攻,进步进球的或许性;其非必须确保没有特别严重的失误拖后腿。一起,南边球队一般都有实力雄厚的赞助商支撑,在体现上整体比北方球队要好,本钱的支撑关于获得好成果也有促进作用。此外,球队也应留意球员的基本功,如控球和传球才能,关于进步控球几率、添加进攻时机,然后终究赢得竞赛,都会有所协助。球队在引入内、外援时,也应该重视候选球员在上述水平上的才能,将其作为是否引入的重要依据。 最终,衷心希望中超联赛可以越办越好,不再成为国内球员的“漫步场”、国外球员的“养老院”,而是真实可以成为足球国际的“第六大联赛”。中超联赛水平变高之日,就是我我国足球名扬国际之日!

发表评论

电子邮件地址不会被公开。 必填项已用*标注