赛程预测
全部 场小组赛的逐场预测。每张卡片给出最可能比分、胜/平/负三段概率与期望进球;点击展开比分热力图,或进入比赛详情查看四模型分解与「模型 vs 市场」对照。
模型验算 核心
模型当众给自己打分。历史回测建立可信基线,真实滚动重算监控 2026 实战表现 —— 我们用 proper score(RPS / log-loss)选模型,准确率仅供直觉。当样本不足时,所有指标都会剧烈波动。
实战表现监控
每 15 分钟随新结果重算累计 RPS 收敛曲线
琥珀区 = 小样本(N<);虚线 = 历史回测水平已结算比赛清单
模型对比(可信样本 n=)
按 RPS 升序 · 最优行高亮| 模型 / 基线 | RPS | Log-loss | 准确率 | 精确比分 | 进球 MAE |
|---|---|---|---|---|---|
只用 RPS / log-loss(proper scoring rules)选模型,准确率与精确比分仅供直觉 —— 它们对概率校准不敏感,容易奖励过度自信的模型。
各赛事 RPS 小热力表
| 赛事 | |
|---|---|
颜色越深 = RPS 越低(越好);每行最优描边。
RPS 随半衰期变化
Elo-Poisson 几乎与半衰期无关 —— 稳健性证据。
Pinnacle 收盘 vs 我们的模型(同 n= 场)
| 对手 | RPS | Log-loss | 准确率 | 精确比分 | 差距 |
|---|---|---|---|---|---|
逼近最锐的市场,差 0.004 RPS
Elo-Poisson 与去抽水后的 Pinnacle 收盘共识仅相差约 0.004 RPS,并在 EURO2020 子样本上实现反超。我们诚实地承认:总体上仍未超过市场 —— 这正是把博彩赔率叠加进部署模型的理由。
预测概率 vs 实际频率
点越大 = 样本越多 · 对角线 = 完美校准锦标赛模拟
基于部署模型对剩余赛程进行 次蒙特卡洛实算,统计各队走到每一轮的频率。
前 16 热门
夺冠共识哑铃图
绿线 = 模型比市场更看好(如西班牙、阿根廷);玫红线 = 模型更保守。
各队走到每一轮的概率
前 20 · 颜色越深概率越高| 球队 | R32 | 16 强 | 8 强 | 4 强 | 决赛 | 夺冠 |
|---|---|---|---|---|---|---|
12 个小组 · 通用种子
绿点 = 模拟中最可能小组出线的两队。出线率取自 16 强生存概率。
集成与方法
为什么部署的是单个 Elo-Poisson,而不是四模型平均?为什么有赔率的比赛要叠加市场?这一页诚实交代权重、市场叠加与防泄漏 / 防过拟合的全部要点。
更多模型 ≠ 更好
等权平均三个模型的 RPS()反而比单用最强的 Elo-Poisson()更差。结论很直接:要么从回测里学权重,要么干脆择优单用 —— 我们选择了后者。
四模型权重(如实呈现)
Dixon-Coles 与 Hybrid-RF 在本数据上未降低 RPS,故权重为 0 —— 这不是 bug,而是诚实的结果。接入更富特征的数据后,它们可重新获得权重。
有赔率的比赛如何混合
部署时,对有真实赔率的比赛采用 0.86 博彩 + 0.14 Elo 的混合。诚实的嵌套交叉验证 RPS 为 ;in-sample 的 不作为 out-of-sample 结论。