Regression monet kasvot

Veikkaajan kirous, huonon pelin jälkeen huutaminen ja epäonnistuneen ensimmäisen hypyn tuoma ”paineettomuus” vaikuttavat kaikki todellisilta ja toimivilta ilmiöiltä. Todellisuudessa niissä on kyse yhdestä ja samasta asiasta: paluusta keskiarvoon.
P1260466Jokin aika sitten törmäsin Twitterissä viestiin, jossa urheilutoimittaja manasi ”Veikkaajan kirousta”. Hän oli aiemmin tehnyt jutun hyvässä iskussa olevasta urheilijasta, jonka tulostaso oli hyytynyt kansijutun ilmestymisen jälkeen. Toimittaja harmitteli, että vaikka lehden nimi oli vaihtunut, kirous ei ollut lähtenyt minnekään.

Veikkaajan kirous ei ole mikään yksittäistapaus, vaan pikemminkin hyvin yleismaailmallinen. Yhdysvalloissa sama ilmiö tunnetaan ”Sports Illustrated -taikana”. Aivan kuten Veikkaajankin kohdalla, Yhdysvalloissa uskotaan, että SI:n kanteen päätyneen urheilijan seuraava kausi tai seuraavat arvokisat ovat tuomittuja epäonnistumaan. Ilmiön selitykseksi on tarjottu liiallista itseluottamusta ja suurten tavoitteiden saavuttamisen painetta.

Taloustieteen Nobelillakin palkittu psykologi Daniel Kahneman toteaa kirjassaan ”Thinking, Fast and Slow” selityksen olevan paljon yksinkertaisempi: ”Lehden kanteen yltäneen urheilijan suoritukset ovat väistämättä olleet poikkeuksellisen hyviä edeltävällä kaudella (tai viime aikoina), luultavasti melkoisen onnen saattelemia, ja onni on oikukas.”

Kahneman on luonut yksinkertaisen yhtälön menestykselle ja suurelle menestykselle: Menestys = taito + onni. Suuri menestys = hieman enemmän taitoa + paljon enemmän onnea

Kahneman havainnollistaa asian golfilla. Golf-kierroksen par on 72. Keskitymme nyt pelaajaan, joka menestyy ensimmäisenä päivänä erittäin hyvin ja saa tuloksen 66. Mitä voimme sanoa pelaajasta tuloksen perusteella? Välitön päätelmä on, että pelaaja on taitavampi kuin turnauksen keskimääräinen osanottaja. Menestyksen kaavan mukaan toinen päätelmä on yhtä oikeutettu: näin hyvin onnistuneella pelaajalla on luultavasti ollut myös keskimääräistä parempi onni.

Jos keskitymme myös pelaajaan, jonka tulos oli viisi yli parin, on syytä päätellä, että hän on melko huono JA että hänellä oli huono päivä. On myös täysin mahdollista, että tuloksen 77 saanut pelaaja on oikeastaan erittäin taitava, mutta hänellä oli poikkeuksellisen karmea päivä.

On erittäin todennäköistä, että näiden kahden pelaajan välinen ero pienenee toisena päivänä. Paras ennustettu tulos toiselle päivälle kummankin pelaajan kohdalla on lähempänä paria kuin ensimmäisenä. Syy tähän on regressio eli paluu keskiarvoon.

Ensimmäisenä päivänä menestynyt pelaaja todennäköisesti menestyy myös toisena päivänä, mutta ei yhtä hyvin kuin ensimmäisenä, koska hänellä ensimmäisenä päivänä ollut poikkeuksellinen onni ei todennäköisesti jatku. Ensimmäisenä päivänä huonosti menestynyt pelaaja on todennäköisesti keskiarvon alapuolella toisenakin päivänä, mutta hän parantaa, koska hänen todennäköinen huonon onnen kautensa ei luultavasti jatku.

Saman asian voi havainnollistaa myös nopalla. Jos olemme heittäneet nopalla vitosen, on todennäköistä, että seuraavan heittomme tulos on ensimmäistä pienempi. Jos tuloksena taas on ollut kakkonen, on todennäköistä, että parannamme toisella heitolla tulostamme.

Jos uhkapeluri sanoisi, että hän heitti nopalla ensin nelosen ja sitten vitosen, joten nyt on varmasti kutosen vuoro, osaisimme varmasti päätellä hänen olevan taikauskoinen ja sepittävän mielessään jotain sellaista mikä ei mene yksiin todellisuuden kanssa.

Kun kyse on arpakuutiosta, ihmismielen on helppo hyväksyä satunnainen vaihtelu. Kun kyse on urheilusuorituksesta, asia on monimutkaisempi. Mieli pyrkii järkeistämään satunnaisia tapahtumia ja luomaan niiden syistä uskottavan tarinan.

Mäkihyppy on hyvä esimerkki tästä. Kun hyvä hyppääjä epäonnistuu avauskierroksella ja palaa toisella kierroksella tasolleen, selostaja saattaa selitellä, että parantunut suoritus johtui paineettomuudesta. Kahneman muistaa itse kuulleensa tällaisen selostuksen. ”Selostaja oli ilmeisesti keksinyt paluun keskiarvoon ja sepittänyt kausaalisen tarinan, jolle ei ollut todisteita.”

Kahneman ei kiellä, etteikö osa ilmiöstä voisi olla tottakin. ”Kenties jos hyppääjien pulssit mitattaisiin ennen kutakin hyppyä, voitaisiin todeta, että he todella ovat rennompia huonon ensimmäisen hypyn jälkeen. Tai kenties ei.”

”Tärkeää on muistaa, että ensimmäisen ja toisen hypyn erilaisuus ei edellytä kausaalista selitystä. Se on matemaattisesti väistämätön seuraus siitä, että onni vaikutti ensimmäisen hypyn tulokseen.”

Kyse ei ole siitä, etteikö hyvältä urheilijalta odotettaisi tasaisuutta. Totta kai voi ja sitä pystyy jossain määrin opettelemaankin. Urheilijalle tulee kuitenkin lähes väistämättä tavallista parempia ja huonompia otteluita ja kisoja. Toisin sanoen huonon suorituksen jälkeen tulee parempi ja poikkeuksellisen hyvän jälkeen lopulta huonompi. Tärkeää on olla vetämättä yksittäisistä onnistumisista tai epäonnistumisista liian suuria johtopäätöksiä.

Miten tämä kaikki liittyy jalkapalloon? Monellakin tavalla. Esimerkistä käy vaikkapa valmennuskulttuuri. Joillakin valmentajilla on tapana huutaa pelaajilleen huonon ottelun jälkeen. Heidän kokemuksensa mukaan tämä toimii, koska pelaajat yleensä palaavat tasolleen ja pelaavat seuraavassa ottelussa paremmin.

Joku valmentajista on saattanut kokeilla myös kehuja poikkeuksellisen hyvän pelin jälkeen ja huomannut sitten suureksi yllätyksekseen, että pelaajat eivät pelanneetkaan seuraavassa ottelussa vielä paremmin vaan todennäköisesti huonommin. Näistä kahdesta kokemuksesta valmentaja on sitten raapustanut mielessään osiaan suuremman tarinan ja päätellyt, että huutaminen toimii kehumista paremmin.

Valmentaja on oikeassa siinä, että kummallekin tapaukselle on yhteinen selittäjä, mutta se ei ole keppi eikä porkkana vaan regressio. Peliesitysten muutokset olisivat olleet luultavasti samansuuntaisia vaikka valmentaja olisi lukenut pelaajilleen Eino Leinon runoja ja näyttänyt päälle perheensä lomakuvia.

Samat lainalaisuudet pätivät myös urheilutoimittajan ongelmaan. Veikkaajan kirous ei hellittänyt kun lehden nimi vaihdettiin Urheilusanomiksi, koska mitään kirousta ei ollut. On vain regressioilmiö.

Advertisement

Numeropeli vai Soccernomics?

Jalkapallo ja tilastot ovat löytäneet vihdoin toisensa myös kirjallisuudessa. Genren tuore edustaja Numeropeli on julkaistu jopa suomeksi.

P1260462Rakastan numeroita ja tilastoja lähes yhtä paljon kuin rakastan kirjoittamista ja jalkapalloa. Ensimmäisen lehtijuttuni kirjoitin syksyllä 1997 jalkapallon MM-kisojen tilastoista. Ja kun lukio-opintojeni jälkeen menin yliopistoon, opiskelin kahden ensimmäisen vuoden ajan pääaineenani tilastotiedettä. Sitten pääsin kolmannella yrittämällä journalistiikkaan. Kiinnostukseni tilastoita kohtaan jatkuu silti edelleen.

Tästä kaikesta johtuen olen ollut äärimmäisen innostunut jalkapallon tilastoitumisesta. Jalkapalloa käsittelevän datan määrä on kasvanut räjähdysmäisesti viimeisen viiden vuoden aikana. Aivan viime vuosina on kasvanut myös aihetta käsittelevien kirjojen määrä. Voisi sanoa, että oli jo aikakin. Michael Lewisin Moneyball-teos mullisti baseballin jo kymmenen vuotta sitten. (Aiheesta lisää tuolla: http://puoliaika.wordpress.com/2012/01/24/moneyballin-opetukset/)

Bestselleriksi noussut ja Hollywood-elokuvaksikin päätynyt Moneyball avasi ovet urheilun datakirjallisuudelle. Jalkapallon puolella ovista tuli sisään ensin Simon Kuperin ja Stefan Szymanskin Soccernomics (alkuperäiseltä nimeltään Why England Lose?).

Kuper ja Szymanski mursivat teoksessaan managerien messias-myytin kertomalla palkkabudjetin selittävän joukkueen sijoituksen 92-prosenttisesti. He avasivat siirtomarkkinoiden yleisimmät virheet ja salaisuudet, selittivät miksi keskisuuret kaupungit eivät enää menesty ja avasivat rangaistuspotkut peliteorian avulla.

Tänä vuonna Soccernomics sai kilpailijan, kun amerikkalaiset Chris Anderson ja David Sally julkaisivat The Numbers Game -kirjan. Opus suomennettiin käännettiin pikavauhtia Numeropeliksi. Tämä oli erityisen tervetullutta siksikin, että sekä Moneyball että Soccernomics ovat edelleen kääntämättä.

Aloitetaan positiivisista uutisista. Numbers Game on kiehtova ja ajatuksia herättävä. Andersonin ja Sallyn kenties suurin oivallus on esitellä jalkapallo pelinä, jossa heikoin lenkki vaikuttaa vahvinta enemmän. Lisäksi kirja on hyvin kirjoitettu, eikä siinä viljellä turhaan akateemista jargonia. (Samaa voi luonnollisesti sanoa vielä suuremmalla syyllä Moneyballista ja Soccernomicsista, mutta se ei ole mikään yllätys: Lewis ja Kuper ovat sukupolvensa parhaita kynämiehiä.)

Numbers Game tekee erinomaista työtä myös avatessaan jalkapallon perusluonnetta vähämaalisena pelinä. Kun maaleja tehdään vähän, satunnaisuus on yksittäisissä otteluissa vahvempaa. Myös Andersonin ja Sallyn perusteelliset analyysit maalimäärien vaikutuksesta menestykseen ovat mielenkiintoista luettavaa.

Tämän kaiken lisäksi Numbers Game on julistava, välillä jopa ärsyttävyyteen asti. Kirjan alaotsikko ”Why Everything You Know About Football Is Wrong” on turhaa liioittelua. Samanlaista oman rinnan takomista tulee sivuilla vastaan aina silloin tällöin, pahimmillaan jopa asian ja lukijan kustannuksella.

Tilastotieteen professorillani oli tapana sanoa, että kun tulokset ovat valmistuneet, tilastotieteilijä lähtee kahville. Kevyeen lausahdukseen sisältyi suuri viisaus. Ihmisellä joka on juuri tehnyt numeroista löydöksen, on tapana liioitella havaintonsa merkittävyyttä.

Ensimmäinen lehtijuttuni oli tästä malliesimerkki. Olin löytänyt tilastollisia yhtäläisyyksiä, joilla pystyi laskemaan MM-kisojen mitalijoukkueet jo neljännesvälierien jälkeen. Ehtoja oli neljästä viiteen. Mestarijoukkueen piti muun muassa pelata alkulohkossaan yksi 1-1-tasapeli ja voittaa ensimmäinen pudotuspeliottelunsa maalilla. Hopeajoukkue taas ei saanut voittaa avausotteluaan.

Olin tuloksistani niin innoissani kuin 15-vuotias voi vain olla. Uskoin löytäneeni viisasten kiven. Käytäntö osoitti kuitenkin pian, että teoriani toimi paremmin menneisyyden kuin tulevaisuuden ennustamiseen. Tulosteni mukaan Romania oli kesän 1998 MM-kisojen alkulohkojen jälkeen ainut maa, jolla oli mahdollisuudet mestaruuteen.

Tilastoja tutkiessa tärkeintä on löytää olennaiset luvut ja tulkita niitä oikein. Kuten amerikkalainen analyytikko Nate Silver totesi: ”Suurin osa datasta on pelkkää kohinaa, aivan kuten universumi on täynnä tyhjyyttä.” On helppo kuulla ääniä kohinassa ja vielä helpompaa on nähdä omat löydökset kokoaan suurempina. Juttuani tehdessäni olin löytänyt pelkkää kohinaa, joka kuulosti korvissani musiikilta.

Hieman toisen tason esimerkki professorini viisaudesta on Andersonin ja Sallyn väite, jonka mukaan Chelsean olisi pitänyt ostaa aikoinaan Fernando Torresin sijaan Darren Bent. Väitteen perustelu on se, että Bentin maalit toivat Sunderlandille enemmän pisteitä kuin Torresin osumat Liverpoolille.

Torresin siirto on helppo maalitaulu, mutta nostamalla Bentin esiin Sally ja Anderson ampuvat pahasti ohi. He ohittavat pelillisen sopivuuden kaltaiset keskeiset kysymykset ja pyrkivät vastaamaan monen vaikean kysymyksen sijaan yhteen helppoon kysymykseen. Tämä on inhimillinen virhe, ja seurat tekevät samaa yhtenään. Tutkijoilta odottaisi kuitenkin kriittisempää otetta. Omia löydöksiä kohtaan pitäisi malttaa olla yhtä kriittinen kuin niitä myyttejä joita yrittää murtaa.

Chelsea oletti, että Torres tekisi heille paljon maaleja koska hän oli tehnyt Liverpoolille paljon maaleja. Sally ja Anderson puolestaan olettivat, että Bent olisi tuonut Chelsealle paljon pisteitä, koska hän oli tuonut niitä paljon Sunderlandille.

Molemmat päätelmät ovat osoittautuneet tahoillaan vääriksi. Torres ei ole maalannut Chelseassa lähimainkaan samalla tahdilla kuin Liverpoolissa. Bent on puolestaan tämän ja viime kauden aikana tuonut maaleillaan Aston VIllalle ja Fulhamille vain viisi pistettä.

Kenties vielä parempi vertauskuva Sallyn ja Andersonin virhearviolle olisi Liverpoolin ”Moneyball-kokeilu”. Seura teki ensin oikein ratkaisun myydessään Torresin isolla rahalla Chelseaan, mutta tyri sitten jatkohankintansa vähintään yhtä perusteellisesti. Seura hankki Stewart Downingin, koska tilastot paljastivat hänet Valioliigan parhaaksi keskittäjäksi ja Andy Carrollin koska hän oli paras puskemaan keskityksistä maaleja. Seurassa kuitenkin unohdettiin lukea se tärkein tilasto, joka olisi kertonut, että keskitykset eivät ole tehokas tapa tehdä maaleja. Liverpool tuhlasi kymmeniä miljoonia puntia

Bentin kaltaisia tapauksia on kirjassa pari. Siksi Numbers Gamea kannattaa lukea toisinaan hieman suodattimen läpi. Toisaalta jo alaotsikko tekee selväksi, että näin pitää menetellä. Tämä on tarpeen siksikin, että osaava tilastonikkari voi tehdä numeroilla melkein mitä vain.

Kun Anderson ja Sally haluavat korostaa jalkapallon yllätyksellisyyttä, he julkaisevat tilaston, jossa kerrotaan ennakkosuosikkien voittavan jalkapallossa vain 55 prosenttia otteluista. Luku vaikuttaa pieneltä, varsinkin kun sitä vertaa käsipallon ja koripallon noin 70 prosentin lukemiin. Vaikka kirjassa ei sitä sanotakaan, hätäisempi lukija saa käsityksen, että altavastaajat voittavat 45 prosenttia jalkapallo-otteluista. Näin ei tietenkään ole. Tasapelit syövät ison palan prosenteista.

Jos verrattaisiin sitä, kuinka usein altavastaajat voittavat otteluita, tilastot näyttäisivät (jälleen tasapelien takia) aivan erilaisilta. Voittotilasto palvelee kuitenkin Andersonin ja Sallyn tarkoitusperiä paremmin. Ja he ovat kieltämättä oikeassa väittäessään tilaston johtuvan jalkapallon vähämaalisuudesta, sillä juuri se aiheuttaa tasapelien runsauden kuningaslajissa.

Näistä puutteistaan ja ajoittaisesta mittasuhteiden hukkaamisestaan huolimatta Numbers Game on hyvä kirja. Soccernomics on parempi. Mutta jos genren parasta teosta etsitään, niin siitä ei ole epäilystäkään: se on edelleen Moneyball.

Silti ei ole mitään syytä tyytyä yhteen. Jalkapalloihmisten ja varsinkin seurojen päättäjien hyllyissä pitäisi olla tilaa kaikille kolmelle teokselle.