Datan auditointi

Simo Ruoho Lokakuu 2018

Ryhdyin tarkastamaan eli auditoimaan globaalia lämpötiladataa, ja aloitin Sodankylän sääaseman 110 vuotta jatkuneista vuorokausimittauksista (muutamalla mittauskatkolla).

Tässä vaiheessa data on toimitettu GHCN-tietokantaan, ja sille on tehty ensimmäinen laatukontrolli. GHCN -data, jota käytetään kaikkien merkittävien globaalien anomalioiden pohjana, pettää: Kylmiä mittauksia on pudotettu pois lämpimiä enemmän, ja pudotuksia on tapahtunut eniten 2000-luvulla. Historiassa kylmätkin päivät ovat kelvanneet.

Ensimmäisessä laaduntarkistuksessa (qc) alkuperäisestä datasta pyritään siivoamaan ns. epäkelvot yksittäiset mittaukset. Dataa ei tässä vaiheessa ole muokattu, vaan ainoastaan karsittu. Sodankylän aseman osalta jo pelkkä karsinta on johtanut merkittävään trendin nousuun.

Jos GHCN feilaa jo enismmäisessa vaiheessaan, meillä ei voi olla tietoa onko ilmakehä edes lämminnyt. Sodankylä on sinänsä merkittävä asema, että se vaikuttaa yksinään globaaliin tulokseen merkittävän laajalla alueella.

Ongelma qc:ssä on mielestäni jo tämän aseman osalta niin suuri, ettei sitä kannata edes korjata, vaan pitäisi aloittaa aivan alusta (alkuperäisestä asemadatasta).

 

Aineisto on saatavana, metodi kuvattu ja toivon, että jokainen joka on sitä mieltä että jokin tässä olisi virheellistä, tulisi Ilmastofoorumiin ja osoittaisi virheen kuten tieteeseen kuuluu. Linkki keskusteluun alla.

https://www.facebook.com/groups/ilmastofoorumi/permalink/10155977628892725/

Virhe laatukontrollissa vaikuttaa merkittävältä

Kyse ei tässä ole kesästä ja talvesta, vaan sininen trendi kuvastaa kuinka paljon suhteellisesti kylmempien mittauspäivien poistaminen laatukontrollissa vaikuttaa trendiin 2000-luvulla.

Jos laatukontrolli olisi poistanut mittaustuloksia tasaisesti keskimääräistä lämpimämmiltä ja kylmemmiltä päiviltä, oletan että nämä trendiviivat kulkisivat suurinpiirtein samaan suuntaan. Nyt ’siivous’ on aiheuttanut useamman asteen muutoksen 18 vuodessa vain toiseen trendiin. Lopputuloksena, näiden kahden keskimääräinen trendi osoittaa lämpiämistä, jota ei siis ehkä ole. Virhe laatukontrollissa vaikuttaa merkittävältä.

Emme voi tietää, onko lämmennyt vai viilennyt näiden perusteella, jos pohjalla oleva data on viallista

Toivottavasti jokin meridata tai satelliittimittauksista johdettu lämpötilasarja on luotettavampaa.

Tähän samalla listaa, mihin kaikkeen olen tässä vaiheessa auditointia törmännyt (ihan vain Sodankylää tarkastelemalla):

– FMI:n asemadatan ja GHCN-D qcu:n laatukontrollin läpäisseen datan vuorokausiarvot poikkeavat toisistaan merkittävästi

– GHCN-D:stä puuttuu laatukontrollin jäljiltä merkittävä määrä selvästi kelvollisia mittaustuloksia, erityisesti 2002- eteenpäin, ja enemmän keskimääräistä kylmemmiltä päiviltä

– GHCN-D tietokanta on ristiriitainen myös itsensä kanssa: Sen Daily max ja min -arvot poikkeavat QC:n läpäisseistä arvoista Testattu joulukuu 2003 -datalla, eroa -8 ja +18 astetta (!)

– GHCN-D qcu on versiota 3, mutta versiota 1 ei ole saatavilla vertailuun. En siten voi tarkistaa, onko unadjusted-dataan tehty muokkauksia (TULOKSET POIKKEAVAT FMI-DATAAN, joten jompaan kumpaan välttämättä on)

– GHCN-D:n laatukontrollin tutkimus mainitsee että kylmiä päiviä on putoillut enemmän (myös oman havaintoni mukaan 11% enemmän Sodankylässä), ja että tämä vaikuttaa trendiä nostavasti. Syytä ei tutkimus osaa sanoa, epäilee aseman siirtoja (ei tapahtunut Sodankylässä)

Vahva ensivaikutelma: GHCN-D v3 kuuluu roskikseen, koska sen perusteella ei voi päätellä globaalin lämpötilakehityksen trendejä. Tämä pitäisi vielä varmistaa ottamalla auditointiin mukaan muitakin laajalla alueella ja pitkällä ajalla globaaliin tulokseen vaikuttavia sääasemia, mutta jo yhden virheiden ollessa näin huomattavia, en tiedä onko varmistus tarpeen.

Data-maailman tutkimusmatkailija Simo Ruoho

”Ne muokkaa, tutkii ja lannoittaa, ne hyödyntää kaiken minkä saa. Jos tahdo et olla niiden riistomaa, epäile vain.

 

Mulle kaikki valmiina syötetään, ne tahtoo jalat, tai kädet, tai pään. Mutta kokonaan ei, ei kirveelläkään panostain.”

 

Juice Leskinen – Epäile vain

Simon Sodankylä auditoinnista keskustelua Ilmastofoorumissa

 

Siis oikeasti nykyaikaisia mittaustuloksia poistetaan poikkeavina? Nimenomaan eniten niitä viimeisiä ja käytännössä luotettavimpia. Niinkun mitä v….a?

Jos mittausdata osoittautuu vääräksi, kenelle voi tehdä tutkintapyynnön? Poliisille?

Pitää vaan saada enemmän näkyvyyttä AVOIMEN datan AVOIMELLE tutkimiselle. Nimenomaan tutkimiselle, ei tulkinnalle, jota konsensus harjoittaa.

Montako prosenttia datasta puuttuu? Mikä on kokonaisvaikutus trendeihin?

Vastaus: Ei kai sitä vaikutusta voi tietää, kun ei tiedä arvoja joita on poistettu. Mitä prosenteista kun ajallisesti on poistettu enenevässä määrin. Puuttuihan siellä kokonaisia viikkojakin. Itse vuosia sitten olin havaitsevinani että kevätkuukausissa olisi enemmän poistoja jotka painottuisivat kuun alkupuolelle, joka näkyisivät kuukausittaisina lämpenemisinä jos asia jätettäiin huomiotta tilastoanalyysissa. Emmehän voi tietää mitä metodia käytti kukin taho. Pitäsikö kahlata sanomalehtiä, saattais nimittäin löytyä keväisiä paukkupakkasia. Sodankylällä on suuri painoarvo suomen keskilämmöissä, semminkin kun se oli pitkään yksi kolmesta asemasta joiden perusteella Suomen keskilämpötila laskettiin.

2002- alkuperäistä dataa on jäljellä alle 75%, 2016- enää alle 60%. Poistoja on tehty pääosin kylmästä, joten periaatteessa voisin koettaa esittää poistojen vaikutusta kahdella trendillä: Jäljellä oleva data joka ovat yli kk-keskiarvon, ja sen alla. Toimisikohan? (arvelisin, että tasapuolisessa qc:ssä nämä trendin näyttäisivät suurinpiirtein samaan suuntaan)

Simo Ruoho

Kysyjä: Millainen tuo data on rakenteeltaan? Varmaan historian kuluessa mittaustiheys on lisääntynyt, mutta onko tuossa esim. vain vuorokauden keskiarvo, vai miten lienee?

Entä ne poistot, onko yksittäisiä, vai onko peräkkäisiä ketjussa?

Löydätkö mitään järkeä tälle touhulle?

Vastaus: Yksittäisiä sekä perättäisiä. Muistaakseni lähin pitkähkö on Kantalahti eli Kandalax. Sen GISS station data on täysin käyttökelvoton. Jossain on kuitenkin toinen datasarja jota joku on käyttänyt vertailuun Sodankylän kanssa tuloksena että näyttävät samaa. Jos sen löytää, voisi tarkastella mikä on niin erikoista puuttuvissa päivissä että ne piti poistaa, vai oliko joku muu syy. Meinaan noi talviset korkeapaineet ovat sangen laaja-alaisia, meinaan jos luulee niitä pimitetyn.

Asia lienee penkomisen arvoinen, voihan nimittän katsoa että koko suomen ilmastopolitiikka lepää Sodankylän datan varassa, ja mullehan se ei näytä yhtään mitään muuta kuin sen minkä tiedämme ennestään, eli ei tilastollista merkitsevää lämpenemistä.

Tämän laatuisesta GHCN-datasta en yrittäisi päätellä ilmastonvaihtelua Lapissa kuin vuosivälillä 1908-1959. Punainen: dataa 90% / 365 vrk, näyttää lämpimän 30-luvun sekä 40-luvun lopun. Täsmää AMO-huippuun, joka lisää luotettavuutta.

 

Rakenteesta: Pisin yhtenäinen (ja qc:n läpäissyt) mittausjakso on 1932-1944. Vuosivälillä 1919-1944 on hyvin vähän katkoja, ja pahemmaksi muuttuu mitä lähemmäs nykyhetkeä tullaan. Mittaustiheyden muutoksista en tiedä varmasti, yleensä esitetään vrk-maksimin ja minimin keskiluku.

(EDIT: Vrk keskiarvo mitataan nykyisin Suomessa kahdeksan tuntimittauksen keskiarvona, vain joissain maissa vuorokauden maksimin ja minimin keskiarvona. Auditointi on tehty vuorokauden maksimista ja minimistä lasketuilla vuorokausikeskiarvoilla.)

Simo Ruoho

Pin It on Pinterest

Shares
Share This