maanantai 25. maaliskuuta 2013

Piki irti ja puhtaaksi eli tietokantasiivousta Tamperella



Kansalliskirjaston kuvailun tiedotuspäivillä 20.3. Tarja Mäkinen ja Mace Ojala ovat puhuneet kirjastojen tietokantojen laadusta. Ilmeisesti tilaisuutta ei kokonaisuudessaan videoitu, joten meille poissaolleille keskustelun sisältö näyttää jäävän arvoitukseksi. KK:n sivulta löytyy kuitenkin molempien alustukset ja muualta verkosta Macen varsinainen raportti Piki-tietokannan siivousmenetelmistä, joka onkin varsin kiinnostavaa luettavaa. Ja paikoin hidasta luettavaa, koska ilman ohjelmointitaitoja saa merkkejä tuijottaa hetkisen, ennen kuin koodeista muodostuu jotain, joka voi päänsisäisissä prosesseissa kääntyä yleiskirjastoa puhuvan ajatustasolle.

Kyseessä oli kahden kuukauden projekti, jonka tavoite oli ”parantaa PIKI-kirjatojen bibliografisen tietokannan laatua ja kehittää kirjastojärjestelmän ulkopuolisia, tietoteknisiä menetelmiä sen tekemiseen”. Kysymys herääkin oitis: miksi tietokannan ulkopuolisia menetelmiä, miksi muutoksia ei voisi tehdä suoraan tietokantaan?

Projekti meni suoraviivaistaen näin: PIKI-tietokannasta otettiin ulos dumpiksi sanottu tietueet sisältävä datapaketti, jota Mace pyöritti eri vinkkeleistä, haki virheitä, epäloogisuuksia, puutteita eli suoritti louhintaa ja analysointia. Toinen kysymykseni koskeekin seuraavaa oletettua loogista askelta: miksi siivottua dataa ei voitu laittaa takaisin tietokantaan?

Kylmä hiki selässä raporttia lukee kuin jännitysromaania - timanteista voi haaveilla, mutta tässä louhinnassa tulee pahaa tulosta. Dataa tutkittiin eri näkökulmista: teknisessä tarkastuksessa tutkittiin ovatko tietueiden koodit käytetyn MARC21-formaatin mukaisia. Sitten selvitettiin kenttiin merkittyjä arvoja ja arvojen paikkansapitävyyttä. Selvisi, että tietokannassa on esim. tietueita, joilta puuttuu kokonaan nimiö tai 008-informaatiokoodikenttä jota ei saa (ja toivottavasti ei voi) toistaa. Kenttien sisältöä on koneellisesti vaikeampi tutkia, mutta siitäkin voi selvittää esim. päivämääriä, joita ei tietueissa pitäisi olla, esimerkiksi vuodelle 2102 julkaistuksi merkitty Valtaojan uutuus. Mitä veikkaatte, onko copyright-tieto merkitty jokaisessa tietueessa samalla kirjoitusasulla? Vastaavatko kielikoodit Kansalliskirjaston listaa? Onko kontrolloimattomien asiasanojen kentässä myös kontrolloituja asiasanoja? Ei, ei, kyllä. PIKI:ssä on käytössä 25 sijaintipaikkaa, erilaisia sijaintipaikkakoodeja tietokannasta löytyi noin 2000 erilaista versiota.

No mitä sitten, jos joku kielikoodi ei ole oikein, ja kyllähän sitä ymmärtää jos vuosi on vahingossa kirjoitettu väärin. Mutta tylsämielinen apparaatti, joka orjallisesti tekee mitä käyttäjä pyytää, ei ainakaan vielä osaa päätellä Valtaojan liittyvän vuoteen 2012 vuosien 1013 ja 2103 - tai Konnun - sijaan, ja antaa hienosti muotoiltuun hakuun ikävän tuloksen nolla - tai pahempaan, olipa kysyjä kirjaston virkailija tai Pirkko kotikoneellaan.

Palataan siis laatuun. Kirjastojenkin tietokantojen laatuun pätee Macen lainaamien Ken Gleasonin ja Q. Ethan McCallumin mukaan on neljän ceen juttu:

  1. Complete (is everything here that’s supposed to be here?)
  2. Coherent (does all of the data “add up?”)
  3. Correct (are these, in fact, the right values?)
  4. aCcountable (can we trace the data?)


Mitä mielenkiintoista omasta tietokannasta löytyisi? Olisiko data siistiä ja oikeanlaista? 

 givepeaceachance http://www.everystockphoto.com/photo.php?imageId=2227513&searchId=4c85b3625c95b8bf313d47934599eef5&npos=4



2 kommenttia:

  1. Oikeastaan tuo helpotti omaa syyllisyyttä - tai meidän yhteisjärjestelmään kohdistuvaa painetta. Tekee ne siis muutkin virheitä, ei vain me! Mutta tod. - miten saadaan koskaan rekistereitä siivottua, jos ei noudateta yksinkertaisia ohjeita? a)Jätetäänkö luettelointi yhden harteille b)otetaan valmis BTJ:tä c) pitäähän ammattilaisen muistaa valtaojan uusin ja vuosi (myös v. 2015) d) who cares? ei sitä kukaan katso :)

    VastaaPoista
  2. Moi, kiva nähdä että työni kiinnostaa, ja rapottikin on selvästi luettu tarkkaan. Hyvä! Raportin lisäksi mielenkiintoista asiaa löytyy siis Redmine asianhallinta- ja projektinhallintatyökalusta ja on ihan avoimesti tutkittavissa.

    Muutosten teko suoraan tuotantotietokantaan on vähän kyseenalainen asia, enkä itse nykyisellään suosittele sitä... toisaalta eipä se ole mahdollistakaan; jos kirjastojärjestelmä on ikäänkuin "musta laatikko" jonka sisäisestä toiminnasta ei ole tietoa eikä muutoksia pysty simuloimaan, valvomaan eikä perumaan, on ongelmia varmasti tiedossa. Aurorassa on itsessään sellainen massamuutostenteko-ominaisuus, jonka toimintaa kannattaa katsoa.

    Muokattua dataa voi (tietyin edellytyksin) tuoda Auroraan eräajotuontina, samaa putkea pitkin jota pitkin tietueita tulee Kirjavälitykseltä, BTJ:ltä tai vastaavalta. Katselin tätä asiaa tämän projektin tiimoilta, siitä lisätietoa täällä tehtävissä Tietueiden tuonti takaisin tuotantokäyttöön eräajotuonnilla #3331 ja Kokeile Auroran eräajotuontia #3367.

    PallasPro, Origo ja muut kirjastojärjestelmät ovat kukin sitten hieman oma juttunsa. Tällainen datan käsittely kirjastojärjestelmän ulkopuolella on aika normaalia esim. Voyager-kirjastoissa, joissa käyttelevät USEMARCONia, MarcEditiä, Perl-loitsuja yms.

    VastaaPoista