Eigin gagnabankar

Rannsóknir
Eigin gagnabankar

Eigin gagnabankar koma að gagni. Þeir gera þig að því leyti óháðan öðrum aðilum. Sérstaklega er þetta mikilvægt utan Bandaríkjanna, þar sem gögn eru oft lokuð og læst, svo að blaðamenn verða að handfæra inn upplýsingar úr útprentunum.

Hér á landi hafa embætti komið sér upp tekjupósti í útleigu á aðgangi að gagnabönkum. Þetta er hrein tekjuöflun, því að kostnaður hefur áður verið dekkaður. Þetta er svipað og stimpilgjöld ríkisins, hreint peningaplokk.

Gættu að tvennu, þegar þú flytur inn gögn:
1) Upplýsingarnar fari í rétta dálka og í rétt merkta dálka.
2) Vertu viss um, að upplýsingarnar séu rétt þýddar á tölvumáli.

Ef þú ert að flytja úr FoxPro yfir í Microsoft Access, þarftu bara að skrá format gagnagrunnsins, annað er sjálfvirkt. Access getur flutt inn margs konar format úr ýmsum tegundum gagnagrunna. Forritið hefur Wizard eins og er í Excel.

Að finna og flytja inn gögn getur verið viðsjált, en það er nauðsynlegur hluti af vinnunni. Því meira sem þú gerir af slíku, þeim mun auðveldara verður það. Þú getur ekki skrifað rétta frétt, ef gögnin eru ekki í lagi.

Fjöldi blaðamanna hefur sína eigin gagnabanka á fjölmörgum sviðum utanríkismála, þjóðmála og sveitarstjórnamála. Þannig eru til einkabankar um heiti allra, sem fórust 11. september 2001 í World Trade Center.

Jo Craven McGinty hjá Washington Post skráði og tímasetti í gagnabanka öll símtöl sín við lögreglustöðvar og gat rekið yfirlögregluþjóna á gat, þegar þeir reyndu að ljúga að henni. Þannig gat hún fengið þá til að játa, fékk Pulitzerverðlaun.

Höfundur bókarinnar fann morðingja í Connecticut með því að skoða skrár yfir myrtar konur. Hann fann einkenni þriggja mismunandi raðmorðingja í ríkinu. Einn þeirra náðist og var handtekinn.

Ég hef margvíðan gagnabanka um ræktunarhross, þar sem kennitölur fylgja hverri vídd hans. Hægt er að sjá, hversu mörg þekkt hross hver hefur átt. Persónuvernd hafði áhuga á að vita, hvort ég notaði kennitölu til að tengja. Mér skildist, að slíkt væri bannað.

Helztu víddir bankans eru: Hross, fólk, jarðir, staðir, ár. Staðir og ár tengja mót. Hross og fólk tengja eignarhald. Hross og jarðir tengja uppruna hrossa. Fólk og jarðir tengja búsetu. Hver vídd út af fyrir sig er eins konar töflureiknir.

Ég vinn í Helix, af því að það er gamall og fjölvíður gagnagrunnur. Birting bankans er hins vegar í FileMaker Pro, af því að hann hentar betur vefnum. Upplýsingar fara tabbaðar úr hverri vídd Helix inn í hliðstæða vídd FileMaker. Þannig er auðvelt að flytja gögn.

Blaðamaður þarf að velja gagnagrunn, sem hann skilur og getur unnið í. Jafnframt þarf hann að vita, hvernig hann flytur gögn inn í hann og út úr honum aftur. Að öðru leyti þarf hann ekki að kunna á margar tegundir gagnagrunna.

Ég safnaði gögnum fyrir sögu stofnunar hér á landi. Ég skrifaði allt í gagnagrunn, ekki í textagrunn eins og Word. Þannig hafði ég sérstaka skrá um hvert mannsnafn og aðra skrá um ýmislegt, sem gerði það mannsnafn að söguefni í bókinni.

Með því að flytja gögn úr Íslendingabók deCode Genetics yfir í skipuritsforritið More gat ég séð, á hve marga vegu menn eru skyldir. Íslendingabók sýnir bara eina leið, þá stystu. Ef Persónuvernd vissi um framtak mitt, mundi hún láta í sér heyra.

Atriði, sem varða gerð eigin gagnabanka:
1) Þú veist, að þessar upplýsingar eru ekki til í þessu formi hjá öðrum.
2) Oft má nota lítið magn af upplýsingum með miklu gagni fyrir frétt.
3) Gagnabankinn getur batnað með tímanum með viðbótum.
4) Athugaðu, hversu marga dálka þú þarft að nota.
5) Skoðaðu raunhæft, hversu mikinn tíma tekur að búa til bankann.
6) Geturðu gert þetta sjálfur?

Fyrir lítinn banka dugar oft að setja gögnin í töflureikni, sem ekki þarf að forhanna eins og gagnagrunn. Ef grúppur eru margar, 2030 og skráningar eru margar, >200, getur borgað sig að fórna tíma fyrirfram í gagnagrunn. Sú er mín reynsla.

Þótt gagnagrunnur sé þyngri í upphafi, við forhönnun, verður hann síðan léttari, af því að endurskráningar sparast. Fólk er bara skráð einu sinni. Þú getur líka átt kost á tengja við hann annan gagnabanka, sem þér áskotnast síðar.

Í bókinni eru kennd skref við að búa til gagnabanka í Microsoft Access. Mundu að hafa raðnúmer í hverjum gagnabanka fyrir sig. Kennitölur geta oft komið þægilega í staðinn fyrir raðnúmer. Persónuvernd telur raunar notkun kennitalna ósiðlega.

Tékklisti:
1) Gagnagrunnar gera þér kleift að byggja eigin gagnabanka.
2) Þú verður að sjá fram í tímann, þegar þú býrð til gagnabanka til að meta rétt fyrirhöfnina við að búa hann til.
3) Gerð eigin taflna tryggir þér, að gögnin séu rétt og í samræmi við þarfirnar.
4) Ef þú smíðar góðan banka, geturðu notað hann til ýmissa verka í framtíðinni.
5) Er þú smíðar töflu, skaltu alltaf muna eftir lykiltölum töflunnar.

Skítug gögn stafa oft af lélegri þjálfun, lágu kaupi skráningarfólks, lítilli áherslu á sannprófun gagnabanka. Byrjaðu á því að skoða fyrstu 100 skráningarnar til að sjá, hvort líkur séu á ásláttarvillum og öðru bulli.

Kannaðu, hveru margar útgáfur eru af heitum, til dæmis bæja. Er bæði til Blöndós og Blönduós? Eru kennitölur með bili eða striki eða án þeirra? Allt þetta truflar, þegar þú ferð að raða gögnunum niður í grúppur. Búðu til safnheiti fyrir margskrifun.

Þú þarft að byrja á að kanna svona atriði og girða fyrir þau, áður en þú ferð að nota gagnabankann til að setja fram niðurstöður margvíslegrar leitar. Annars áttu á hættu að vera leiddur á villigötur. Til dæmis getur B þýtt neikvæða tölu.

Ljón á veginum:
1) Röng hönnun skráninga, skýringa og talningar.
2) Ásláttarvillur og mismunandi stafsetning á heitum.
3) Innslætti var ekki lokið.
4) Forritunartákn eru í gögnunum.
5) Gögn eru með dálkahausum.
6) Villur í innflutningi.

Tvær reglur:
1) Aldrei vinna í upprunalega gagnabankanum, eingöngu vinna í afritum. Þá er upprunalegi bankinn alltaf óbreyttur.
2) Ef þú þarft að samræma stafsetningu, gerðu það í nýjum reit, ekki breyta þeim gömlu.

Mundu, að þú hefur aðeins unnið fyrsta bardagann, þegar þú hefur klófest gagnabanka. Nokkrir bardagar eru eftir, áður en gögnin nýtast í frétt. Svo eru dæmi um, að grunnurinn hafi einfaldlega verið tómur. Skýringaskrár eru oft villandi.

Þú þarft líka að bera niðurstöðurnar saman við annað, sem þú veist. Ótrúlegar niðurstöður geta verið ótrúverðugar og kunna að reynast vera beinlínis rangar. Ótrúlegar niðurstöður geta þó verið ábending um, að skrítnir hlutir séu í gangi.

Blaðamaðurinn Elliot Jaspin notaði gagnabanka til að bera saman tölur og komst að raun um, að milljónum dollara munaði í niðurstöðutölum. Það leiddi til, að hann komst að raun um, að þessum peningum hafði verið stungið undan.

Bókarhöfundur kannaði gagnabanka, sem hann hafði fengið frá opinberri stofnun, og komast að raun um, að 700.000 skráningar vantaði í bankann. Það er því full ástæða til að fara varlega með slíka banka.

Athugaðu, að gagnabankar nota stundum mörg orð um sama hlutinn: Lögfræðingur, málflutningsmaður, lögmaður. Það getur tekið tíma að samræma svona hluti, en er nauðsynlegt til að grúppur verði með réttum tölum.

Þegar þú býrð til nýjan reit til að samræma fjölskráningar, getur Access einfaldað málið með því að nota matseðilinn “Query” og fletta niður í “Update”. Athugaðu líka, að oft getur verið nauðsynlegt að klippa texta framan af gagnagrunni.

Athugaðu líka, að nota textadálka fremur en talnadálka, þegar tölur byrja á 0, núlli. Að öðrum kosti áttu á hættu, að hugbúnaðurinn klippi framan af tölunni. Gott er að nota eingöngu textadálka fyrir tölur, sem ekki á nota í reikningi.

Auðvelt er að losna við ryk í gögnum, brosandi andlit, kommur og semikommur. Þú getur hreinsað hverja tegund með einu handtaki úr hverjum gagnabanka. Þú getur líka klofið dálka með kommu, t.d. “Smith, Joe”, í tvo dálka, “Joe” og “Smith”.

Hjá National Institute for ComputerAssisted Reporting er hægt að fá “string functions” til að hreinsa ryk úr gagnabönkum.

Tékklisti:
1) Vertu viss um, að kennitölur og lykiltölur séu með öllum tölustöfunum.
2) Gættu þín á orðum, sem hafa fallið niður.
3) Berðu hönnun gagnabanka saman við umfang upplýsinganna.
4) Notaður textaforrit eða “String functions” til að hreinsa ryk úr banka.
5) Vertu viss um áætlaðan fjölda skráninga í gagnabankanum.
6) Berðu niðurstöður saman við prentaðar skýrslur.

Brant Houston
ComputerAssisted Reporting
A Practical Guide
3rd Edition 2004

Fair Use © Jónas Kristjánsson, 2008

Hlé