Periodikas digitalizēšana Latvijas Nacionālajā bibliotēkā

LNB blogā ļoti interesants ieraksts par to, kas padarīts pēdējos trīs gados saistībā ar laikrakstu digitalizēšanu un portālu periodika.lv – Periodikas digitalizēšana LNB

Vienīgā lieta, kas kaitina šajā sakarā ir tas, ka ir apgrūtināta pieeja laikrakstiem, kas tapuši salīdzinoši nesen, 60tajos, 70tajos un 80tajos gados. Tiek atrasts teksts un parādīts teikums no ziņas, bet nav iespēja pilnībā iepazīties ar rakstu un fotogrāfijām, jo redz, spēkā ir autortiesības un šo informāciju var aplūkot tikai atrodoties bibliotēkā. Es redzu, ka šis ir spilgts piemērs, kad autortiesību likums ir traucējošs un nevienam nenoder, tikai stājas pretī brīvai informācijas apmaiņai. Šādos solis nekalpo nevienai iesaistītajai pusei. Nevienam nepaliek labāk no tā, ka uz šiem laikrakstiem attiecas autortiesību likums. Es vēl saprotu, ka pēdējos 10-20 gadus varētu nedod, skaidrojot to ar pašu laikrakstu vēlmi piedāvāt maksas arhīvus par pēdējiem gadiem, bet, kur ir problēma publiskot avīzi no 67. gada?

Sākumā gribēju likt tikai saiti, bet tad pamanīju, ka blogs viņiem tiek kustināts reizi divos gados tāpēc iesaku iet un lasīt/komentēt pie viņiem, bet ja raksts pazūd, tad zemāk ir raksta kopija. Lai jau viņi digitalizē druku, es digitalizēšu viņu digitālo blogu.

Tālāk seko teksts un foto materiāli no lndb.wordpress.com:

Šajās dienās LNB noslēdzas 3 gadu darbs pie jaunās portāla www.periodika.lv versijas. Jaunais periodikas portāls, viennozīmīgi, kļuvis par līdz šim apjomīgāko LNB digitalizācijas projektu. Projekta gaitā ar materiālu atlasi, skenēšanu, pēcapstrādi un portāla izveidi bijuši nodarbināti gandrīz 100 cilvēku: gan pašā LNB, gan piesaistītajās partner-organizācijās.

Līdz jūnija beigām/jūlija sākumam noslēgsies visu digitalizēto materiālu imports jaunajā portālā un tad tajā būs pieejami ~1 000 laikrakstu pilni komplekti un ~7 000 grāmatas.

Lai arī tradicionāli bibliotēkas lasītājiem asociējas ar grāmatām, nacionālo bibliotēku digitalizācijas projektu pamatmērķis un vienlaikus arī izaicinājums ir tieši periodisko izdevumu: avīžu un žurnālu digitalizācija. Šajā rakstā iepazīstināsim ar to, kā notiek laikrakstu digitalizācija LNB.

Visu periodisko izdevumu digitalizāciju var sadalīt četros soļos:

  1. Izdevumu atlase
  2. Skenēšana
  3. Segmentēšana
  4. Portāla izstrāde un izdevumu imports

Izdevumu atlase

Pirms digitalizēšanas projekta uzsākšanas LNB tika sastādīti prioritāri digitalizējamo laikrakstu saraksti. Laika gaitā šajos sarakstos gan tika ieviestas nelielas korekcijas. Tā piemēram, pēc lasītāju lūguma LNB iekļāva digitalizējamo laikrakstu sarakstā arī Padomju Jaunatni, Lauku Avīzes numurs līdz 1996. gadam un vairākus citus izdevumus.

Darbs pie periodisko izdevumu digitalizēšanas sākas bibliotēkas periodisko izdevumu krātuvēs, kur laikraksti parasti ir iesieti bibliotekārajos iesējumos, piemēram, pa viena gada visiem numuriem vienos vākos. Un analogā formā glabājas aptuveni šādi.

Lai 2 gadu laikā varētu nodigitalizēt plānotos vairāk ka 2 milj. lapas periodisko izdevumu, vidēji nedēļā vajadzēja atlasīt un sagatavot tālākai apstrādei aptuveni 50 000 lappušu jeb vienā darbadienā – aptuveni 10 000 lappuses.

Pēc tam, kad no plaukta bija atlasīts vajadzīgais iesējums, tas tika rūpīgi lapu pa lapai izšķirstīts, lai konstatētu dažādus bojājumus: ieplēstas, izbalējušas, trūkstošas lapas. Problemātiskās lapas tika nomarķētas ar speciālām zīmītēm bibliotēkas restauratoriem.

Izdevumu restaurācija bija nepieciešama gan ilgstošai laikrakstu uzglabāšanai pēc tam, kad tie būtu nodigitalizēti, gan tāpēc, lai nebojātu laikrakstus pašā digitalizēšanas procesā. Tā kā laikrakstus nav iespējams skenēt uz speciālajiem “grāmatu robotiem”, kuri paši spēj pāršķirt izdevumu lapas, tad skenēšanā lapu jāpāršķir ar roku un katrs neliels ieplēsums lapas malā var radīt risku saplēst lapu pavisam. Arī šādus ieplēsumus apstrādāja bibliotēkas restaurācijas nodaļas darbinieces.

Rezultātā, jau nodigitalizētajos materiālos lasītāji reizēm varētu pamanīt restuarācijā izmantotā japāņu papīra radītos artefaktus.

Visbeidzot, pārbaudot izdevumus pirms digitalizēšanas, bieži vien nācās konstatēt, ka iesējumos trūkst vai nu atsevišķas laikraksta lapas vai pat veseli numuri. Šādos gadījumos trūkstošās lapas un numuri tika meklēti vai nu citos izdevuma eksemplāros vai pie kolēģiem – Latvijas Akadēmiskajā bibliotēkā (LAB). Digitālizējot un kombinējot atsevišķus izdevumus, bieži vien tika iegūti pilni izdevumu objekti, kuriem daļa lappušu ir no LNB eksemplāra, bet pārējās – no LAB, kamēr dabā pilns izdevums nav ne LNB, ne LAB.

Būtiska daļa laikrakstu tika atlasīti tieši Akadēmiskajā bibliotēkā un jaunajā periodikas portālā gandrīz visi krievu un vācu valodās izdotie laikraksti nākuši tieši no LAB krātuvēm.

Skenēšana

Pēc tam, kad laikraksti bija atlasīti un sagatavoti, tie tika ievietoti speciālās koka kastēs un nosūtīti uzņēmumam Lattelecom BPO – skenēšanai.

Ja grāmatu skenēšanai Lattelecom BPO varēja izmantot arī “grāmatu robotu”, tad laikrakstu digitalizēšanu var veikt tikai uz tāda skenera, kur lapu pāršķiršana notiek ar rokām.

Pirmkārt, tas saistīts ar laikrakstu lielo lapu izmēru, ko “grāmatu robotam” būtu grūti un pat neiespējami pāršķirt. Otrkārt, tā kā vienā bibliotekārajā iesējumā ir vairāki laikraksta numuri, tad skenēšanas operatoram jākonstatē brīdis, kad tiek uzsākta jauna izdevuma numura skenēšana (laikraksta numurs tiek izmantots veidojot digitalizētās lappuses datnes nosaukumu). “Grāmatu robots” ko tādu noteikti nevarētu paveikt.

Grāmatu vāki un visu laikrakstu gada pirmo numuru pirmās lappuses tika skenētas kopā ar speciālu krāsu skalu, lai saglabātu informāciju par izdevuma precīzajiem krāsu toņiem.

Skenēšanas rezultātā tika iegūtas TIFF datnes, kas diska vietas ekonomijas dēļ tika konvertētas uz JPEG 2000 formātu, kas, nezaudējot attēla kvalitāti, dod vidēji ~3 reizes mazāku datnes izmēru.

Tipiskie skenēšanas parametri LNB digitalizācijas projektā bija:

  • Laikrakstiem (avīzēm): JPEG 2000, 400 dpi, Greyscale
  • Žurnāliem: JPEG 2000, 400 dpi, RGB

Pie šādiem parametriem viena A2 formāta avīzes lappuse digitālā formātā aizņem ~30 MB. Krāsaini skenētās lappuses – pat ~100 MB. Savukārt, vienas nedēļas laikā, skenējot tika sagatavoti dati ~1 TB apjomā.

Segmentēšana

Pēdējais posms periodikas digitalizēšanā ir segmentēšana, kas ietver gan lappuses sadalīšanu pa atsevišķiem elementiem (vārdiem, paragrāfiem, rakstiem, virsrakstiem, attēliem, tabulām, utt.), gan teksta atpazīšanu (OCR). Pateicoties segmentēšanai, vēlāk portālā ir iespējams veikt atslēgvārdu meklēšanu pilnā izdevuma tekstā un atsevišķajos elementos.

Segmentēšanu LNB uzdevumā veica ziņu aģentūra LETA, sadarbībā ar Vācijas uzņēmumu CCS, kam jau ir pieredze apstrādājot citu lielo Eiropas nacionālo bibliotēku laikrakstu kolekcijas.

Lai arī daļēji segmentēšanu nodrošina speciāla programmatūra, tomēr šajā posmā nepieciešams arī ievērojams manuālais darbs, identificējot dažādos elementus (virsrakstus, apakšvirsrakstus, attēlus, tabulas), apvienojot dažādos teksta blokus vienā raksta elementā, labojot OCR kļūdas virsrakstos un attēlu parakstos. Tieši segmentēšana izrādījās darbietilpīgākais posms visā periodisko izdevumu digitalizēšanā. Intensīvākajos projekta periodos segmentēšanā vienlaicīgi bija nodarbināti līdz pat 60 segmentēšanas operatoriem.

Segmentēšanas rezultātā par katru laikrakstu tika iegūts vesels komplekts ar dažādām datnēm:

  • 1 PDF dokuments visam izdevumam ar satura rādītāju un iegultu (embedded) atpazīto tekstu.
  • 1 METS (XML) datne visam izdevumam, kas satur visa izdevuma loģisko struktūru.
  • 1 ALTO (XML) datne katrai lappusei, kas apraksta lappuses “fizisko uzbūvi” (visu vārdu, teksta bloku un attēlu koordinātes lappusē).
  • 1 JPEG datne katrai lappusei. Samazinātas kvalitātes (120 dpi) datne attēlošanai portālā.

Segmentēšanu sarežģītu padarīja ļoti lielā materiālu daudzveidība: gan maketējums, gan teksta druka, gan lappuses izmērs un citi iemesli. Vieni no sarežģītākajiem materiāliem segmentēšana bija liela formāta laikraksti vecajā drukā ar daudziem sīkiem rakstiem, kuru virsrakstos, pēc vienošanās ar segmentētājiem, bija jāveic manuāla visu OCR kļūdu labošana.

Portāls

Visus digitalizēšanas projekta rezultātus varēs apskatīt LNB jaunajā periodikas portālā, kura beta versija jau šobrīd pieejama lasītājiem.

Portālu veidoja uzņēmums Datakom, bet atsevišķas komponentes izstrādātas, sadarbojoties ar Luksemburgas Nacionālo bibliotēku, kas piekrita nodot savu iestrādņu pirmkodu tieši LNB jaunā portāla vajadzībām.

Tuvākā mēneša laikā portālā tiks ielādēti vēl daži simti laikrakstu pilni komplekti un kļūs pieejama arī reģistrēto lietotāju funkcionalitāte, kas ļaus lietotājiem gan veidot savas izdevumu kolekcijas, gan komentēt un ieteikt rakstus, gan veikt labojumus izdevumu OCR tekstā.

Visbeidzot, runājot par izdevumu pieejamību portālā, šobrīd viss portāla saturs pieejams no publisko bibliotēku datoriem (jeb, citiem vārdiem, no Gaismas tīkla), savukārt, publiski – tikai tie laikraksti, kas izdoti pirms 1942. gada.

Izanalizējot digitalizēto grāmatu pieejas tiesības, esam konstatējuši, ka aptuveni 3 000 no kopā digitalizētajām ~7 000 grāmatām jau vairs nav autortiesību aizsargātas un tuvākā mēneša laikā arī tās kļūs pieejamas visiem portāla apmeklētājiem.

P.S.

Pateicamies par lielisku sadarbību visiem digitalizēšanā iesaistītajiem partneriem:

Un visiem mūsu lasītājiem – daudz jaunas, interesantas un vērtīgas informācijas jaunajā periodika.lv!

, , ,

  • Krišjānis

    Interesanti.

  • Jumts89

    Super raksts, paldies tev par pārdigitalizāciju!