II. kongres hrvatskih arhivista,
Dubrovnik, 2005.
Ana Garvas Delić
Hrvatska informacijsko-dokumentacijska referalna agencija - HIDRA
Zagreb
Mr.sc. Miroslav Milinović
Sveučilišni računski centar Sveučilišta u Zagrebu – SRCE
Zagreb
PRIKUPLJANJE, ODABIR, OBRADA I POHRANA DOKUMENATA SA
SLUŽBENIH MREŽNIH STRANICA TIJELA JAVNE VLASTI REPUBLIKE
HRVATSKE
Hidra u okviru svoje osnovne djelatnosti prikuplja, obrađuje, pohranjuje i diseminira javnu službenu dokumentaciju i informacije Republike Hrvatske. Razvoj interneta u Hrvatskoj toliko je napredovao da se veliki dio službenih publikacija i dokumenata RH objavljuje na nizu službenih web sjedišta. Namjera je Hidre okupitidigitalnu građu iz ovog izvora i omogućiti građaninu – korisniku jednostavan pristupinformacijama s jedne adrese: http://www.hidra.hr. Podjednako je važno očuvanje autentičnosti sadržaja, oblika i funkcionalnosti u svrhu dugoročne zaštite i korištenja.
Okosnicu projekta Prikupljanje, odabir, obrada i pohrana dokumenata - POOPD čini Arhiv mrežnih dokumenata – AMD, sustav koji je nastao kao rezultat zajedničkog projekta Hidre i Sveučilišno računskog centra, Sveučilišta u Zagrebu - Srca, započet u svibnju 2004. godine, s ciljem uspostave sustava za preuzimanje i arhiviranje mrežom dostupnih dokumenata s odabranog skupa web sjedišta. Sustav je razvijen na temelju iskustava Srca u području istraživanja weba (projekti Mjerenje web prostora (MWP) i Digitalni arhiv mrežnih publikacija (DAMP)) i utemeljen na Open Source programskojpodršci. Modularan je, proširiv, jednostavan za uporabu te dostupan putem web sučelja.
Ključne riječi: pobirač (robot), arhiva mrežnih dokumenata, kriterij odabira dokumenata, tijela javne vlasti
1. Uvod
Zadatak Hidre je unapređivanje korištenja i promicanje javnih službenih podataka, informacija i dokumentacije Republike Hrvatske. Prema zakonu o knjižnicama (NN 97/105) svi nakladnici službenih publikacija dužni su besplatno i o svom trošku dostaviti Hidri jedan primjerak svojih izdanja. Prema prethodnom iskustvu nikada nije u potpunosti ostvareno prikupljanje službenih publikacija. Uspostava Interneta na području Hrvatske doprinijela je dostupnosti javnih dokumenata i publikacija koja tijela javne vlasti objavljuju. Od 1997. se putem Hidrinog kataloga službenih publikacija koji je publiciran i u papirnatom obliku i na mrežnim stranicama Hidre upućivalo na mrežne adrese digitalnih dokumenata.
U 2003. godini pokušalo se pospješiti prikupljanje pregledavanjem Internetskih stranica web sjedišta određenih institucija i spremanjem pronađenih sadržaja na računalo u Hidri. Posao se pokazao izrazito iscrpljujućim, teško ga je bilo sustavno odraditi i nadgledati promjene.
Istovremeno u Srcu stjecalo se iskustvo u području istraživanja weba na projektima Mjerenje web prostora (MWP) i Digitalni arhiv mrežnih publikacija (DAMP) i to je dovelo do pokretanje suradnje između Hidre i Srca. Polazeći od navedenih zadataka i činjenice brzog razvoja Interneta u Hrvatskoj započet je projekt automatskog prikupljanja dokumenata sa službenih stranica tijela javne vlasti Republike Hrvatske.
Prema potrebama projekta Prikupljanje, odabir, obrada i pohrana dokumenata - POOPD u Srcu je razvijen sustav za Arhiviranje Mrežnih Dokumenata – AMD sa zadatkom preuzimanja i arhiviranja mrežom dostupnih dokumenata s određenog skupa web sjedišta. Projekt je započet u svibnju 2004. godine, a bio je spreman za rad u studenom 2004. godine. Do srpnja 2005. godine prikupljeno je preko 32000 dokumenata s više od 470 web sjedišta. Novi alat donio je i novi pogled na radne zadatke u Hidri i novu organizaciju poslova s namjerom da se sadržaji što ažurnije obrađuju i stave na korištenje javnosti.
2. Razvoj sustava AMD
AMD sustav utemeljen je na Open Source programskoj podršci, modularan je, proširiv i jednostavan za upotrebu korisnika – administratora. Čine ga:
- Pobirač (robot) - podsustav za pobiranje dokumenata s web sjedišta
- Nadzornik - podsustav za kontrolu pobiranja i arhiviranje rezultata pobiranja
- Raspoređivač - podsustav za raspoređivanje pobiranja
- Skladište podataka – koje čine baza podataka i posebno organizirani datotečni sustav (Slika 1.)
- Web sučelje - za pristup arhivu i upravljanje sustavom (Slika 2.).
Sustavom AMD upravlja se preko web sučelja koje ima nekoliko funkcija:
- Upravljanje radom sustava
- Unos podataka o (novim) web sjedištima
- Upravljanje pobiranjem (unos parametara)
- Ručni unos dokumenta
- Uvid u stanje sustava (pregled aktivnosti)
- Uvid u rezultate pobiranja
- Pristup arhiviranim dokumentima
- Pregledavanje arhiva dokumenata
- Statistike prikupljanja i obrade.
Kako se u Hidri prikupljaju podaci o web sjedištima tijela javne vlasti (NN 148/04) čije djelovanje, odnosno publikacije, dokumentaciju i podatke prati i obrađuje, to je iskorišteno za inicijalno punjenje sustava. Selektirani su podaci iz Hidrinih baza podataka adresara tijela javne vlasti i političkih stranaka slijedećeg opsega:
- ID broj web sjedišta
- URL
- Stvarno ime tijela
- Normirano ime tijela
- Područje djelatnosti
- Klasifikacijska oznaka (prema Pojmovniku Eurovoc).
Obavljeno je inicijalno automatsko podešavanje parametara pobiranja za sva web sjedišta. Određena je frekvencija pobiranja: jednom mjesečno, dubina pobiranja 3 i odabrani su tipovi dokumenata pdf, doc rtf, xls i ppt. Temeljem postavljenih uvjeta i parametara raspoređivač uvrštava konkretno pobiranje u red, a pobirač izvršava pojedina pobiranja prema tom redu. U sustavu paralelno radi više pobirača, a njihov je broj podesiv prema potrebi odnosno obimu posla.

Slika 1: Organizacija datotečnog sustava
Slika 2. Prikaz web sučelja sustava AMD
Treba naglasiti važnost osobnog udjela administratora sustava koji u nastavku podešavaju parametre prepoznavanjem stvarne organizacije i učestalosti porasta broja dokumenata pojedinog web sjedišta. Naglasimo da AMD sustav podržava funkciju kontrole duplikata dokumenata. Naravno osim automatske kontrole pojave duplikata dokumenata potrebno je uključiti i rad stručnog osoblja jer sustav pri provjeri duplikatane analizira sadržaj pojedinih prikupljenih dokumenata, nego tip dokumenta, veličinu i datum nastanka.
Skladište podataka AMD čine prikupljeni dokumenti u posebno organiziranom datotečnom sustavu kojem se pristupa kroz odgovarajuće web sučelje AMD sustava. Datotečni sustav organiziran je prema web sjedištima i broju pobiranja, kako jeprikazano na Slici 1.
U bazi podataka bilježe se podaci:
- O web sjedištima
- Parametri pobiranja (za svako web sjedište)
- Rezultati pojedinog pobiranja:
.. adresa za pristup arhiviranim dokumentima
.. osnovni podaci o provedenom pobiranju (veličina, status, ...)
.. prikupljeni metapodaci (s početne stranice web sjedišta)
.. distribucija tipova podataka za dohvaćene datoteke
Svakom pobranom i pohranjenom dokumentu pridruženi su podaci koji ga potanko određuju:
- Stvarno ime institucije
- Područje djelatnosti institucije (prema Pojmovniku Eurovoc)
- Klasifikacijska oznaka institucije
- URL dokumenta
- URL dokumenta u arhivi
- Datum prikupljanja
- Tip dokumenta (format)
- Veličina dokumenta.
Osim toga uz svako se pobiranje pohranjuje i zapis (log) o pobiranju koji omogućuje detaljan uvid u kompletan proces pobiranja.
3. Obrada prikupljenih dokumenata i javni pristup prihvaćenim dokumentima
Novi pristup prikupljanju digitalne službene dokumentacije donio je niz novih saznanja i potreba za stalnom prilagodbom organizacije obrade prikupljenih sadržaja. Stručno osoblje zaduženo za administriranje sustavom krenulo je na edukaciju korištenja novih alata u toku probnog pobiranja dokumenata. Bilo je potrebno naučiti zadati potrebne parametre za podešavanje pristupa svakom pojedinom web sjedištu. Podešavale su se dubine pobiranja i vrste dokumenata za pobiranje ovisno o strukturi poslužitelja i sadržaju na pojedinom poslužitelju. Pokazalo se potrebnim stalno izmjenjivanje iskustva u radu među suradnicima u Hidri i Srcu.
U prvoj fazi obrade prikupljenih digitalnih dokumenata prilazi se pregledavanju preko web sučelja AMD sustava. Prema važećim kriterijima za selekciju dokumenata definiranim u Hidri svaki prikupljeni dokument dobiva oznaku statusa prihvaćen (+) ili odbačen (-). AMD sustav omogućuje pristup određenim prikupljenim dokumentima prema različitim uvjetima za filtriranje i sortiranja sadržaja. Tu su identifikacijski brojevi institucije ili prikupljanja, datumi prikupljanja, klasifikacijske oznake, nazivi institucija i statusi dokumenata.
Slika 3. Katalog službene dokumentacije Republike Hrvatske
Paralelno pregledavanju dokumenata razvijaju su se i dopunjavaju pravila za odabir dokumenata. Posebno je važno stalno držati dostupna i ažurna pravila svima koji rade na selekciji dokumenata. Ukratko se kriteriji mogu sažeti:
1. Osnovni kriteriji odabira dokumenata je autorstvo. Odabiru se samo dokumenti/publikacije tijela javne vlasti kojih je autor/izdavač tijelo s čijih se mrežnih stranica prikuplja dokument / publikacija.
2. Kriteriji po sadržaju:
• Odabiru se svi dokumenti/publikacije tijela državne vlasti određeni drugim kriterijima (autorstvo, vrijeme, format …) osim efemerne građe (obrasci i sl.).
• Odabiru se samo dokumenti/publikacije tijela s javnim ovlastima te ureda državne uprave u županijama i tijela jedinica lokalne i područne samouprave određeni drugim kriterijima (autorstvo, vrijeme, format) koji se izravno odnose na rad samoga tijela.
3. Dodatni kriteriji:
• priopćenja za tisak, najave (za promocije knjiga i sl., izložbe), pristupnice, obrasci, formulari, rješenja o raznim predmetima ... se isključuju
• ukoliko je identičan dokument dostupan i u .doc i .pdf formatu, .doc se isključuje (nakon provjere identičnosti dokumenta)
Druga faza obrade je katalogizacija dokumenata koji imaju oznaku prihvaćen (+) u AMD sustavu. Katalogizacija se obavlja u bazi Službene dokumentacije RH – SDRH. Bibliografska jedinica sadrži link na digitalnu verziju dokumenta. Time su stvoreni preduvjeti da dokument bude trajno dostupan preko Internetskih stranica Hidre. Pristup se ostvaruje kroz Katalog službene dokumentacije Republike Hrvatske na adresi: http://www.hidra.hr/dok/dokrhkat.htm (Slika 3.).
Slika 4. Shematski prikaz POOPD sustava
POOPD sustav je shematski prikazan na Slici 4. Održavanje podataka u AMD sustavu obavlja se prijenosom podataka iz baze adresara usklađenog s normativnim podacima u Pojmovniku Eurovoc. Katalogizacija i predmetna obrada prikupljenih dokumenata obavlja se SDRH bazi. Pristup dokumentima ostvaren je preko WebPac aplikacije kojaradi s kopijom SDRH baze i dostupan je na Internetskim stranicama Hidre.
4. Rezultati POOPD
Projekt POOPD je tokom 2005. godine rezultirao:
• Razvojem AMD sustava,
• Razvojem prikupljanja, kriterija selekcije i obrade digitalne građe
• Postavio nove smjernice pristupa obradi digitalnih dokumenata
• U pripremi su smjernice drugim državnim tijelima za zadovoljavanje minimuma standardizacije pri objavi službenih publikacija.
AMD sustav instaliran je na računalu Hidre privremeno ugošćenom u Srcu. Obavljeno je inicijalno prikupljanje dokumenata s 422 web sjedišta i prikupljeno je 8400 dokumenata. Pobirač se mjesečno pokreće i prikuplja nove dokumente. Do srpnja 2005. godine prikupljeno je preko 32 700 dokumenata ukupne veličine 10 700 MB.
Detaljni tijek prikupljanja po mjesecima prikazan je u Tabeli 1. Dokumenti se pregledavaju i dio se prihvaća za daljnju obradu katalogizacije i opredmećivanja. U dosadašnjim obradama prihvaćeno je oko 12% dokumenata u obradu, a ostali su odbačeni za obradu ali su trajno pohranjeni. Četiri puta su dopunjeni podaci o web sjedištima i sada je aktivno 470 adresa.
Tabela 1:
Prikaz mjesečnog prikupljanja i obrade dokumenata
od početka rada AMD sustava do srpnja 2005. godine
Hidra je AMD sustavom standardizirala i ubrzala proces prikupljanja digitalnih dokumenata koji su prethodno prikupljani i pohranjivani ručno. Omogućeno je sustavno i cjelovito periodičko prikupljanje sa svih službenih web sjedišta odjednom, te automatsko i jednostavno praćenje novih sadržaja. Brže se pregledavaju dokumenti koji zadovoljavaju unaprijed određene kriterije.
Paralelno se razvijalo i programsko rješenje AMD.
• Razvijena je i instalirana nova verzija pobirača obavljena tokom travnja. Pobiranje nakon toga znatno je povećan broj prikupljenih dokumenata.
• Podešavalo se web sučelje potrebama pristupa dokumentima i označavanju statusa obrade dokumenta.
• Izrađen je modula za detaljnu dijagnostiku rada i statističku analizu sadržaja arhiva.
• Dodan je modul za ručno arhiviranje dokumenata. Namijenjen je slučajevima kad postoje problemi kod prikupljanja važnih dokumenata. Tim modulom u AMD sustav moguće je dodati dokumente prikupljene ručno, a koji su nestali sa poslužitelje pojedinih institucija.
U Tabeli 1. sažet je rezultat rada AMD sustava i rada na selekciji prikupljenih dokumenata od početka rada do sredine srpnja 2005. godine. Isti podaci prikazani suprema klasifikacijskim grupama institucija u Tabeli 2. U nastavku je dat popis institucija s čijih je adresa prikupljeno najviše dokumenata, bilo po veličini prostora (Tabela 3.) ili po broju dokumenata (Tabela 4.). Raspodjela prikupljenih dokumenata po tipovima prikazana je u Tabeli 5.
Tabela 2:
Prikaz broja prikupljenih i prihvaćenih dokumenata prema klasifikacijskim grupama institucija
od početka rada AMD sustava do srpnja 2005. godine

Tabela 3.
Prikaz 10 ustanova s najvećom arhivom prikupljenih dokumenata
(prema uvjetima za prikupljanje) po veličini zauzetog prostora
Tabela 4.
Prikaz 10 ustanova s najvećom arhivom prikupljenih dokumenata
(prema uvjetima za prikupljanje) po broju dokumenata
Zbog osiguranja autentičnosti pretpostavlja se izgradnja datotečnog sustava u arhivi u kojoj nema brisanja, ni pojedinih dokumenata, ni institucija u cjelini. Moguće su samo selekcije za izdvajanje dijelova za različite potrebe. Pojava institucija koje su prestale djelovati rješava se podešavanjem parametra za učestalost pobiranja i time postojeći dokumenti ostaju u arhivi, ali pobirač više ne obilazi web sjedište takve institucije. Shematski prikaz arhiva sustava POOPD prikazan je na Slici 5.
Tabela 5.
Prikaz broja prikupljenih dokumenata po tipovima od početka rada AMD sustava do srpnja 2005. godine
Slika 5: Arhiv dokumenata
Tijekom pregledavanja i obrade dokumenata uočeno je niz nepravilnosti i problema o kojima je odluke trebalo donositi u hodu:
• Pojedina tijela javne vlast RH ne koriste HR domenu za objavu mrežnih stranica
• Pojedine publikacije objavljene na mrežnim stranicama službenih tijela ne udovoljavaju osnovnim pretpostavkama elektroničkog izdavaštva, pa se tako susreću publikacije rascjepkane u nekoliko dokumenata, bez paginacije, naslova, autora, navedenog izdavača (službeno tijelo) i/ili godine objavljivanja.
• Minimalno se koriste meta podaci
• Postoji niz web sjedišta s nestandardnim rješenjima internetskih stranica koja otežavaju pristup dokumentima.
Zbog toga je potrebno formulirati minimum pravila koja se odnose na formu i organizaciju dokumenata kojih bi se trebala pridržavati sva tijela javne vlasti pri objavi na mrežnim stranicama. U nastavku planiramo izradu modula za arhiviranje odabranih web sjedišta tijela javne vlasti kojim bi se sustavno pokrenula izgradnja arhiva službenih Internetskih stranica RH. Isto tako pred nama je razvoj sustava za trajno čuvanje sadržaja arhiva koji bi minimalizirao rizik gubitaka sadržaja te osigurao njegov integritet i autentičnost.
Literatura:
1. Baršić-Schneider Ž. Pretpostavke i kriteriji za prikupljanje, odabir i pohranu dokumenata. 2004.
URL: http://www.hidra.hr/hidra/10godina/hidra-srce101204.pdf (15. 12. 2004.)
2. Bjelić M., Plavac J., Popović D.: The Archive of Network Resources Collection, selection, processing and storage of documents acquired from the official websites of the public authority bodies of the Republic of Croatia. 2005.
URL: http://www.hidra.hr/hidra/10godina/lida-hidra05-30.ppt (15. 7. 2005.)
3. Cabinet Office e-Government Unit. Annex L. Archiving Websites. 2002.
URL: http://www.cabinetoffice.gov.uk/e-government/resources/handbook/html/annexl.asp.
(15.7. 2005.).
4. Cabinet Office e-Government Unit. Ilustrated Handbook for Web Management Teams. 2002
URL: http://www.cabinetoffice.gov.uk/e-government/resources/handbook/html/htmlindex.asp.
(15.7. 2005.).
5. Garvas Delić A. Arhiva Mrežnih Dokumenata – Prikupljanje, Odabir, Obrada i Pohrana Dokumenata sa službenih internetskih stranica državnih tijela RH. 2004.
URL: http://www.hidra.hr/hidra/10godina/amd-poop.pdf (15. 12. 2004.)
6. Gatenby P. Collecting and managing web resources for long –term access : web
harvesting and guidelines to support preservation (ICABS Actions 3.3 and 3.4).
2004.
URL: http://www.ifla.org/IV/ifla70/papers/026e-Gatenby.pdf. (15. 7. 2005.).
7. Global Information Locator Service (GILS) URL: http://www.gils.net/. (15. 7. 2005.).
8. Hrvatska informacijsko-dokumentacijska referalna agencija – Hidra. Katalog službene dokumentacije Republike Hrvatske. 2004.
URL: http://www.hidra.hr/dok/dokrhkat.htm (15. 7. 2005.)
9. Hrvatska informacijsko-dokumentacijska referalna agenncija – Hidra. HR vodič. 1997.
URL: http://www.hidra.hr/rh/rh.htm (15. 7. 2005.)
10. Hrvatska informacijsko-dokumentacijska referalna agenncija – Hidra. Pojmovnik Eurovoc. 2000.
URL: http://www.hidra.hr/eurovoc/eurovoc1.htm (15. 7. 2005.)
11. Information Management Office-Australian Government. GovernmentOnline: the Commonwealth Government's strategy. 2002.
URL: http://www.agimo.gov.au/publications/2000/04/govonline. (15. 7. 2005.).
12. Milinović M. Arhiv mrežnih dokumenata. 2004.
URL: http://www.hidra.hr/hidra/10godina/amd-10122004.pdf (15.12.2004.)
13. Milinović M. Kako arhivirati Web? // Srce. Novosti (2004) br. 5.
URL http://www.srce.hr/dokumenti/novosti/sn5.pdf (10. 11. 2004.)
14. Milinović M. Koliko je velik Hrvatski WEB? // Srce. Novosti (2004) br. 2.
URL: http://www.srce.hr/dokumenti/novosti/sn2.pdf (10. 11. 2004.)
15. Milinović M., Topolšćak N. The Architecture of DAMP - A System for Harvesting and Archiving Web Publications, LIDA 2005, Dubrovnik (20. 5. – 3. 6. 2005.)
16. Milinović M., Willer M. DAMP: Sustav za preuzimanje i arhiviranje obveznog primjerka hrvatskih mrežnih publikacija, Posvetovanje "Radenci 2005", Maribor (6. - 7. 4. 2005.)
17. Popis tijela javne vlasti // Narodne Novine (2004) 146.
URL: http://www.nn.hr/clanci/sluzbeno/2004/2559.htm. (15. 7. 2005.).
18. Popis tijela javne vlasti za 2005. godinu // Narodne Novine (2005) 39.
URL: http://www.nn.hr/clanci/sluzbeno/2005/0767.htm. (15. 7. 2005.).
19. The national archives. Electronical records management.
URL: http://www.nationalarchives.gov.uk/electronicrecords/advice/default.htm. (15. 7. 2005.).
20. The National Archives. Records of the UK government from Domesday to the present.
URL: http://www.nationalarchives.gov.uk/. (15. 7. 2005.).
21. Zakon o knjižnicama // Narodne Novine (1997) 105.
URL: http://www.nn.hr/clanci/sluzbeno/1997/0767.htm. (15. 7. 2005.).
Summary
COLLECTION, SELECTION, PROCESSING AND STORAGE OF
DOCUMENTS FROM THE OFFICIAL WEBSITES OF THE PUBLIC
AUTHORITY BODIES OF THE REPUBLIC OF CROATIA
As it's standard basic activity Croatian Information Documentation Referral Agency (HIDRA) collects, processes, stores, and disseminates publicly available official data, information, and documentation of the Republic of Croatia. Due to the rapid development of the Internet and related ICT in Croatia the large part of the official documents and publications of the Republic of Croatia is published on the respective
Web sites. It is HIDRA's intention to collect the electronic resources available via Internet and to enable easy access to that information from one addresshttp://www.hidra.hr. It is also important to preserve authenticity, format and functionality of these resources in order to achieve their long-term preservation andusability.
The basis of the project called POOPD is the Archive of the Networked Documents (AMD) system. AMD is the application system created at University Computing Centre of the University of Zagreb (Srce) as the result of the joind project with HIDRA. Project started in May 2004 with the primary goal to create the system for gathering and archiving the networked documents from the selected set of Web sites. This system has been developed using Srce's experience in the area of the Web technologies mainly through the results of the projects Web space measurement (MWP) and Digital archive for Web publications (DAMP). AMD is created using the Open Source software. It is modular, extensible, and simple to use via the Web interface.
Keywords: gatherer, robot, networked documents archive, criteria for document selection, public authority bodies