Παρ όλες τις ενισχύσεις μέσω των πακέτων στήριξης και των ΕΣΠΑ, το μεγαλύτερο μέρος αρχείων και βιβλιοθηκών παραμένει σε αναλογική μορφή. Από τους σημαντικότερους λόγους γι’ αυτό, είναι ότι η ψηφιοποίηση παίρνει πολύ χρόνο για τη σύλληψη (capturing) και επεξεργασία και ταυτόχρονα απαιτεί ειδικό εξοπλισμό υψηλού κόστους. Επιπρόσθετα, η επιστημονική τεκμηρίωση έγγραφης πολιτιστικής κληρονομιάς (όπως ιστορικά έγγραφα, βιβλία, παλαίτυπα και χειρόγραφα) αποτελεί μία άκρως χρονοβόρα και απαιτητική για τον άνθρωπο, διαδικασία που παίρνει πολλαπλάσιο χρόνο από τη σύλληψη. Η τεκμηρίωση των ιστορικών εγγράφων πολιτισμού περιλαμβάνει την διαδικασία καταγραφής στοιχείων τα οποία, μεταξύ άλλων, προσδιορίζουν τα βασικά χαρακτηριστικά διάταξης και στοιχειοθεσίας των εγγράφων και επιτρέπουν την αναζήτηση και εύκολη παροχή πρόσβασης σε αυτά. Για να καταδείξουμε την ανάγκη χρήσης καινοτόμων παραθέτουμε δύο παραδείγματα πρόσφατων έργων που υλοποιήθηκαν με συμβατικό τρόπο.
Το πρώτο αφορούσε την μετατροπή μικροφίλμ σε εικόνες εγγράφων με απομόνωση κι ανάδειξη του θέματος του εγγράφου από το υπόλοιπο καρέ, ξάκρισμα περιθωρίων και βελτίωση της παραγόμενης εικόνας. Απαιτήθηκαν τουλάχιστον 8 ώρες ανά μικροφίλμ για 20.000 μικροφίλμ. Μία νέα καινοτόμος μέθοδος ξακρίσματος με τεχνικές page layout (εφαρμόστηκε με εξαιρετική επιτυχία στο 10%), θα εξοικονομούσε περίπου το 95% του χρόνου ή περίπου 72 ανθρωποέτη, προσφέροντας ταυτόχρονα βέλτιστες εικόνες.
Το δεύτερο αφορούσε την επιστημονική τεκμηρίωση 117 χειρογράφων του μουσείου Μπενάκη, η οποία διήρκεσε 12 ανθρωποέτη. Το συνολικό πρόβλημα της διάρκειας της τεκμηρίωσης δεν μπορεί προφανώς να λυθεί με εντελώς αυτοματοποιημένες διαδικασίες, μπορεί όμως να περιοριστεί δραστικά κάτω του 1/10 του συμβατικού χρόνου, με τη δημιουργία μεθοδολογιών για μία εν μέρει αυτοματοποιημένη διαδικασία υπόδειξης σημαντικών στοιχείων της τεκμηρίωσης όπως βασικά χαρακτηριστικά διάταξης και στοιχειοθεσίας των τεκμηρίων.
Στο παρόν έργο θα αναπτυχθεί ένα ολοκληρωμένο, έμπειρο σύστημα λογισμικού σύλληψης, βελτιστοποίησης εικόνας (capturing) και κατανόησης τεκμηρίων πολιτισμού.
Η σύλληψη και προ-επεξεργασία της εικόνας όπως έρχεται από σαρωτή χαμηλού κόστους, αποτελεί το πρώτο στάδιο επεξεργασίας των εγγράφων με στόχο τη βελτίωση της ποιότητας τους και τη δημιουργία άριστου ψηφιακού αντίγραφου. Η βελτίωση της ποιότητας του εγγράφου, επιπρόσθετα, αποτελεί ένα ιδιαίτερα σημαντικό στάδιο, διότι βοηθάει στην επιτυχία των επόμενων σταδίων επεξεργασίας, όπως της κατάτμησης και της αναγνώρισης και είναι απαραίτητο λόγω των ιδιαίτερων προβλημάτων ποιότητας και εμφάνισης των προς επεξεργασία ιστορικών εγγράφων. Η αναγνώριση και κατάτμηση είναι βασικά στάδια της κατανόησης και οδηγούν στην έμπειρη υποβοήθηση της τεκμηρίωσης. Θα αυτοματοποιηθεί η υπόδειξη και προσδιορισμός επαναλαμβανόμενων στοιχείων όπως: αρχίγραμμα, αφιερωματικό σημείωμα, τυπογραφικά κοσμήματα, επίτιτλα, μικρογραφίες, οικογένειες χαρακτήρων, τίτλοι, πίνακες περιεχομένων και ευρετήρια κ.α, καθώς και η ύπαρξη συγκεκριμένων λέξεων κλειδιών που χαρακτηρίζουν το περιεχόμενο των εγγράφων ή μέρους αυτών π.χ. σ’ ένα Ευαγγέλιο η αρχή του είναι «Τωκαιρώ εκείνω».
Μια «μοναδική» στον κόσμο εφαρμογή (λογισμικό) υποβοήθησης της επιστημονικής τεκμηρίωσης τεκμηρίων πολιτισμού
Θα επιτευχθεί έτσι μια «μοναδική» στον κόσμο εφαρμογή (λογισμικό) υποβοήθησης της επιστημονικής τεκμηρίωσης τεκμηρίων πολιτισμού. Στο πρώτο τμήμα (capturing) έμφαση θα δοθεί στη χρήση οικονομικά προσιτών συσκευών σάρωσης, σε συνδυασμό με ανάπτυξη/ μετεξέλιξη της υφιστάμενης πλατφόρμας επεξεργασίας εικόνας εγγράφων HDOC+ της Honest Partners. Στο πεδίο της υποβοηθούμενης τεκμηρίωσης επικεντρωνόμαστε στην ανάπτυξη state of the art μεθοδολογιών νευρωνικών δικτύων (deep neural networks) για να δημιουργήσουμε την έμπειρη υποβοήθηση του χρήστη και παράλληλα να τον βοηθήσουμε οπτικά ώστε να έχει την βέλτιστη και τάχιστη ταυτόχρονη οπτική εμπειρία εικόνας των σελίδων του τεκμηρίου και της αντίστοιχης τεκμηρίωσης κι επισημειώσεων (web based). Τα αποτελέσματα του συστήματος (εικόνες, τεκμηρίωση) θα εισάγονται και θα διαχειρίζονται μέσω αποθετηρίων ανοιχτού λογισμικού. Η πρότασή μας είναι πλήρως εναρμονισμένη με την προτεραιότητα 2.1.8 Ανάπτυξη νέων τεχνολογιών-τεχνικών-μεθόδων ψηφιοποίησης και επιστημονικής τεκμηρίωσης πολιτιστικής κληρονομιάς (κινητής, ακίνητης και άυλης) με έμφαση στη βελτίωση της ποιότητας ψηφιοποίησης και στη μείωση του χρόνου και του κόστους της, διαθέτοντας επιπλέον έμφαση στην μείωση του χρόνου και κόστους της τεκμηρίωσης.