მსოფლიო ცოდნის რა ნაწილია ციფრულად ხელმისაწვდომი და საძიებო?
შეიძლება გვეჩვენება, რომ ინტერნეტი უკვე მოიცავს კაცობრიობის მთელ ცოდნას, თუმცა რეალურად, ეს შთაბეჭდილება გადაჭარბებულია. სხვადასხვა საერთაშორისო ორგანიზაციისა და ციფრული

შეიძლება გვეჩვენება, რომ ინტერნეტი უკვე მოიცავს კაცობრიობის მთელ ცოდნას, თუმცა რეალურად, ეს შთაბეჭდილება გადაჭარბებულია. სხვადასხვა საერთაშორისო ორგანიზაციისა და ციფრული მემკვიდრეობის პროექტების ექსპერტების შეფასებით, კაცობრიობის მიერ შექმნილი ტექსტური, დოკუმენტური და არტეფაქტული მასალის მხოლოდ დაახლოებით 10–15% არის ციფრულ ფორმატში გადაყვანილი. თუმცა ეს მხოლოდ სკანირებას ან ციფრულ ასლს გულისხმობს და არ ნიშნავს, რომ მასალა სრულად ძებნადი ან ინტერნეტით ხელმისაწვდომია.
სინამდვილეში, საძიებო სისტემები მხოლოდ იმ მცირე ნაწილს ფარავს, რაც ღია ინტერნეტშია განთავსებული. ე.წ. „ღრმა ვები“ — სამეცნიერო ბაზები, არქივები, საინსტიტუციო კოლექციები — გაცილებით დიდია მოცულობით, თუმცა საძიებო სისტემებისთვის მიუწვდომელია. 2015 წლის მონაცემებით, Google-ს ინტერნეტში განთავსებული ინფორმაციის მხოლოდ დაახლოებით 4%-ის დაფარვა შეეძლო. დანარჩენი ნაწილი „უჩინარია“, რაც კიდევ უფრო ზღუდავს ციფრულ ცოდნაზე წვდომას.
ციფრულად არსებული მასალიდანაც კი მხოლოდ ნაწილი წარმოდგენილი ისეთ ფორმატში, რომელიც ტექსტურად ძებნადია. მაგალითად, თუ მსოფლიოს ბიბლიოთეკებში დაახლოებით 130 მილიონი უნიკალური წიგნი ინახება (Google Books-ის შეფასებით), აქედან დაახლოებით 15–20% შეიძლება იყოს დასკანერებული, მაგრამ სტრუქტურირებული და საძიებო ფორმით — ალბათ მხოლოდ მათი მესამედი. ეს ნიშნავს, რომ მთლიანად კაცობრიობის ტექსტური მემკვიდრეობის მხოლოდ 5% ან ნაკლები შეიძლება იყოს საძიებო ელექტრონულ სივრცეში.
გაფიცრულების დონე რეგიონების მიხედვით მკვეთრად განსხვავდება. დასავლეთ ევროპასა და ჩრდილოეთ ამერიკაში ეროვნული ბიბლიოთეკების, არქივებისა და მუზეუმების ციფრული პროექტები აქტიურად ვითარდება. მაგალითად, გერმანიაში Deutsche Digitale Bibliothek-მა უკვე მილიონობით ობიექტი გამოაქვეყნა ონლაინ. თუმცა განვითარებად ქვეყნებში — მათ შორის საქართველოში — გაფიცრულების პროცესი ნელი და არათანაბარია. ეროვნული ბიბლიოთეკის მონაცემებით, საქართველოში ბეჭდური ფონდის მცირე ნაწილი (~5%) არის დასკანერებული და კიდევ უფრო მცირე ნაწილი ხელმისაწვდომი საძიებო ფორმატში.
კიდევ ერთი პრობლემა ისაა, რომ ბევრი დოკუმენტი სკანირებულია როგორც სურათი — OCR (ტექსტის ამოცნობის) ტექნოლოგიის გარეშე. ეს ართულებს ძებნას, გაანალიზებას და ციფრული არქივების გამოყენებას არა მხოლოდ მკვლევრებისთვის, არამედ ხელოვნური ინტელექტის სისტემებისთვისაც. ქართულ ენაზე OCR-ით დამუშავებული მასალა მაინც ძალიან ცოტაა.
ამ ფონზე, AI-ზე დაფუძნებული ტექნოლოგიების როლი იზრდება. თანამედროვე სისტემებს უკვე შეუძლიათ არასტრუქტურირებული, უხარისხო მასალის გაშიფვრა და სტრუქტურირება. თუმცა ეს პროცესი ჯერ მასშტაბურად არ ხორციელდება და გლობალური ცოდნის უდიდესი ნაწილი კვლავ რჩება არასამეცნიერო სივრცის მიღმა.
მნიშვნელოვანია გავაცნობიეროთ, რომ ციფრული უთანასწორობა მხოლოდ ინტერნეტზე წვდომას არ გულისხმობს — ის ასევე ეხება იმას, ვისი ცოდნა არის ციფრულად არსებული და საძიებელი. მრავალი კულტურა და ენა დღემდე ცუდად არის წარმოდგენილი ციფრულ სივრცეში, რაც ნიშნავს, რომ გლობალურ ცოდნაში ისინი პრაქტიკულად არ ჩანს.
მოკლედ, მიუხედავად ტექნოლოგიური პროგრესისა, კაცობრიობის ციფრულად საძიებო ცოდნა ჯერ მხოლოდ ცოდნის ზედაპირს გვაჩვენებს. სრული სურათის სანახავად, ჯერ კიდევ მილიარდობით გვერდის, დოკუმენტის და ჩანაწერის ციფრულად დამუშავება და გახსნაა საჭირო.