
Των Βασιλική Κουτσούπια & Μανώλη Μυλωνά*
Στο πλαίσιο του έργου MediaPot αναπτύσσονται εργαλεία επεξεργασίας και ανάλυσης πολυμεσικού περιεχομένου (εικόνες, βίντεο, κείμενο) από διαδικτυακές πηγές, με στόχο την αξιοποίησή τους στη σύνθεση ειδησεογραφικών ιστοριών. Η μεθοδολογία περιλαμβάνει τεχνικές για την αυτόματη επισημείωση (δηλαδή την παραγωγή κατάλληλων περιγραφών και λέξεων-κλειδιών) και την αντίστροφη αναζήτηση πολυμεσικού περιεχομένου (εικόνες, βίντεο), καθώς και εργαλεία για την κατάτμηση και τη δημιουργία αυτόματων περιλήψεων βίντεο περιεχομένου.
Σε αυτό το περιβάλλον, ενσωματώνεται η υπηρεσία επισημείωσης πολυμεσικού περιεχομένου, που έχει σχεδιαστεί για την αναγνώριση, την οργάνωση και την κατηγοριοποίηση κρίσιμων πληροφοριών και χαρακτηριστικών σε μεγάλες συλλογές πολυμέσων. Το σύστημα περιλαμβάνει μια ποικιλία μεθόδων, όπως αναγνώριση ενεργειών, ανίχνευση αντικειμένων, αναγνώριση και εντοπισμό προσώπων, δημιουργία υποτιτλισμού πολυμέσων με παραγωγή κειμένου σε φυσική γλώσσα, ανίχνευση εικόνων τύπου meme και αναγνώριση ακατάλληλου ή βίαιου περιεχομένου (disturbing/Not-Safe-For-Work).

Εικόνα 1 – Παράδειγμα υπηρεσίας επισημείωσης περιεχομένου εικόνας
Κάθε μέθοδος χρησιμοποιεί σύγχρονα μοντέλα βαθιάς μάθησης έπειτα από συστηματική μελέτη και πειραματική αξιολόγηση της αιχμής σε μεθόδους Τεχνητής Νοημοσύνης (ΤΝ). Η υπηρεσία αναγνωρίζει ένα ευρύ φάσμα οντοτήτων, όπως 46.000 πρόσωπα από την διεθνή και την ελληνική επικαιρότητα (π.χ. καλλιτέχνες, πολιτικούς κ.α.), 400 τύπους δραστηριοτήτων (π.χ., άσκηση, μπάσκετ κ.α.), 6.500 αντικείμενα (π.χ., αυτοκίνητο, τραπέζι κ.α.) και εξειδικευμένες κατηγορίες (π.χ., επαγγέλματα, χρώματα κ.α.).

Εικόνα 2 – Παράδειγμα υπηρεσίας επισημείωσης περιεχομένου εικόνας
Ακόμη, υλοποιείται η Υπηρεσία Αντίστροφης Αναζήτησης Πολυμεσικού Περιεχομένου, διευκολύνοντας την αναζήτηση πολυμέσων με βάση το οπτικοακουστικό περιεχόμενο, ακόμη κι υπό την απουσία κοινού κειμένου ή μεταδεδομένων. Μέσω της χρήσης προεκπαιδευμένων μοντέλων ανάλυσης οπτικού περιεχομένου εξάγονται διανυσματικές αναπαραστάσεις που επιτρέπουν την αναγνώριση σχετικών ή παρόμοιων πολυμέσων. Η αναζήτηση οπτικής ομοιότητας αξιοποιεί τα χαρακτηριστικά αυτών των αναπαραστάσεων για την εύρεση παρόμοιων εικόνων, ενώ η λειτουργία εντοπισμού κοντινών διπλότυπων επικεντρώνεται στον εντοπισμό- σχεδόν- ταυτόσημου περιεχομένου. Με βάση αυτήν την τεχνολογία, παρέχονται εργαλεία για την αντίστροφη αναζήτηση δίνοντας στο εργαλείο ένα παράδειγμα εικόνας ή βίντεο.
Μετά την ανάπτυξη των υπηρεσιών επισημείωσης και αντίστροφης αναζήτησης πολυμεσικού περιεχομένου, η πλατφόρμα MediaPot επεκτείνει τις δυνατότητές της με ένα εργαλείο αυτόματης περίληψης βίντεο, σχεδιασμένο να καλύψει τις ανάγκες της σύγχρονης δημοσιογραφίας. Στην εποχή των Μέσων Κοινωνικής Δικτύωσης και του διαδικτύου, μεγάλα κομμάτια της διαθέσιμης πληροφορίας βρίσκονται σε βίντεο μεγάλης διάρκειας, καθιστώντας τη δημοσιογραφική έρευνα χρονοβόρα και απαιτητική. Η προσπάθεια εξαγωγής χρήσιμων στοιχείων από πολύωρο οπτικοακουστικό υλικό μπορεί να καταναλώσει πολύτιμο χρόνο, κάτι που, υπό τη συνεχή πίεση της ειδησεογραφικής ροής, δεν είναι πάντοτε εφικτό.

Εικόνα 3 – Παράδειγμα υπηρεσίας επισημείωσης περιεχομένου βίντεο
Η λύση που προσφέρει το MediaPot είναι η αυτόματη δημιουργία περιλήψεων βίντεο με τις πιο σημαντικές στιγμές, επιτρέποντας στους χρήστες να αποκτούν γρήγορη πρόσβαση στην ουσία του βίντεο χωρίς να το παρακολουθούν ολόκληρο. Η υπηρεσία στηρίζεται σε προηγμένα μοντέλα ΤΝ, προεκπαιδευμένα σε ποικιλόμορφα και εκτενή σύνολα δεδομένων, ώστε να αποδίδουν με ακρίβεια σε διαφορετικά είδη περιεχομένου, από ειδησεογραφικά ρεπορτάζ έως ντοκιμαντέρ και βίντεο που δημιουργούνται από χρήστες. Επιπλέον, η υπηρεσία προσφέρει διαδραστική λειτουργία: ο χρήστης μπορεί να παρέχει ένα σύντομο κείμενο-οδηγό (script/prompt), στο οποίο περιγράφει τα σημεία ενδιαφέροντος, και το μοντέλο προσαρμόζει την περίληψη ώστε να εστιάζει ακριβώς στις επιθυμητές σκηνές.

Εικόνα 4 – Παράδειγμα υπηρεσίας επισημείωσης περιεχομένου βίντεο
Με αυτόν τον τρόπο, η πλατφόρμα MediaPot δίνει τη δυνατότητα εξατομικευμένης ανάλυσης, εξοικονομώντας χρόνο και επιτρέποντας την άμεση ανάδειξη κρίσιμων πληροφοριών. Συνολικά, η ενσωμάτωση της υπηρεσίας περίληψης βίντεο στην πλατφόρμα MediaPot παρέχει στους δημοσιογράφους και τους επαγγελματίες του περιεχομένου εργαλείο υψηλής απόδοσης για την ταχεία επεξεργασία και αξιολόγηση οπτικοακουστικού υλικού, διασφαλίζοντας ότι η σημαντική πληροφορία γίνεται προσβάσιμη άμεσα και αποτελεσματικά.
Βιογραφικά
*Η Βασιλική Κουτσούπια είναι ερευνητική συνεργάτιδα στην Ομάδα Ανάλυσης, Επαλήθευσης και Ανάκτησης Πολυμεσικού Περιεχομένου (MeVer) του Ινστιτούτου Τεχνολογιών Πληροφορικής, στο Κέντρο Έρευνας και Τεχνολογίας Ελλάδος (ΙΤΙ-ΕΚΕΤΑ). Είναι απόφοιτη του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του ΔΠΘ, με ενιαίο πτυχίο και μεταπτυχιακό τίτλο σπουδών (Integrated MSc). Αυτή την περίοδο συμμετέχει σε ερευνητικές δραστηριότητες στο πλαίσιο του έργου Mediapot.
*Ο Μανώλης Μυλωνάς είναι απόφοιτος του τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΑΠΘ. Εργάζεται στο Ινστιτούτο Τεχνολογιών Πληροφορικής και Επικοινωνιών του ΕΚΕΤΑ, με ερευνητικά ενδιαφέροντα την κατανόηση πολυμέσων και τεχνητής νοημοσύνης.