Χαμηλές πτήσεις στο twitter

Αποκαλύψεις για τους twitter followers

Χαμηλές πτήσεις στο twitter

Στις 18 Αυγούστου, έχοντας κλείσει ήδη ένα εξάμηνο στο Λονδίνο, ήμουν στο Heathrow και περίμενα την πτήση των 8.30 να με κατεβάσει Αθήνα για τις διακοπές μου. Χαζολογώντας στο twitter για να περάσει η ώρα, κάπου πήρε το μάτι μου μια νέα υπηρεσία (δε θυμάμαι καν το όνομά της, αλλά ας είναι καλά οι διορθωτές που θα προσθέσουν στο τέλος το σχετικό link) που «χαρακτηρίζει» τους followers διάφορων twitter accounts για το αν και κατά πόσο είναι πραγματικοί, ενεργοί κλπ. Το τελικό συμπέρασμα, όπως το είδα σε διάφορα tweets ήταν κάποια ποσοστά της μορφής «20% fake, 30% ανενεργοί».

Δεδομένης της συζήτησης που έχει ανοίξει σε διάφορα μέτωπα για το αν και κατά πόσο οι followers διαφόρων επιτυχημένων accounts στα social media είναι «πραγματικοί» ή όχι και απορρίπτοντας εξ ορισμού τα ποσοστά σ' αυτές τις κατηγορίες (fake, ανενεργοί - οι οποίοι δεν είμαι καθόλου σίγουρος πως προέκυψαν) ως αναμφισβήτητο συμπέρασμα για την κατανομή των followers ενός twitter account και, κυρίως, επειδή είμαι DIY-geek (δηλ. “φτιάχτο-μόνος-σου-γιατί-είναι-ωραία), μπήκα στον πειρασμό να κολυμπήσω σε λίγο πιο βαθιά νερά.

Συγκεκριμένα η ιδέα συνοψίζεται ως εξής: «Ναι μεν δε μπορείς να εξάγεις ασφαλή συμπεράσματα από 3 αριθμούς, μπορείς όμως σχετικά εύκολα να κατεβάσεις τους followers ενός twitter λογαριασμού και να διερευνήσεις διάφορα στατιστικά, όπως η κατανομή των tweets που έχουν οι followers, η κατανομή των followers των followers (δεν είναι τυπογραφικό, οι followers έχουν followers σωστά;), η κατανομή των following accounts των followers κ.ο.κ» για κάθε account προς έρευνα.

Σε δεύτερο χρόνο, έχοντας τις κατανομές αυτές μπορεί κάποιος ειδικός στα social media (το οποίο δεν είμαι, αλλά είμαι σίγουρος πως κάποιοι από τους αναγνώστες του deasy είναι) να επιχειρήσει ερμηνείες και να εξάγει συμπεράσματα

Ξεκινώντας λοιπόν, με λίγο ψάξιμο στο twitter API και με συνδυασμό διαφόρων εργαλείων άρχισα σε χαλαρούς ρυθμούς να κατεβάζω τους followers για 4-5 δημοφιλείς λογαριασμούς και στη συνέχεια να χτίζω κατανομές και γραφήματα στα ερωτήματα που αναφέρθηκαν παραπάνω. Επέλεξα λογαριασμούς ΜΜΕ ή παρεμφερούς χαρακτήρα, που εκ των πραγμάτων τείνουν να εμφανίζονται πιο δημοφιλείς και επίσης, για λόγους μελλοντικής επιστημονικής έρευνας.

Τα accounts που χρησιμοποίησα για την μίνι έρευνα είναι τα @protagongr, @tovimagr, @skaigr, @protothemagr, @naftemporikigr τα οποία τα επέλεξα «ψευδοτυχαία», όσον αφορά την δημοτικότητά τους, εκφραζόμενη πάντα ως «αριθμός followers».

Προφανώς, η έρευνα δεν είναι εξαντλητική και πιθανώς να παρέλειψα διάφορα άλλα δημοφιλή accounts, αλλά αυτό λύνεται εύκολα στην έκδοση 2.0 αυτής εδώ της προσπάθειας.

Έχοντας μαζέψει πλέον όλα τα δεδομένα η δημιουργία κατανομών ήταν σχετικά εύκολη δουλειά. Για καλύτερη ομαδοποίηση στα γραφήματα «έσπασα» τους followers σε ομάδες, με βάση τον αριθμό των εμφανίσεων του χαρακτηριστικού που μελετούσα. Οι ομάδες είναι «0», «1-5», «6-10», «11-50», «51-100», «101-1000», «>1000». Η κατάτμηση αυτή είναι διαισθητική και στόχο είχε να απεικονίσει μια αίσθηση «κλίμακας».

Προχωρώντας λοιπόν, στα γραφήματα βλέπουμε (α) την κατανομή του αριθμού των tweets των followers ενός account, (β) την κατανομή των followers των followers και την κατανομή των following accounts των followers, με βάση την παραπάνω κατάτμηση. Απλά πράγματα.

Η οπτικοποίηση των ερωτημάτων γίνεται σε τρία πακέτα γραφημάτων αντίχτοιχα.

Α. Ξεκινάμε λοιπόν με τα γραφήματα για τον αριθμό των tweets που έχουν οι followers των συγκεκριμένων accounts που ερευνούμε:

Δυο γραφήματα, με το πρώτο γράφημα να απεικονίζει τα συνολικά αποτελέσματα με βάση των αριθμό των tweets που έχουν κάνει οι followers:

Αριθμός tweets ανά follower

(κάθετος άξονας: αριθμός followers, οριζόντιος άξονας: αριθμός tweets)

και στη συνέχεια το γράφημα των ποσοστών επί τοις εκατό με τον αριθμό των tweets που έχει κάνει ο κάθε follower, για τα accounts που ερευνούμε.

 

Ποσοστό της βάσης των followers (%) ανά αριθμό tweets που πραγματοποιεί

(κάθετος άξονας: ποσοστό βάσης των followers, οριζόντιος άξονας: αριθμός tweets)

 

B. Συνεχίζουμε λοιπόν με τα γραφήματα για τον αριθμό των followers που έχουν οι followers των συγκεκριμένων accounts που ερευνούμε:

Δυο γραφήματα και πάλι, με το πρώτο γράφημα να απεικονίζει τα συνολικά αποτελέσματα με βάση των αριθμό των followers που έχουν οι followers:

 

Αριθμός followers των followers ανά twitter account

(κάθετος άξονας: αριθμητική κλίμακα, οριζόντιος άξονας: αριθμός followers των followers)

Και συνεχίζουμε με την ίδια απεικόνιση, o αριθμός των followers που έχει ο κάθε follower, αλλά σε ποσοστά αυτή τη φορά:

 

Αριθμός followers των followers ανά twitter account

(κάθετος άξονας: ποσοστιαία κλίμακα, οριζόντιος άξονας: αριθμός followers των followers)

Γ. Κλείνουμε αυτή τη σειρά γραφημάτων με τα γραφήματα για τον αριθμό των following accounts που έχουν οι followers των συγκεκριμένων accounts που ερευνούμε:

Δυο γραφήματα και πάλι, με το πρώτο γράφημα να απεικονίζει τα συνολικά αποτελέσματα με βάση των αριθμό των following accounts που έχουν οι followers:

 

Αριθμός following των followers

(κάθετος άξονας: αριθμητική κλίμακα, οριζόντιος άξονας: αριθμός following accounts των followers)

Και συνεχίζουμε με την ίδια απεικόνιση, o αριθμός των fοllowing accounts που έχει ο κάθε follower, αλλά σε ποσοστά αυτή τη φορά:

 

 

Αριθμός following των followers

(κάθετος άξονας: ποσοστιαία κλίμακα, οριζόντιος άξονας: αριθμός following accounts των followers)

 

Ενα ενδιαφέρον εύρημα που πιθανώς προκύπτει από την παραπάνω απεικόνιση είναι ότι στις σχετικές συχνότητες φαίνεται μια τάση ομοιότητας στις κατανομές, τουλάχιστον για 4 από τις 5 περιπτώσεις, ομοιότητα που μπορεί να οφείλεται π.χ στους κοινούς χρήστες μεταξύ των accounts. Το δείγμα όμως είναι πολύ μικρό για να βγουν πρώιμα συμπεράσματα και η παρούσα έρευνα έγινε κατά 70% στις διακοπές μου (μη το ξεχνάτε αυτό!).

Για πιο αυστηρή και επιστημονική μεθοδολογία, θα χρειαστεί να περιμένετε λίγο…

Μιας όμως και αναφέραμε την έννοια των κοινών χρηστών, ακολουθεί ένα τελευταίο διάγραμμα το οποίο προσπαθεί να απεικονίσει τις επικαλύψεις χρηστών μεταξύ αυτών των λογαριασμών. Το γράφημα είναι αυτό:

 

 

Το πάχος της γραμμής που ενώνει τους κόμβους είναι ανάλογο των κοινών χρηστών των 2 accounts. Για παράδειγμα, βλέπουμε ότι υπάρχει μεγαλύτερο σύνολο κοινών χρηστών μεταξύ skai.gr και protagon.gr σε σχέση με αυτό του tovima.gr και της ναυτεμπορικής. Οι αναλογίες αυτές προέρχονται από τους πραγματικούς αριθμούς των followers. Γενικά, είναι δύσκολη η οπτικοποίηση επικάλυψης υποσυνόλων για περισσότερα των 3 συνόλων (δες εδώ για Venn Diagrams και εδώ για Euler diagrams )

Κάπου εδώ ολοκληρώνεται το πρώτο μέρος αυτής της εργασίας. Το πλάνο για το 2ο μέρος είναι να αυξηθούν τα δεδομένα (περισσότερα accounts) και τα στατιστικά (με ολίγη από text mining, twitter API επιτρέποντος) και network/link analysis.


Διευκρινίσεις:

Τα δεδομένα απεικονίζουν την περίοδο 27 Αυγ. - 6 Σεπτ 2012. Από τότε, ή ορθότερα ακόμα και τότε, νέοι followers μπορεί να προστέθηκαν, να έκαναν unfollow, να έσβησαν τους λογαριασμούς τους, να έκαναν tweets, να έσβησαν tweets και ούτω καθ' εξής, οπότε για καλύτερη εικόνα των τάσεων στο μέλλον, το πείραμα πρέπει να επαναληφθεί αρκετές φορές ώστε να επιδέχεται ασφαλών ερμηνειών.

Για την υλοποίηση χρησιμοποιήθηκαν τα εξής λογισμικά/υπηρεσίες:

Twitter API
Python
R

Ο κώδικας είναι διαθέσιμος για παιχνίδι εδώ:

(Σημ: Η υπηρεσία στην οποία αναφέρεται ο Κ. Περήφανος στην αρχή του κειμένου του βρίσκεται σ' αυτή τη διεύθυνση)

TWEETS,

Σχόλια

ΠΑΡΑΚΑΛΩ ΠΕΡΙΜΕΝΕΤΕ. ΦΟΡΤΩΝΟΝΤΑΙ ΠΕΡΙΣΣΟΤΕΡΑ...

Home