Markus Baersch

Software · Beratung · Lösungen

Suche im Blog

Sign In

Monday, 13 February 2017

Ist Analytics Spam besiegt?

Nachdem Analytics Spam in einigen Konten Ende des letzten Jahres deutlichen Aufwind zeigen konnte, während andere Analytics-Benutzer einen deutlichen Rückgang oder gar komplettes Ausbleiben von Spam beobachtet haben, ist es nach der Welle von unerwünschten Nachrichten rund um das Finale des US Wahlkampfs offenbar allgemein ruhiger geworden.

Da ich in anderem Zusammenhang wieder über das Thema gestolpert bin, wollte ich herausfinden, ob sich ein allgemeiner Trend auch anhand von Daten belegen lässt. Aus verschiedenen Gründen ist die Klassifizierung von Webanalyse-Spam in "normalen" Google Analytics Konten ohne entsprechende Filter und gesonderte "Spam-Datenansichten" zwar nicht einfach bzw. besonders zuverlässig, aber dennoch wollte ich zumindest wissen, ob sich eine grobe Richtung erkennen lässt.

Spam-Auswertung: Der Trend nach Monaten

Update 03/2017: Nachdem die Liste der Spam-Domains noch einmal deutlich erweitert wurde, habe ich die Zahlen neu erhoben und dabei durchaus abweichende Trends und Zahlen ermittelt. Die folgenden Abbildungen und Ergebnisse wurden daher z. T. aktualisiert.

Zur Beantwortung der Frage habe ich Verweisquellenberichte von Oktober 2015 bis Ende Februar 2017 zu ca. 180 unterschiedlichen Google Analytics Properties aus etwa 90 Konten als Basis genutzt. In den Berichten sind die Sessions je Verweisquelle monatlich aufgeführt. Insgesamt wurden dabei knapp 5,4 Millionen Sessions ausgewertet. Die Klassifizierung nach "Spam" oder "Nicht-Spam" erfolgte anhand einer Liste bekannter Spam-Domains, deren Einträge aus verschiedenen Quellen stammen.

(Leider) dennoch wackelige Beine

Es gibt zugegebenermaßen einige Schwachpunkte, wenn man auf diese Weise versucht, das Spamaufkommen zu bestimmen:

  1. Auch bei dieser hoch erscheinenden Anzahl der Sessions ist die Anzahl der Datensätze in den Rohdaten nicht ganz so beeindruckend. Die etwa 160.000 Zeilen passen locker auch in Excel. Allerdings: Wären diese nicht monatlich, sondern täglich oder wöchentlich erhoben, wären es zwar mehr Zeilen, aber außer besserer "Auflösung" bei der Betrachtung des Verlaufs kommt kaum ein Unterschied zusammen. Eine breitere Basis in Form von mehr Konten und Properties wäre da die bessere Lösung.
  2. Es werden nur Verweise betrachtet. Webanalyse-Spam ist aber vielseitiger als nur Referrer-Spam. Events, Sprachen, Seitenberichte... Spammer können überall Spuren hinterlassen und tun das auch. Die Beschränkung auf den Verweisbericht betrachtet also nur einen Teilaspekt des ganzen Problems.
  3. Wenn man Spammer anhand von Listen bekannter Spammer identifiziert, funktioniert das eben auch nur bei denen, die bereits als Spammer in einer Liste gelandet sind. Da aber jederzeit neue Spam-Domains hinzukommen und andere dafür den Betrieb einstellen (siehe unten), ist ein Rückgang im so "messbaren" Spam kein Garant dafür, dass er in der Realität wirklich weniger wird.
  4. Viele Properties haben mehr als nur eine Datenansicht. Es ist aber je Property nur eine Ansicht sinnvoll auswertbar und das ist idealerweise eine ungefilterte Rohdatenansicht. Da bei der Analyse stets die erste Ansicht verwendet wurde, wenn mehrere vorhanden waren, muss das nicht immer die ungefilterte Ansicht gewesen sein. Trost spendet dabei aber die Tatsache, dass sich evtl. Fehler hierdurch konstant in allen Monaten zeigen und so zumindest keine Trends versauen können.

Ergebnisse

Es bleibt bei allen Unsicherheiten eine Erkenntnis: Spam findet nach wie vor statt. Das Problem ist nicht "erledigt", wie mancher bei der einen oder anderen Meldung gehofft haben mag, und braucht nach wie vor Aufmerksamkeit bzw. sinnvolle Behandlung, um die naturgemäß ohnehin nicht exakt sein könnenden Zahlen aus der Webanalyse nicht noch weiter verwässern zu lassen.

Spam-Anteil der Verweisquellen schwankt um ca. 3,0%, ohne eine wirkliche Tendenz zum Anstieg oder Abfall zu zeigen

Der Anteil von Sessions, die von bekannten Spam-Domains stammen, schwankt im untersuchten Zeitraum zwischen 0,9% und ganzen 5,4% im November 2015, wobei der November ohnehin ein "Top-Spam-Monat" zu sein scheint. Über die Sessions betrachtet liegt der Schnitt 2016 bei 3,1% (vor dem Update der Spamliste und Neuerhebung der Werte lag diese Zahl noch bei 2,7)

Spamanteil

Betrachtet man nicht die Sessions, sondern die Verweisquellen selbst, so liegt der Anteil in dieser Stichprobe sogar bei 5,3% (vorher: 3,9) über die gesamte Zeit.

Spamanteil im Verweistraffic

Trends? Schwierig

Untersucht man die Daten aus verschiedenen Perspektiven, um damit die Vermutung zu bestätigen, dass Spam "besiegt" ist oder zumindest beim Großteil der Analytics-Konten zurückgeht, ist man auf Hoffnung angewiesen. Das deutlichste Zeichen wäre es, wenn man die Anzahl der Spam-Sessions für alle Properties über die Zeit abbildet und darin einen klaren Rückgang für die meisten Linien erkennen kann. Ohne dies besonders gut darstellen zu können, zeigt die folgende Abbildung für den Jahreswechsel auch ohne Legende, das diese Hoffnung nicht erfüllt wird:

Spam je Property

Kennt Spam eine Saison? Vielleicht!

Den deutlichsten Trend sieht man, wenn man sich die Verteilung der unterschiedlichen Spam-Quellen ansieht. Dort ist jeweils eine klare Spitze im November zu erkennen.

Verlauf Spamverhalten in Google Analytics

Diese lag 2016 vor allem an "Spam-Eintagsfliegen", die in dieser Zeit massenhaft entstanden und inzwischen schon wieder verschwunden sind (siehe unten).

Die vermutlich positivste Darstellung zeigt sich, wenn man die Anzahl der von Spam betroffenen Datenansichten in den Fokus stellt - dort sieht der Februar 2017 nicht wirklich vielversprechend aus, wenn man die Anzahl der betroffenen Profile mit dem Vorjahr vergleicht.

Anzahl betroffener Properties

Überzeugender wäre das, wenn das laufende Jahr deutlichere Tendenzen gezeigt hätte. Zum Jubeln gibt es offenbar keinen Anlass.

Spammer kommen und gehen

Top-10-Listen sind immer eine tolle Sache. So zeigen sie auch in diesem Fall, dass Spammer i. d. R. nicht ewig in den Charts dominieren. Dabei gilt, dass die meisten Sessions i d. R. von wenigen, gerade besonders aktiven Quellen generiert werden. So war z. B. im Februar des letzten Jahres das Thema "Responsive" besonders an zahlreichen Domains wie 1537930.responsive-test.net zu sehen, einen Monat später widmen sich die Domainnamen dem Shopping. Zur Verdeutlichung der Kurzlebigkeit exemplarisch September und Oktober 2016 im Vergleich:

Top-Spammer

Dort sieht man, dass die Nummer 2 aus dem September nach Sessions, die zudem die meisten Properties von allem Spammern in diesem Monat beglückt hat, im Oktober schon nicht mehr oben auftaucht.

Man darf dabei aber nicht vergessen, dass auch mit nur einer Session an anderer Stelle eine ganze Menge Impact entstehen kann, wenn z. B. tausende von Seitenaufrufen und / oder Events ausgelöst werden.

Das zeigen auch die o. a. "Eintagsfliegen" mit Namen wie 98765-1.compliance-irgendwer.xyz, die im November 2016 für einen dramatischen Anstieg bei der Anzahl der Spammer gesorgt haben. Deren meist einzige Session wurde dazu genutzt, Werbung für Donald Trump im Bericht zu den Besuchersprachen im Dashboard zu hinterlassen.

Eintagsfliegen - Spammer

Im Dezember geht auch dies wieder zurück. Der Newcomer website-analytics.online verdrängt site-auditor.online von Platz 1 der Charts und etabliert sich vorerst als Haupt-Spam-Quelle 2017.

Spam-Rückgang 2017

Auch wenn diese Toplisten und die obigen Abbildungen nur ein unvollständiges Bild abgeben, scheint Spam aber durchaus auf dem Rückzug zu sein... oder zumindest nicht mehr so dramatisch wie Ende 2016, wo nicht nur in der Onlinemarketing-Branche ungewöhnlich viele News und Blogbeiträge zu diesem Thema erschienen sind. Es ist aber fraglich, ob das wirklich ein dauerhafter Zustand und Ausdruck eines erfolgreichen automatisierten Filterns seitens Google ist oder der Rückgang eher auf veränderte Aktivität der Spammer zurückführt.

Und jetzt?

Es ist zu hoffen, dass eine Wiederholung der Messung in den kommenden Monaten aufzeigt, dass Spam wirklich in weniger Konten ankommt. Wie man an der Liniengrafik oben sehen kann, darf das aber ohnehin nicht gleich als allgemeine Entwarnung interpretiert werden. Denn solange die Daten nach wie vor gestört werden, die man gerade betrachtet, hilft es wenig, dass es anderswo Konten geben mag, die dieses Problem vielleicht nicht (mehr) haben. Strategien zur Spamvermeidung sollte man daher noch nicht in Rente schicken oder bereits bestehende Lösungen gar in der Hoffnung abbauen, dass diese nicht mehr benötigt werden.

Mehr Sicherheit würde es bringen, möglichst viele einzelne Datenansichten zur "Spambeobachtung" einzusetzen, die konsolidiert ein genaueres Bild von der Entwicklung vermitteln. Ein paar davon habe ich bereits gesammelt und ermittle mit deren Hilfe neue Spammer und deren Aktivität.

Spam-Wetterbericht

Mittelfristig soll so die "allgemeine Spam-Aktivität" dauerhaft messbar gemacht werden, ohne dabei auf Listen bekannter Referrer angewiesen zu sein; ebenso werden so nicht nur Referrer-Spam-, sondern auch alle anderen Arten künstlicher Hits aufgedeckt. Aber für belastbarere Interpretationen müssen deutlich mehr her. Wer sich an einer solchen Sammlung beteiligen will, melde sich bitte unbedingt bei mir! Vielen Dank schon jetzt ;)

#