Was macht eine AI mit deinen Daten?

Und welche Daten solltest du besser nicht eingeben!

Sept. 15, 2023

Was macht eigentlich eine AI (ich nutze diesen Begriff mal ganz inflationär für Large Language Models) mit den Daten, die man eingibt? Speichert sie diese? Werden diese am Ende durch Dritte genutzt? Was bedeutet es für Daten, wenn sie durch eine AI verarbeitet werden? Wie verändern Daten den Output einer AI? Und was ist eigentlich der Sinn des Lebens.

Viele Fragen und viele Antworten erwarten euch. Ich löse gleich den ersten Punkt: Der Sinn des Lebens ist es natürlich meinen Newsletter zu lesen plus X. Entscheidet ihr was X ist.🤷🏻‍♂️

Wie verarbeitet eine AI Daten?

Wir alle wissen wohl nun, dass die bekannten Als mit einer riesigen Menge an Daten aus dem Internet gefüttert wurden. Die Daten kommen nicht nur aus Büchern und Artikeln sondern auch aus riesigen Foren wie Reddit oder aus sozialen Medien wie Twitter.

Somit könnten wir davon ausgehen, dass eine AI wie GPT-4 theoretisch in der Lage sein müsste, auch jegliche Frage wie Google beantworten zu können. Stelle ich also die Frage, wer denn Steve Jobs ist, dann bekomme ich eine gute Antwort. Stelle ich jedoch die Frage nach meiner Person, welche nur im geringeren Maße unbekannter ist, dann weiß die LLM nicht wer ich bin (Böse LLM😒). Google weiß es aber. (Feines Google ☺️)

Okayes ChatGPT weiß wer Steve Jobs ist. Wer weiß das nicht 🥱

Gemeines ChatGPT behauptet mich nicht zu kennen…

Woran liegt das? Kurz gesagt: An der Gewichtung. Die vielen Milliarden Informationen die eine AI verarbeitet, werden unterschiedlich gewichtet, so wie wir dies auch mit Informationen tun. Dabei ist die Gewichtung zum einen über eine Entscheidung möglich: “Das ist jetzt wichtig!” (Funktioniert leider nicht so gut. Wir kennen das alle. 😉) und Wiederholung (Das kennen wir auch alle und es funktioniert leider zu gut. Jeder Werbejingle jemals!)

Das bedeutet für eine AI je öfter also der Begriff “Steve Jobs” auftaucht, umso wichtiger wird seine Bedeutung im neuronalen Netz einer AI werden. Das geht so weit, dass bspw. der Username des sehr aktiven Reddit-Users “davidjl” von GPT-4 als Wort in der englischen Sprache verstanden wurde. Dafür gibt es noch mehr Beispiele, die findet ihr hier.

Was bedeutet dies nun für eure neuen Daten?

Wie wir gerade festgestellt haben, lernt die AI Daten durch Wiederholung oder direktes “Anlernen”. Auf diese Weise erkennt sie statistische Zusammenhänge und gibt ihre Daten aus. Eine AI ist keine Datenbank, die alle Datensätze immer wieder unverfälscht abrufen kann. Das soll sie ja auch nicht. Sie soll Texte verstehen und verarbeiten können, was eine Datenbank nicht kann.

Geben wir jetzt also einmalig Daten ein, werden diese wahrscheinlich einfach “vergessen” oder genauer nicht beachtet. Natürlich können sie mit anderen bereits vorhandenen Daten matchen und sich somit wiederholen, doch je individueller sie sind, umso eher werden sie wohl vergessen. Achtung! Es ist natürlich immer möglich, dass ein Betreiber noch eine Datenbank dazwischen geschaltet hat und somit Daten gesondert abspeichert!

Ich frage mich, ob es denn auch möglich sein könnte, dass man in einer gezielten Aktion eine öffentliche AI beeinflussen könnte. Gerade im Bereich der Politik ist dies doch eine anzunehmende Gefahr, oder? Es ist unstreitig für politische Parteien von Vorteil, wenn die Frage ob Zuwanderung Vorteile bringt von einer großen AI in ihrem Sinne beantwortet wird. Ich denke, dass bereits diese Gefahr dazu führen wird, dass im Kern eine AI nicht frei durch allgemeine Eingaben beeinflusst werden kann. Das wäre ja wie, wenn ich den Programmcode eines Online-Spiels zu meinen Gunsten ändern könnte.

Welche Daten dürft ihr denn nun eingeben?

Das ist ist eigentlich ganz einfach. Macht euch einfach bewusst, dass man bei der Nutzung eines Chatbots Daten an Dritte weitergebt und die Herrschaft über diese Daten komplett aufgebt. Es ist also etwas anderes, wenn ich einen Cloudspeicher wie Dropbox nutze, der meine Daten für mich speichern soll, als wenn ich diese bei kostenlosen Diensten wie der Googlesuche eingebe.

Wer würde denn bei Google die eigenen Geschäftsgeheimnisse oder private Daten von Dritten eingeben? Damit ist eigentlich schon alles gesagt. Man kann nur Daten eingeben, über die man frei verfügen kann. Keine persönlichen Daten von Dritten, keine Geschäftsgeheimnisse und keine Daten deren Verarbeitung einen Urheberrechtsverstoß bedeuten würde.

That’s it.🤷🏻‍♂️

👍👎 Feedback Corner

Wird geladen …

❤️ Sharing is Caring

Ausgabe teilen:

Newsletter teilen:

Share Kilian's Weekly

Newsletter abonnieren:

📊 Statistiken

Newsletter Nummer: 05

Empfangende Personen: 116 ↗️

Wörteranzahl Beitrag: 762 (endlich mal ein kurzer Text 😅)

Sätze: 60

Lesezeit: ca. 4 Minuten