Der nachfolgende Text wurden mit KI erstellt und kann Fehler enthalten. Fehler gefunden? Bei GitHub editieren
KI = Bullshit?
Einführung und Disclaimer
Bevor wir da inhaltlich loslegen, ein Hinweis.
Architektur-Kickstart Training
Es gibt den Architektur-Kickstart.
Das ist so ein Training, wo ich innerhalb von vier Stunden oder zwei Tagen vier meiner an sich wichtige Themen aus dem Bereich Software-Architektur diskutiere und die halt interaktiv mit euch zusammen uns aneigne.
Und da gibt es halt noch Plätze.
Verfügbare Termine
Das gibt zum einen das öffentliche Training vom 20. bis zum 21.05. in München.
Zum anderen das vom 29. bis zum 30.06. online.
Und ihr könnt euch das anschauen.
Ich packe mal den Link in den Chat.
Und vielleicht sehen wir uns da ja, findet man sonst auch den Link in den Show Notes.
Jetzt aber tatsächlich inhaltlich.
Also ich will eigentlich loslegen mit so ein bisschen so einem Disclaimer.
Bisherige KI-Episoden
Wir haben halt ganz viel zu dem Thema KI bereits gemacht.
Wir haben ganz viele Episoden, vor allem der Ralf hat da ganz viel gemacht.
Und ich glaube, wir haben halt da eine ganze Menge auch sehr positive Episoden.
AI ist ein wichtiges und interessantes Thema.
Und das, glaube ich, ist auch immer noch so, beziehungsweise das ist halt immer noch einer der Punkte, die spannend sind.
Also wir haben mit KI interessante Werkzeuge für bestimmte Einsatzzwecke.
Und wir können da interessante Ergebnisse bringen.
Persönliche KI-Nutzung
Ich benutze halt für Übersetzung, ich benutze halt für Arbeit an Texten, um halt irgendwie Abstracts nochmal zu verbessern.
Ich sehe das Potenzial für Entwicklung, da benutze ich es halt irgendwie auch.
Aber ich bin halt nicht so stark in diesem Bereich Entwicklung gerade drin.
Und also sprich, dass ich es da nicht so intensiv nutze, hängt damit zusammen, dass ich eben nicht so wahnsinnig viel Software entwickle.
Und wir haben ja auch diverse Episoden gemacht, zum Beispiel für dieses Thema mit der, wie können wir es eigentlich für Softwarearchitektur verwenden.
Aber am Ende ist es eben so, dass es tatsächlich konkrete Risiken gibt im Umgang mit dieser Technologie, wie mit jeder anderen irgendwie auch.
Und wir sprechen in dieser Episode in erster Linie von diesen Large Language Models.
Also genau heißt das Paper, auf das sich das Ganze bezieht, auch, dass ChatGPT Bullshit ist.
Also die haben sich tatsächlich eben dort im Titel zumindest auf ChatGPT gestürzt.
Und ich soll ein bisschen nochmal ausholen.
Also in den 90ern gab es, glaube ich, einen ziemlich starken Fokus auf einen Technologieoptimismus rund um das Internet, wo man gesagt hat, wir haben jetzt die Möglichkeit, ein internationales, global umspannendes Netzwerk aufzubauen, mit dem halt Menschen sich irgendwie deutlich näher kommen.
Und tatsächlich ist es auch so, dass das bis zu einem gewissen Maße funktioniert hat.
Ich habe in Deutschland an einem Rechner gesessen und es gab diese internationale Community.
Negative Entwicklungen
Wenn wir uns das heute angucken, dann muss man schlicht gestehen, dass wir mit Social Media eine rechtsradikale Propagandakanone geschaffen haben.
Und ich würde von daher sehr gerne zurück zu dieser Technologiebegeisterung.
Wenn wir die richtige Technologie haben, lösen wir ernsthafte Probleme und alles wird gut.
Aber ich finde das halt irgendwie schwierig.
Dafür ist genau dieses Paper und das, was wir heute diskutieren, glaube ich, eine Grundlage.
Mir hat das tatsächlich geholfen, mich auch mit dieser Technologie KI nochmal anders zu beschäftigen und andere Einblicke zu bekommen.
Und das ist so ein bisschen die Idee.
Ich glaube, wir tun gut daran, wenn wir alle versuchen, uns die Karten zu legen, was wir mit dieser Technologie anfangen können und wie wir die benutzen können.
Das ist auch der Grund, warum wir eben so einen relativen Fokus haben in letzter Zeit auf künstliche Intelligenz.
Kontrolle und Überprüfung
Auf der anderen Seite bedeutet das ja nicht, dass wir jetzt ein Bücher rausschreien sollten und sagen sollten, okay, wir machen es halt einfach und KI hilft halt, alle Probleme zu lösen.
Christian Beuthenmüller hat gerade geschrieben, wir haben den großen Fehler gemacht, Meinungen mit den gleichen Algorithmen zu verkaufen wie Bücher.
Das konnte nur schiefgehen.
Ich bin Techniker, habe Informatik studiert und mindestens in den Neunzigern war ich sozusagen soziologisch naiv.
Wenn man sagt, wir haben eine neue Möglichkeit, miteinander zu kommunizieren, das ist eine neue Technik, das muss ja positive Auswirkungen auf die Gesellschaft haben.
Das ist natürlich nicht so.
Das ist eigentlich etwas, was Menschen, die an Gesellschaften studieren, sich eigentlich antun sollten.
Soviel ein bisschen zur Vorrede und zum Einordnen.
Den Link zu dem Paper findet man in den Shownotes, findet man auch in der Vorenkündigung.
Das Paper heißt GGPTS Bullshit, kommt von Michael Townsend Hicks, James Humphreys und Joe Slater von der University of Glasgow und ist erschienen bei Springer, dem anderen Springer, dem Wissenschaftsspringer, in einer Zeitschrift namens Ethics and Information Technologies, was schon ein bisschen zu dem passt, was wir gerade diskutieren.
Dass es ein geisteswissenschaftliches Thema ist und dass man sich damit sozusagen beschäftigen soll.
Das Paper diskutiert erst mal, dass Metaphern dafür sorgen, dass wir in irgendeiner Art und Weise darüber nachdenken oder in einer bestimmten Art und Weise über die Realität nachdenken.
Und das ist, glaube ich, auch gleich ein Problem.
Also bei mir hat das sozusagen resoniert.
Einmal deswegen, weil wir tatsächlich bei Software-Architektur im Stream eine Episode gemacht haben vor einiger Zeit, wo es halt darum ging, dass sprachliche Wirklichkeit ist.
Die mit der Friederike Sternberg, die haben wir auf der Badcom gemacht.
Und da geht es halt genau darum, dass so etwas wie Metaphern zu einer bestimmten Art und Weise führen, wie man mit Dingen umgeht.
Ihr Beispiel war halt, wenn ich anfange, militärische Metaphern zu benutzen, also wir brauchen in diesem Projekt eine Offensive, dann erzeuge ich halt eben ein druckvolles Vorgehen dort.
Und das ist die Frage, ob ich das halt irgendwie will.
Und das ist etwas, was gerade, glaube ich, im Bereich KI, der Begriff künstliche Intelligenz geht schon in diese Richtung, eine Herausforderung ist.
Weil damit wird ja gesagt, es ist sowas Ähnliches wie menschliche Intelligenz.
Da gibt es diese anthropomorphen Metaphern, also die versuchen, daraus sozusagen Menschen zu machen.
Und das gilt zum Beispiel auch für diese Halluzinationen.
Das ist ja auch ein Begriff für einen Fehler, den halt eine AI macht.
Und das ist halt auch ein Begriff, der das so menschenähnlich macht und halt auch eher so ein bisschen sagt, naja, die kann ja nichts dafür.
Und das ist irgendwie so kein Fehlverhalten, sondern es ist halt nur so ein Glitch, so ein Problem.
Der NXNC schreibt, schlechte Menschen tun, was schlechte Menschen tun.
Der Blutdruck hat anfangs ja auch der Kirche statt der Wissenschaft geholfen.
Ja, also man kann jetzt natürlich sich irgendwie zurückziehen und kann halt sagen, nicht, das ist halt ein Werkzeug wie jedes andere.
Nur ich glaube, dass wir tatsächlich inhärent ein Problem haben.
Also wir haben tatsächlich inhärent ein Problem.
Und ich bin mir halt auch nicht sicher, ob halt das so ein Zufall ist, dass halt jetzt gerade KI, wo irgendwie diese Themen mit Fake-Informationen ein Thema sind und irgendwie Bullshit uns auch an anderen Stellen hat erwischt, dass wir da jetzt gerade uns mit KI kümmern.
Christian hat noch geschrieben, nicht AI, maschinelles Lernneuron, letzte Sprachmodelle, das sind alles solche Begriffe, die eben genau aus diesem Bereich kommen.
Natural Language Processing und so weiter.
Und er schreibt halt, dass KI-Forschung nie gut in der Namensgebung war.
Ich würde das Gegenteil behaupten.
Ich würde sagen, die waren gut in der Namensgebung, weil sie damit halt eine Fantasie verkauft haben.
Und wir hatten ja diese Episode mit dem Lukas Duhm darüber, wie man halt mit KI sich kritisch auseinandersetzt.
Und da haben wir, glaube ich, relativ klar gesagt, dass das eben Absicht war, dass diese Vision in den Metaphern bereits drin ist.
Kommen wir also zurück auf das Paper.
LLMs und ihre Ziele
Die erste These oder das Erste, was das Paper, glaube ich, beobachtet, ist, dass LLMs keine Ziele haben, wie wir sie haben.
Sie haben halt keine Bedürfnisse, keine sozialen Belange und keine Projekte und keinen Willen.
Das sind halt einfach Textgeneratoren letztendlich, die sollen halt menschliche Sprache nachahmen.
Was halt bedeutet, dass sie so das Paper ein Problem mit der Wahrheit haben, weil das auch nicht das Ziel der Entwicklung ist.
Wahrheit vs. Überzeugungskraft
Das Ziel der Entwicklung ist eben, ein System zu bauen, das menschliche Sprache nachahmt und zwar glaubwürdig nachahmt.
Das bedeutet nicht, dass das Ziel ist, jetzt etwas zu haben, was die reine Wahrheit spricht.
Und das bedeutet, wir haben eben ein System, das halt so wirkt wie menschliche Sprache und eben insbesondere überzeugend sein soll, aber nicht unbedingt korrekt.
Was eben wiederum bedeutet, dass er sozusagen hilfreich nicht im Zentrum steht.
Und das ist, glaube ich, etwas, was sehr schnell offenbar wird, wenn man sich ChatGPT anschaut oder halt andere LLMs, die nicht überbeantworten Fragen, was Vertrauen schaffen soll und sind da halt sehr stark, offensichtlich stark darauf abgestimmt, zu sagen cool oder dafür zu sorgen, dass man halt denkt, cool, das ist halt eine krass schlaue Sache, die da irgendwie vor mir steht.
Und das ist, glaube ich, offensichtlich nachvollziehbar, dass das Ziel ist.
Und da gibt es halt diese berühmten Beispiele, wo dann halt beispielsweise glaubhafte falsche Quellen erzeugt werden.
Da gibt es dieses Beispiel von dem einen, zitiert das Paper, hat auch von dem einen Anwalt in den USA, der hat gesagt, der hat ein Paper eingereicht, eine Klageschrift oder sowas und hat lauter Zitate da gebracht hat über irgendwelche Verfahren.
Und das ist halt in den USA wichtig, weil ja der Grundsatz eben ist, dass sozusagen ein Beispielverfahren, wo irgendwas entschieden worden ist, eine Basis dafür sein kann, dass in einem anderen Verfahren etwas Ähnliches entschieden wird, in einer ähnlichen Richtung.
Nur diese Referenzen waren halt alle gefaked, also man hat tatsächlich erfunden.
Und das ist dann, also das ist etwas, was wir halt wissen.
So und das wird halt an der Stelle so das Paper schwierig, wo man jetzt sagt, wir wollen halt mit LLMs irgendwie Dinge tun, wie zum Beispiel Websuche ersetzen oder tatsächlich Menschen unterstützen.
So und das ist eben ein anderes Ziel.
Das heißt also, das Ziel wäre dann eben dafür zu sorgen, dass ich tatsächlich idealerweise korrekte Informationen bekomme.
Und dann muss ich ja dafür sorgen, dass das korrekt wird.
Und das ist halt ein bisschen eine Herausforderung.
Und wenn ich jetzt irgendwie anfange, da andere Quellen dran zu schließen, also eine Datenbank oder eine Websuche, dann erhöht das die Wahrscheinlichkeit, dass bessere Ergebnisse produziert werden.
Aber die können das halt nicht garantieren.
Also das Paper sagt halt im Prinzip, wenn ich das Ziel habe, dass halt etwas überzeugend ist, dann gibt es die Wahrscheinlichkeit, dass man da halt auch korrekte Ergebnisse produziert.
Aber das ist eben was anderes.
Genau, der Christian hat geschrieben, sind halt nur linguistische Formen, nicht Sprache.
Es ist eine perfekte oberflächliche Repräsentation von sprachlich korrekten Ausdruck.
So ungefähr würde ich das jetzt irgendwie auch denken, wird das halt irgendwie aussehen.
Was halt bedeutet, dass sie insbesondere auch kein Nachdenken oder Überlegen und auch kein Modell der Welt haben.
Also es ist jetzt nicht so, dass ich da halt ein Ding habe, was halt sagt, ich weiß, wie die Welt aussieht und ich habe irgendwie Semantik und weiß halt, was da irgendwie ist, sondern es ist eben ein Textgenerator am Ende.
So und das führt glaube ich so ein bisschen zu dem ersten Thema, was so ein bisschen Learning für mich ist.
Es steht zwar in dem Paper nicht explizit drin, aber das ist, glaube ich, implizit dort eine Aussage.
Wir haben also eigentlich ein grundlegendes Problem mit LLMs, weil eben LLMs versuchen, Text zu generieren, was wiederum umgekehrt bedeutet, wenn ich halt versuche, ein System zu bauen, was halt irgendwie sozusagen spezifisches Wissen hat tatsächlich und irgendwie dazu in der Lage ist, anders Dinge zu repräsentieren, dann hätte ich vielleicht auch andere Ergebnisse.
Das ist aber sozusagen eine KI-Geschichte und ich bin da, also das wäre mir die Frage, welche anderen KI-Ansätze habe ich.
Mir ist diese Woche nochmal der Begriff Expertensystem über den Weg gelaufen, also Systeme, die halt Experten ein bisschen explizit modellieren.
Das wäre zum Beispiel ein anderes Modell.
Es ist halt nur im Moment nicht das, was wir typischerweise haben.
So es gibt dann diesen Begriff Bullshit.
Bei Wikipedia wird das in Deutsch übersetzt mit Hohlsprech, was angeblich ein neudeutscher Begriff ist.
Ich fand das relativ schön und das Paper sagt jetzt, es gibt halt verschiedene Dinge, die ich halt machen kann.
Ich kann zum Beispiel lügen.
Lügen bedeutet, dass ich die Wahrheit irgendeiner Person sage und die Person soll sie aber glauben.
Das heißt also, es ist ein Ziel und vermutlich weiß man auch, dass man lügt.
Das heißt also, wenn ich jetzt kein Ärger haben will mit irgendjemandem, dann sage ich ihm, hier ist irgendwie alles super.
Das ist eine Lüge, in Wirklichkeit ist es halt irgendwie schlimm und ich sage das, dass er mir glaubt, damit die Person mich halt nicht weiter nervt.
Das ist eben etwas, wo ich tatsächlich ein Modell der Welt habe, etwas sage, was diesem Modell nicht entspricht, mit einer bestimmten Intention.
So etwas kann ein LLM einfach nicht machen, wenn man das eben so definiert, weil es keine Intention, keine Ausrichtung hat und eben kein Modell der Welt.
Was die noch halt diskutieren, der Sommerherz schreibt gerade, LLM ist von keinem Sinn für Logik, wenn man in der Vermenschlichung der AI-Semantik bleibt.
Genau, also es ist eben so, dass Logik oder sowas ist halt dort kein Thema und Christian hat gesagt, das technologische Problem ist halt, dass ein aktuelles LLM auch nicht mit ausgibt, wie sicher es ist, im Gegensatz zu vielen anderen ML-Modellen.
Ich bekomme keine Zahl wie bei Bildklassifikation.
Meine Behauptung wäre, ohne dass ich jetzt sozusagen ein AI-Experte bin, dass das halt auch gar nicht geht, weil das würde ja implizieren, dass ich sozusagen eine Realität kenne und das haben die halt nicht.
Also wir können halt sozusagen sagen, das ist überzeugend, aber ob es halt die Realität ist, ist halt irgendwie eine andere Frage.
Herr Dieter bei Twitch sagt, ich finde gefährlich, dass Werbung oder politische Agenda mit in die KIs eingewoben wird.
Als User bekommt man das aufgrund der Versprachlichung eingebetteten Regeln und teilweise verschiedenen Quellenangaben kaum mit, zum Beispiel vorgeschlagene Produkte.
Ich bin nicht sicher, ob wir zu dem Thema kommen.
Das ist auch etwas, was mir halt mittlerweile so aus meinen Überlegungen, aus den letzten 14 Tagen herausgeputzt wird, ist, wenn wir das Trainingsdatenset nicht kennen und das kennen wir halt nicht, das ist halt in den allermeisten Fällen geheim, dann können wir halt irgendwie auch ganz schwer beurteilen, welche Qualität, also woher diese Information kommt und wie glaubwürdig sie ist.
Und das ist tatsächlich auch irgendwie ein Thema, was ich halt für ein Problem halte, aber hat mit dem Paper jetzt erstmal nichts zu tun.
So, wo war ich?
Achso, genau, bei der Lüge.
Also Lügen ist es nicht, was LLMs tun.
Da müsste ich halt bewusst die Unwahrheit sagen.
Tun sie nicht.
Sie haben ja noch irgendwie diese Gerüchte, Gossip, das wäre halt etwas, wo man sagt, ich weiß ja nicht, ob es wahr ist, aber ich gebe es trotzdem mal weiter.
Und das, was ich in dem Paper gelernt habe, ist, dass Bullshit tatsächlich etwas ist, was man definieren kann.
Also da gibt es halt diesen Harry Frankfurt, heißt der, das ist ein Philosophie-Professor, der ist mittlerweile verstorben und der hat ein Buch geschrieben, das halt heißt On Bullshit.
Und Wikipedia sagt halt, im Kontext dieses Buches, das ist halt etwas, was halt unvermeidlich hervorgebracht wird, wenn Menschen gezwungen sind oder auch nur die Gelegenheit erhalten, über Dinge zu sprechen, von denen sie nicht genug verstehen.
So, und die Idee oder das Ziel ist es halt, glaubhaft zu wirken und es ist irgendwie egal, ob das, was man sagt, wahr ist oder nicht.
Also das ist nicht wie Lüge, wo ich halt sage, ich sage halt nicht die Wahrheit bewusst, weil ich halt irgendwie ein Ziel habe.
Ich will halt nur glaubwürdig wirken.
Die Beispiele, die jetzt das Paper nennen, sind ein Student, der die Quelle nicht gelesen hat, aber trotzdem darüber redet.
Ein Politiker, der hat irgendwas gesagt, was sich irgendwie gut anhört.
Würden mir einige einfallen, auch international.
Ein Dilettant, der halt eine interessante Geschichte erzählen will.
Was in dem Wikipedia-Artikel zu Bullshit stand, was ich auch spannend fand, sind Bürger, die als Demokratinnen glauben, dass sie zu allem eine Meinung haben müssen.
Was impliziert, dass sie sich eine Meinung bilden über Dinge, von denen sie eigentlich nichts verstehen.
Wenn sie darüber diskutieren, ist das eben etwas, wo sie Schwierigkeiten haben mit der Wahrheit.
Definition von Bullshit
So und tatsächlich hat sich das noch, also der Begriff ist nicht so, wie soll ich sagen, also ist tatsächlich ein wichtiger Begriff, der noch zu weiteren Dingen geführt hat.
Es gibt zum Beispiel dieses Buch Bullshit Jobs von dem David Greber.
Da geht es halt um Jobs, die keinen gesellschaftlichen Nutzen und keine Bedeutung haben.
Und die Behauptung ist halt, dass das irgendwie der Grund ist, diese Bullshit Jobs der Grund sind, warum wir nicht alle 15 Stunden pro Woche arbeiten und im Wesentlichen Freizeit zu uns haben, sondern es wird sozusagen Aufgaben, sinnlose Aufgaben geschaffen.
Und das hat dieser Begriff Bullshit in einer etwas anderen Definition auch drin.
Praktische Anwendung in der Softwareentwicklung
Das heißt letztendlich für das Paper und für unsere Betrachtung von LLMs ist also wichtig zu sagen, dass Bullshit bedeutet, man versucht glaubhaft zu wirken, aber die Wahrheit ist halt irgendwie egal.
Hard vs. Soft Bullshit
Und das Paper führt dann noch die beiden Kategorien Hard Bullshit ein.
Das ist etwas, wo ich mit Absicht Bullshit produziere, um das Publikum über die Absichten des Sprechers zu täuschen.
Und Soft ist halt ohne Täuschung.
Also ohne, dass ich jetzt proaktiv jemanden täuschen möchte.
Also wenn ich ein Student bin, der das Paper nicht gelesen hat, aber mit Absicht anfange, darüber zu reden, dann mache ich Hard Bullshit, weil ich das Publikum über die tatsächlichen Absichten täusche.
Und das LLM produziert mindestens Soft Bullshit, in dem Sinne, dass es eben keine Intention hat.
Und der Wahrheitsegalheit ist halt egal, weil davon hat es eben kein Konzept.
I’m not sure if the paper is completely solid.
You can submit the intention to the LLM how to act like a human being and how to act reliably.
Then it may be that it is hard bullshit.
I find it difficult in this whole discussion that it is neglected that there are these developers who actually built the system and have an intention.
And they actually implement the intention to convince people that an LLM somehow does useful and great things.
Sven just said the question whether the intention of the company that is training the LLM by hand is not hard bullshit or the system prompt.
Exactly.
That would be a bit of a question for me.
The paper doesn’t follow that.
The paper also criticizes hallucinations.
We have already talked about it briefly, because it is an anthropomorphic metaphor.
So one that seems human and pushes the problem a bit on the model.
The model is somehow not okay and has hallucinations.
And with that, the responsibility of the producer is turned away a bit.
And an alternative, which I haven’t heard before, is confabulation.
That is also an anthropomorphic metaphor.
And that is the production of objectively false memories.
What can happen, for example, due to a mental illness.
Or there are also …
I guess that’s part of it.
You can actually persuade people that they have experienced something.
That would be confabulation.
That would be an alternative to the term hallucination.
But I don’t think that helps us either.
Because then you actually assume that the goal is correct information.
But that’s not the case.
The goal is to produce a credible text.
But that’s just bullshitting.
Now the question is, what does that mean for us?
Or how do I stand to that?
I find the paper interesting and important.
And that’s why I wanted to make this episode about it.
Because it consciously introduces another metaphor.
So if I say I have artificial intelligence, then I follow this idea that people had at the time with artificial intelligence.
So they introduced the metaphor to transport.
That in the not-too-distant future we will have human-like things.
With a human-like intelligence.
And they did that very consciously to ultimately sell a vision.
And this whole technology approach, which is a multitude of different things, to open up a bit to breakthrough.
And I find it interesting to say, then we call it bullshit.
And let’s see if that holds up at the review.
If we call the thing artificial intelligence, but it’s not intelligent, why can’t we call it bullshit?
And it’s just kind of…
Maybe even a bit more coherent to talk about bullshit than intelligence.
And then we have a metaphor that is devaluing, just like intelligence is devaluing.
So that’s my interpretation.
That’s not what’s in the paper.
In the paper there is a very clean argument for that this is actually bullshit in the sense of Frankfurt.
And that’s an exciting idea for now.
And to deal with such ideas is helpful, I think.
And one thing that I have derived for myself, so to speak, is…
So I’m an architect consultant now.
That means I love to give people advice and to make a targeted consultation.
And…
So there are situations where I say, that’s a good question and I don’t know exactly what the answer is.
And then I try to weigh things somehow.
So, I don’t know, is that the best technology now?
I don’t know.
There are the following options.
You can somehow, I don’t know, use RapidMQ or Kafka.
And those are advantages and disadvantages.
And I don’t know exactly.
I don’t want to seem convincing in the sense that I say, that’s the solution, but actually start a thinking process.
And something like, I don’t know, is in my opinion something that can and may occur in my vocabulary and in what I say.
And I’m not sure if an LLM would say that so concretely.
And I have a little bit…
So it helps me not to talk about LLMs anymore, but about text generators.
Because that’s actually what they do.
They generate text somehow.
And these are seductive text generators, because they try to impress users.
Although it is interesting, we also discussed this in the episode with Lukas, that the bar is actually relatively low.
It is low in the sense that Eliza in the 60s, what the Weizenbaum built, and a psychotherapist, that already led to the fact that the secretary of the Weizenbaum had dialogues with this thing, which Weizenbaum himself should no longer read.
Which implies that these are real problems, which he somehow discussed.
Which means that the bar for, wow, that’s very intelligent, and I can somehow talk sensibly with it, is impressively low.
Then it is so that we have this topic with the software development.
Oliver just wrote a famous stochastic parrot.
Eliza is even easier, isn’t it?
This is actually in the 80s as, I don’t know, 100 numbers, basic, somehow tipped off.
And it’s actually just rephrasing sentences, and from time to time reacting to keywords.
And Christian wrote, people have incredible problems with fluency, i.e. distinguishing linguistic competence from intelligence.
Exactly.
And by the way, that’s maybe something you can learn from it.
If I want to be convincing, I might have to invest in it.
But now let’s get back to the topic, what that actually means for us in software development.
And what I find interesting about it is, what you can do with it is, I can generate large amounts of things.
So objectively, where it’s not so clear whether they are of high quality or not.
And the question I ask myself is, is that actually our problem in software development?
So I would say, understandability is actually our problem, right?
So code that I write is read more often than written.
And that leads to the fact that you have to ask yourself whether something that generates text, a text generator, actually solves the problem.
And the other, and that somehow leads to the next topic.
So if we say that the results we have there may not be true, then we actually have to control the results.
So that means, we have to introduce a control now.
That’s also something that we discussed in the episode with Lukas.
And that’s understandable, because actually an LLM is something that says, I read somewhere on the Internet that this may be the case.
But I can’t say exactly where.
I can’t go back to the original source from which this model learned things.
And it’s actually a little worse, because the model doesn’t say, I read this somewhere on the Internet.
But it says, maybe the text just inspired me.
I don’t know.
And that’s not so typical.
If someone says to me now, hey, here’s the following information.
And I ask, where does it come from?
Somehow from the Internet.
Then it’s actually difficult.
And that means, I actually have to control it.
And that’s how it is now.
Christian wrote, I don’t have a guarantee that the generated code doesn’t hurt the GPL.
So no, it starts to get difficult in response, because GPL says, derivative work is under GPL.
And I’m not sure, I think that’s a story that lawyers can deal with for a long time, what exactly that means when things are derivative work.
There are obvious examples, but here we are in an area where it gets a little unclear.
No idea.
And I think, if I’m not mistaken, at the moment, things that have been generated by AI cannot be subject to copyright.
But no idea.
It’s a legal question.
We have experimented with LLMs in the stream in various places.
Ralf has also done that.
And the first thing we did back then was that we said to an LLM, I’m going to copy the example task and solve it.
And what I remember very well is that we then noticed at some point that it just produces nonsense, that has nothing to do with requirements or other things.
And that was somehow justified by the fact that the token storage, so to speak, the field of view of how much the system is still looking at, the task had now also fallen out.
So the source on which the architecture should actually be developed, the LLM did not continue to look at.
And a little more blatantly, we did this episode some time ago, where Ralf talked about his Linter.
And I had somehow drilled into the quality scenarios.
And there was somehow something like, hey, a Linter is a thing that somehow a text on correct syntax and examines some difficulties.
And that was somehow a Foresky doc.
And there was now some performance requirement in it.
I don’t know, 100 files in 10 seconds or whatever.
I just looked at it somehow and asked myself, where does that come from?
When you say that it’s a text generator, it’s clear that it’s just a requirement as you might actually find it.
And it’s just bullshit in the sense that it doesn’t represent a real requirement or anything like that.
It’s just something that sounds convincing.
And at the latest at this point, I think we have another problem.
I would actually have to check that now.
But actually, when I start to think about architecture, the much more interesting question is, which quality scenarios do I actually have?
If the answer is, I don’t have any, then that means that I have a gap and have to work on it.
I can’t get into this situation at all.
There’s just one thing that generates text.
The text sounds convincing somehow.
It’s just bullshit in the sense that there’s no truth in it.
Which means that this story with, okay, what are actually my quality scenarios?
What do I actually have to fulfill?
That just doesn’t happen now.
And actually, I think it’s interesting to ask the question of someone like Linter, who is now supposed to check the syntax of something or maybe not.
He’s supposed to pick up typical errors or problems.
What are the quality requirements?
So maybe performance, but certainly not that much, right?
So I’m going to run through a file now and that’s bad if it takes many minutes.
But I think it’s unlikely that this is really my requirement.
Functional correctness, that the results are actually really, really correct.
It’s just a Linter.
So that means the discussion is actually which quality scenarios do I need?
And it would be more helpful if there was a system that would say, listen up, that’s my job, so to speak, that I typically have.
Listen up.
Quality scenarios are important from my background.
They drive the architecture.
You don’t have any good quality scenarios.
You should maybe go back and try to figure out what the requirements are.
If I do that with an LLM, I’ll be beaten up with anything.
And I just don’t get these questions and I don’t see in which direction I actually have to go and where the blind spots are.
What I found very exciting was last week’s episode with Simon Wortley, who talked about the HRM’s architecture.
And he reported there that he was doing this wipe coding, which basically means I don’t want to see what my system, what my AI generates.
And I’m just working in dialogue with the AI.
And he reported that he told the AI system, generate more tests.
And he later said, generate more tests.
And something came out of it.
And somehow it got very clumsy and he somehow found out that the system actually did not generate any tests, but only code that reproduced test outputs.
So it produced green bars, or error messages, or a successful test, but it actually did not execute the code that was being tested.
And I find it difficult to go out there and say, I don’t want to check on this code level what my AI is doing.
So that’s actually something where I think a check is absolutely necessary.
And it’s extremely difficult if I don’t do that.
And I also find the behavior overall exciting.
What I find interesting is, let’s assume that would be a developer.
So I imagine a developer wrote a test.
And this test produces test outputs, but actually does not perform a test.
I am of the opinion that you should ideally pass it on to developers.
So that means, if a developer came and said, I don’t know how to write a test, then I would ideally sit down with him.
I would tell someone that the person sits down with him.
If a developer says, listen, I wrote a test, but somehow I don’t feel very comfortable and it’s kind of weird.
Okay.
So also something where we can work on it.
And we shouldn’t.
So that’s nice when people say, I have a problem and if you can help them, then these people grow.
And that’s actually where we want to go.
I have to admit, if a developer comes, if I find out that a developer wrote a code that acts as if it were a test, I would, I think, demolish it.
And I don’t see the alternative seriously.
Because that’s something else.
That’s not not being able to.
You can fix that.
But that’s actually intention to deceive.
And that’s just super dangerous.
So on the one hand, it’s just that under certain circumstances it can just lead to that there are some errors in production and they can have dramatic consequences.
But the other problem is also that it’s actually an attempt to deceive.
And I just don’t feel like working with a person who is not only, who is actually actively deceiving.
So that means that I have a trust problem.
And how you can go out there and then say, okay, I have an LLM and the LLM somehow generates something and I don’t want to understand that, which is obviously somehow the direction of web coding, I just don’t understand at this point.
Christian writes, this is the basic problem.
Actually, these code generators are only sometimes useful for senior developer.
You shouldn’t get this tool.
So actually my statement is just that I should at least control it.
And that somehow leads to the next question whether I have a productivity advantage.
You have to somehow lay down the cards.
I can just …
So exactly, I should just briefly report on this other story.
We had Marco Emmerich, who was also on the stream here.
We had this conference on the topic of AI and software development.
We sat down and he kindly brought his cursor license and then we built something with the cursor.
We tried to build Game of Life.
In fact, it’s just how I change.
And in fact, it’s just that we quickly came to a result.
And then we somehow got caught up in the discussion about how reasonable exception handling actually works.
And I would first claim that we have never built a Game of Life so quickly.
And I think you could also see when you control it, that it is somehow reasonable.
I think the mistake we made is to zoom down on this technical thing and we should have fixed that at the beginning of the code.
Which means that you should control it.
That would be my statement.
Whether this is only useful for 10 years now, I don’t know.
So it says you have to be able to control it.
And I spend, when I do AI, I don’t think that’s a bad thing.
On the other hand, I have to admit, I wouldn’t seriously start a TypeScript project without something like Cursor or ChitchuPT, because otherwise I would have to learn TypeScript first and so on.
And I have also learned for myself that with this tool I think I am able to implement TypeScript quite productively, because in the end it’s just a programming language with curly braces and on a certain level I can manage it somehow.
OctaneMan writes, the productivity advantage can also be spoken of nicely if management, the real quality, doesn’t matter.
It’s just not really sustainable and may cause false security.
And that’s what I’m trying to say.
What Christian just said, our problems are often code bases that are old and that no one understands.
That will probably, I would now introduce it as a thesis, get worse if we just massively rely on these tools.
And that’s just a problem.
And it’s also impressive how much trust there is, although it’s just somehow difficult in many places.
Oh, right.
And I can tell this other story, which I find very exciting.
Ralf has set himself up nicely and makes transcripts, has built a system with which our contributions are transcribed.
And there was this almost ironic story that in a transcript ChitchuPT has not been properly transcribed.
So there are some other terms that have been understood, because ChitchuPT is not in the vocabulary of this transcriptor.
And that’s a bit bad for the transcripts, because we don’t control them.
So Martina sat down and checked an episode.
But we probably won’t control that.
And with that we break through the concept, what I’m actually asking for.
It somehow comes down to the fact that I think it’s good for barrier-free to have a transcript.
And I’d rather have a transcript, which is not perfect, than none at all.
That’s the trade-off.
You can discuss that, of course.
That’s why I find it exciting with ChitchuPT.
Because that means that the term ChitchuPT does not appear in the transcript, although I have mentioned it several times.
Which means that in the summary, which is based on the transcript, the term ChitchuPT cannot appear either, because it does not appear in the transcript.
And it has actually been transcribed differently.
So it’s not that it’s a constant error, but it’s just different transcripts.
And that means that we actually have a problem there.
It’s just that certain other summaries were also erroneous.
I could somehow correct that.
I wouldn’t have a chance there.
So ChitchuPT wasn’t important enough that it would have been worth mentioning in the summary.
But if it had been so, it wouldn’t have appeared there, because it had already been subjugated in the transcript, which we don’t control.
T.
Martin writes, as with all processes, not according to seniority or non-seniority, but according to application competence, also for senior devs, who probably succeeded as juniors.
Exactly.
But that’s a bit of a definition of senior devs, isn’t it?
So I hope they have more competence there.
We still have a little time.
I want to go back to another topic for a moment.
There is an article by Luke Burling.
He used gaslighting as an attack against an LLM.
Gaslighting is something where you deceive people about reality.
So it’s a psychological thing.
And then it leads to something not strange to do.
And he used it as an example that the construction of Molotov cocktails, which Chachabiti otherwise does not issue, that you somehow get it out of there.
First of all, I think that’s a totally valid thing.
It’s a scientific thing, a scientific experiment.
I find it totally exciting, I find it interesting that something like that somehow works and that you get results.
He had a dialogue, so to speak, so that he made the LLM know that it is actually sometime in the future and that you should now retrospectively think about LLMs at the present time and that they somehow have these security rules.
And then he somehow got the thing about it, to somehow issue this kit.
And for me that’s great so far, so to speak.
You can now discuss it.
And that was a bit of what triggered me first, that it’s actually anthropomorphic again.
That says, we’re trying to attack an LLM as if it were human.
And I find that difficult for the reasons mentioned, because it’s a bit of this thinking that I’m actually dealing with people.
But above all, it’s definitely worth trying it out and see if I can get any further if I use these psychological tricks.
For me, that led to something else.
And that’s something that his paper and his discussion, I don’t think, really discuss.
But that’s what triggered me a bit.
And that’s the statement that it’s a security breach, so to speak.
So that security has now been broken through with it.
And security, I think…
Exactly, Christian just wrote, a huge, large, probabilistic model will always have a security problem.
You have to dig deep enough.
And that’s just a bit of the question.
So what does security actually mean?
And I just learned that security actually means something like damage and somehow an attack vector.
So if I lose my access to a crypto exchange, I don’t have one, but if I had one, then I somehow lost the money.
Damage, money is gone.
Attack vector, no idea.
Maybe some tricks where I manipulate the software.
That’s what the Koreans obviously did with a large crypto exchange, the North Koreans.
And then the money is gone.
So I have to protect myself against that now.
And another example is, I have the data of my customers, they are on the Internet, I have a loss of trust problem.
Or it could be worse.
It could be that these data lead to that they are injured in their personal rights, that some people can use it to lure them in or whatever they do, and so on.
So that’s the kind of observation.
So now it’s like this, that this LLM has generated a text about the construction of Molotov cocktails.
Where is the security breach now?
Why can’t I…
Christian wrote, damage, a chatbot of teenagers turns to kill himself, or a Google that turns to eat stones.
Well, that’s kind of the point, isn’t it?
So if Google tells me to eat stones, there is a kind of critical resistance.
The story with the chatbot of teenagers turning to kill himself, that’s a good point, isn’t it?
So the example actually exists.
There is also someone who has, so to speak, killed himself, obviously, on the basis of a kind of emotional dependence on chat GPT.
At least that’s how I understood it on the level of the headlines, isn’t it?
So that’s where I actually fabricate rumors.
And that’s…
So those are good indications, that actually correspond to what I’m talking about, that you have to think about what the effects are.
And in some places they are surprising.
So I’ve said it before, VW had this problem with the location data, which they have cut for a long time and which somehow ended up on the Internet.
And I also wrote a blog article about it, I can think about it again.
And I kind of thought, that can’t be that bad.
Because I mean, it’s location data.
Until you somehow get introduced, that I can somehow say now, this car is typically in this address, the private address.
It’s usually at office hours at the BND.
And from time to time it’s at a model on the parking lot.
And that’s kind of a story, which leads to the fact that it’s obvious, that there is a potential for repression.
And I didn’t know that before, that from my learning.
What else is written here?
Erwin Pieters wrote, security can be abstractly defined as predictability.
I don’t know.
So not damage and probability are actually the points.
And then Christian wrote, as soon as you tie it closer to internal systems, it gets exciting and actually only allows attack scenarios via customer support e-mail.
And that’s a little bit, that’s exactly what I want to go beyond, to this Molotov cocktail example.
What we, so why doesn’t JGPT just generate a manual for building a Molotov cocktail?
And the answer, that the system itself gives, if you say that it should generate an answer to this question, is something in the sense of ethics.
I think that the real reason is, that it’s just difficult to show, that there is a system on the Internet, that gives back something like that in a dialogue.
And not just say, that’s how you build a Molotov cocktail.
That means, it’s actually about, that OpenAI can continue to operate the system and not someone says, that it’s obviously a very terrible system, because that tells people, how they can build Molotov cocktails.
And in this sense, what happened there as an attack, I would say, is not really a problem, because OpenAI will not have to take the system offline because of this problem, but they will maybe protect it better, or they will talk themselves out of it and will say, well, it’s just not like that.
So that’s just one, because someone tried very hard and whatever.
The other possibility, and I think that’s what Christian just said a little bit, is, well, the system gives out information, that should actually be protected.
And I claim, that in this specific case, it’s not really the problem.
So what I mean is the following.
As part of this, I found out, that you can actually, within three clicks, and a little superficial research, build instructions for, for example, nail bombs.
These are public on the Internet.
And I think we’re doing now in a search engine, Dr. Go or something, no accusation, because it somehow helps me with such research.
Why are we making an accusation now?
Why should we make an accusation there?
That’s basically the same thing.
That means, there is somehow this knowledge base, which is somehow on this Internet.
And I’m making a request now.
I can give it to Dr. Go, as a search engine, or I can give it to Chet Chibiti, and then I get a result.
And that’s just the way it is, so to speak.
That means the real question, public information is public.
I can’t protect it again.
And Christian’s point is somehow relevant there.
So if I don’t do public data in an LLM, which is publicly accessible, surprise, then I really have a problem.
But that’s somehow, that’s just the way it is, if I put it on the Internet otherwise.
I actually only put this information in a different way on the Internet.
And to be precise, it’s just that this system says, somewhere on the Internet I read that you build Molotov cocktails like this.
But I can’t say exactly where.
And I remember it roughly like this.
But maybe I’m just inspired by the text.
And yes, nice try.
But that wouldn’t be enough for me.
And Christian just wrote, the example doesn’t matter.
Everyone can have the anarchist cookbook.
As I said, the real risk is to use such systems without human oversight on internal systems and only as a CRM lookup.
Exactly.
So that means that I shouldn’t do that.
But maybe I shouldn’t do that anyway.
So I shouldn’t put systems that are trained with my CRM, that have secret information as training, I shouldn’t put them on the Internet publicly.
Which means, if the system has only been trained with authentic documents of a terrorist organization, then I will rate it differently.
But that’s just another system that has information that I don’t want to find on the Internet anyway, in a public place.
And that leads to another topic, and I find that interesting at this point.
If I actually apply the concept that I want to control the result, and I have to, then that means that this chat GPT problem is actually a smaller problem, because I need another source with which I can somehow compensate.
So the information I get back is just bullshit.
It’s just not the case that it’s controlled by the truth value.
So I’ll probably have to control it in some ideal way.
And then the problem is actually this training data set.
But we don’t know that.
So if I use Cloud or chat GPT, I don’t know that.
Which means that I actually, to trust the thing, probably also need access to this training data set.
And then I know where these answers come from.
And that leads to the fact that, yes, text generators can generate a dialogue that somehow looks like gaslighting.
But something comes out of it that looks like a guide for the construction of Molotov cocktails.
I think that’s totally valuable as a psychological experiment.
Maybe that’s also correct.
But that doesn’t matter for my argument.
I should just control it, as we saw before.
There are other, better sources for that.
But then it doesn’t matter that the text was generated.
Because I have other sources that are better.
And I would rely on them, not on the chat GPT, which is why I wouldn’t see it as a security breach.
And then comes Christian’s point.
He somehow says no.
But if I fed the system with non-public data, and that is, so to speak, also a result.
Christian writes, open question, can a malicious actor publish shout software on GitHub, which then ends up in his own code via Copilot?
Ah, exactly, good point.
It is so, I have to link that again, that we know that obviously the Russians feed chat GPT with information to ensure that the results of the chat GPT run in their direction.
I link that again.
And that is exactly something where we actually have to see or know the training dataset to trust it somehow.
And that means that the training dataset as an attack vector is a problem, so to speak.
And that is Christian’s point.
So if I have a lot of shout software in GitHub with some code things that play a role and they are replicated by Copilot, then I have a problem.
And that leads again to the question not with the control.
And there is the problem again.
So when we talk about security, code that has a security problem, that is often not obvious.
So it may actually be that I have smaller, error-smaller problems on code that have a dramatic impact.
Good.
That’s about it.
Thank you for the discussion and the input.
Short preview.
I guess we will do an episode next week.
I’m not 100% sure.
The topic is still open.
Next Friday is a bad date.
That’s K-Friday.
And otherwise thank you for listening.
Thank you for the questions and for the discussion.
And maybe you are at some point on the architecture kickstart.
I have already pointed out.
You can learn how to build architectures interactively and with the important topics in my eyes.
Have fun learning more about AI tools.
And then we’ll see each other at the right place again soon.
Until then, thank you very much.