Folge 314 - KI Coding Produktivität mit Ingo Eichhorst

Der nachfolgende Text wurden mit KI erstellt und kann Fehler enthalten. Fehler gefunden? Bei GitHub editieren

Wichtige Keytakeaways

Subjektive Selbsteinschätzung von Produktivitätsgewinnen durch KI (+20%) weicht in der ersten METR-Studie signifikant von objektiven Messwerten ab (tatsächlich -20% bei unerfahrenen Nutzern).
Die 2. METR-Studie zeigt moderate Produktivitätsgewinne von etwa +20% bei erfahrenen Teams, nicht die oft beworbenen 10x-Faktoren.
Code-Qualitätsmetriken (Code Health, Komplexität) korrelieren stark mit der Effektivität von KI-Systemen beim Refactoring.
Die Änderbarkeit nach der Übernahme von KI-unterstützt geschriebenen Code ist statistisch nicht signifikant schlechter als bei von Menschen geschriebener Code.
Durch KI-Nutzung enstehen neue Tätigkeiten entstehen (Prompting, Output-Review, Warten), die den Zeitgewinn beim Coding füllen.

Wie misst man Produktivität objektiv, wenn subjektive Wahrnehmung stark abweicht?
Warum werden erfahrene Entwickler durch KI-Tools teilweise nicht schneller, während Anfänger eher profitieren?
Welchen Einfluss hat Code-Qualität auf die Effektivität von KI-gestützter Entwicklung?
Führt KI-basierte Entwicklung zu schlechteren Code-Basen über längere Zeiträume?
Wie verlässlich sind wissenschaftliche Studien, die mit LLMs als Bewerter arbeiten?
Wird die Komplexität von Software-Systemen durch KI-Einsatz signifikant erhöht?

Peer Review: Wissenschaftlicher Prozess, bei dem andere Experten die Methodik und Ergebnisse einer Studie vor Veröffentlichung überprüfen und bewerten.
ArXiv: Plattform für wissenschaftliche Preprints, die noch nicht durch formales Peer-Review gegangen sind, aber mehr Review-Prozesse als Blogposts durchlaufen.
Code Health: Softwaremetriken zur Messung von Code-Qualität und Wartbarkeit, entwickelt von Adam Tornhill zur Bewertung der “Gesundheit” von Codebases.
LLM as a Judge: Methodologie, bei der ein Sprachmodell (statt Menschen) die Qualität oder Effektivität von Code bewertet, was in der Folge umstritten war.
Brownfield vs. Greenfield: Brownfield bezieht sich auf die Entwicklung in bestehenden, etablierten Systemen; Greenfield auf völlig neue Projekte ohne Legacy-Code.
Screen Recording Analyse: Wissenschaftliche Methode, bei der Entwicklertätigkeiten auf Video aufgezeichnet und mit der Stoppuhr analysiert werden, um objektive Zeitmessungen zu erhalten.

Warum zeigen objektive Messungen (Screen Recordings) deutlich niedrigere Produktivitätsgewinne als die subjektive Selbsteinschätzung von Entwicklern?
Inwiefern beeinflussen begrenzte KI-Erfahrung und mangelnde Schulung die Messergebnisse in Produktivitätsstudien?
Wie wirkt sich die Integration von Code-Qualitätsmetriken auf die Effizienz von KI-gestützten Refactoring-Prozessen aus?
Ist es wissenschaftlich legitim, ein Sprachmodell als Bewerter für Code-Qualität einzusetzen, wenn das Vergleichsszenario (manuelle Arbeit) nicht gemessen wird?
Steigt die strukturelle Komplexität von Software-Systemen nachweislich durch den Einsatz von KI-Entwicklungswerkzeugen?
Sollten traditionelle Code-Wartbarkeitskriterien bei KI-generiertem Code gleich bewertet werden wie bei von Menschen geschriebenem Code?

Begriff	Erklärung
Produktivität	Schwer zu definieren, wichtig: Geschwindigkeit (Output), Qualität des Codes und Kundenzufriedenheit; Business-Erfolg ist letztendlich das Ziel.
Code is a Liability	Philosophischer Ansatz, der besagt, dass Code selbst nicht wertvoll ist, sondern nur die Features, die er ermöglicht – Code ist ein notwendiges Übel.
Idle & Overhead	Zeit, die Entwickler vor dem Rechner verbringen, aber nicht aktiv programmieren (Meetings, Recherche, Warten, Kaffeepausen).
Break-Rate	Wahrscheinlichkeit, dass beim Refactoring oder bei Änderungen am Code etwas bricht oder fehlschlägt; korreliert mit Code-Qualität.
Knowledge Cut-off	Zeitpunkt, bis zu dem die Trainingsdaten für ein Sprachmodell reichen; danach kann das Modell keine aktuelleren Informationen kennen.
Entropy in Code	Zunehmende Unordnung und Inkohärenz in einer Codebasis, wenn Module auf unterschiedliche Weise entstanden sind und nicht mehr zusammenpassen.