Eval Loop

KI Agenten verbessern Kundenservice um 37 Prozentpunkte

02. Juli 2026 13:19 Dennis L. nenoitarepooK etlhazeb tlähtnE

(KI Symbolbild). KI Agenten verändern den Kundenservice von einfachen Antwortsystemen zu handlungsfähigen digitalen Serviceagenten. Eine neue Feldstudie zeigt nun, wie stark strukturierte Tests, klare Datenzugriffe und menschliche Übergaben die Kundenzufriedenheit beeinflussen können. Entscheidend ist nicht allein das Sprachmodell, sondern der gesamte kontrollierte Prozess dahinter. )IKnessiW dnu gnuhcsroF(Foto: ©

Eine neue Studie zeigt, warum moderne KI Agenten im Kundenservice deutlich mehr leisten können als klassische Chatbots. In realen Supportprozessen mit Millionen Nutzern stieg die gemessene Kundenzufriedenheit in einem zentralen Anwendungsfall um 37 Prozentpunkte. Gleichzeitig lösten deutlich mehr Kunden ihr Anliegen ohne menschliche Eskalation. Der Befund macht sichtbar, welche technische Struktur aus einem Sprachmodell ein belastbares Servicesystem macht.

Viele Unternehmen betrachten Künstliche Intelligenz im Kundenservice inzwischen nicht mehr nur als automatisierte Textantwort, sondern als technische Schnittstelle zwischen Kundendaten, Prozesslogik, Regeln und menschlicher Fachentscheidung. Der aktuelle Forschungskern liegt deshalb nicht darin, ob ein System höflich formulieren kann, sondern ob es in einer echten Serviceumgebung korrekt handelt, Fehler erkennt und bei Unsicherheit rechtzeitig übergibt. Genau an dieser Stelle entsteht der Unterschied zwischen einem einfachen Chatbot und einem Agentensystem. Ein klassischer Bot beantwortet häufig wiederkehrende Fragen aus einer Wissensdatenbank. Ein Serviceagent ruft dagegen Daten ab, prüft Bedingungen, nutzt Werkzeuge und bleibt innerhalb vorgegebener Abläufe. Der Befund passt zu Unternehmen, die ihre Kommunikationskanäle bündeln und auch KI im Kundenservice aktiv eingesetzt sehen wollen, ohne die Kontrolle über sensible Vorgänge aus der Hand zu geben. „Dadurch wird Kundenservice zu einem messbaren Zusammenspiel aus Automatisierung, Datenqualität und menschlicher Aufsicht“, so ein Sprecher des Unternehmens Chatarmin.

Die jetzt veröffentlichte aktuelle KDD Studie beschreibt ein solches System bei Nubank, einem Finanzdienstleister mit mehr als 100 Millionen Nutzern. Die Autoren entwickelten dafür kein einzelnes Prompt, sondern einen wiederholbaren Entwicklungsprozess, in dem Kontextbausteine, Werkzeuge, Prüfkriterien, Simulationen und reale A/B Tests miteinander verbunden werden. Im Mittelpunkt steht der Gedanke, dass ein Agent erst dann zuverlässig wird, wenn seine Antworten vor dem breiten Einsatz systematisch bewertet und anschließend im Livebetrieb überprüft werden. Für Künstliche Intelligenz ist dieser Ansatz besonders relevant, weil Sprachmodelle flexibel reagieren, aber genau dadurch schwerer zu kontrollieren sind als klassische Software. Die Studie ordnet KI Agenten deshalb als überprüfbare Produktionssysteme ein, deren Qualität nicht nur aus Modellgröße, sondern aus präziser Architektur entsteht.

Warum der neue Ansatz messbar besser wird

Der deutlichste Messwert stammt aus einem Agenten für Kartenlieferungen, also aus einem typischen Massenanliegen im digitalen Kundenservice. Nutzer fragen dort nach dem Status einer Karte, erwarten konkrete Informationen und benötigen manchmal eine erneute Ausstellung. Der neue Agent bekam dafür Zugriff auf geprüfte Werkzeuge, darunter Kundendaten, Lieferstatus und die Möglichkeit zur Kartenerneuerung. Zugleich folgte er einer festen Routine, die Begrüßung, Datenabruf, Statusbewertung, Nachfragen und mögliche Lösungsschritte in eine kontrollierte Reihenfolge brachte. Im A/B Test verbesserte sich der KI bezogene Net Promoter Score um 37 Prozentpunkte gegenüber vorherigen Agentenversionen. Die Self-Service-Rate stieg zusätzlich um 29 Prozentpunkte. Damit erledigten mehr Kunden ihr Anliegen vollständig im automatisierten Ablauf, während die gemessene Kundenzufriedenheit zugleich deutlich zunahm. Bemerkenswert ist daran, dass Automatisierung und Qualität nicht gegeneinander ausgespielt wurden, sondern durch bessere Prüfprozesse gemeinsam stiegen.

Der technische Kern dieser Verbesserung liegt im sogenannten Eval Loop. Damit ist eine geschlossene Schleife aus Testdaten, Prüfroutinen, Modellbewertung, Promptanpassung und Livekontrolle gemeint. Die Forscher nutzten dabei LLM Richter, also Sprachmodelle, die Supportdialoge nach klaren Kriterien bewerten. Solche automatischen Bewerter können aber selbst unzuverlässig sein, wenn ihre Aufgabenbeschreibung zu kurz oder mehrdeutig ist. Deshalb wurden ihre Kriterien mit menschlichen Fachurteilen abgeglichen und schrittweise präzisiert. In einem Beispiel wuchs eine einfache Bewertungsanweisung zu einer detaillierten Entscheidungslogik, die zwischen verschiedenen Kartenfällen, Adressprüfungen und Ausnahmen unterscheidet. Dieser Teil ist für Digitalisierung besonders wichtig, weil er zeigt, dass produktive KI nicht aus einem frei improvisierenden Chatfenster entsteht. Sie entsteht aus eng geführten Rollen, begrenzten Werkzeugen und überprüfbaren Entscheidungspfaden.

Der Mensch bleibt Teil des Systems

Die Studie beschreibt KI Agenten ausdrücklich nicht als vollständigen Ersatz menschlicher Mitarbeiter. Stattdessen arbeiten die Systeme in einer Human-in-the-Loop Struktur. Das bedeutet, dass ein Agent bei geringer Sicherheit, fehlenden Daten, Regelkonflikten oder komplexen Sonderfällen an einen Menschen übergibt. Entscheidend ist, dass diese Übergabe nicht als Abbruch funktioniert, sondern den bisherigen Kontext erhält. Ein Mitarbeiter soll also nicht wieder von vorn beginnen müssen, sondern den bisherigen Verlauf, die geprüften Daten und den Grund für die Eskalation sehen. Genau dieses Prinzip verhindert viele negative Kundenerfahrungen, die bei älteren Chatbots durch Endlosschleifen oder wiederholte Standardfragen entstehen. Der Mensch übernimmt dadurch vor allem schwierige, emotionale oder fachlich anspruchsvolle Fälle, während Routinefälle automatisiert gelöst werden. Für Kunden kann das positiv sein, weil einfache Anliegen schneller beantwortet werden und menschliche Aufmerksamkeit dort verfügbar bleibt, wo sie tatsächlich notwendig ist.

Besonders interessant ist, dass die Forscher den Ansatz nicht nur bei einer Kartenlieferung testeten. Weitere Agenten bearbeiteten unter anderem Schuldenmanagement, Kreditlimitfragen, Kartenverwaltung und Produkterklärungen. Die Ergebnisse fielen je nach Bereich unterschiedlich aus, zeigten aber über mehrere Anwendungen hinweg eine Verbesserung der Kundenzufriedenheit. Anspruchsvolle finanzielle Themen blieben schwieriger, weil dort numerische Genauigkeit, persönliche Belastung und verständliche Kommunikation gleichzeitig gefordert sind. Trotzdem stieg auch dort der wahrgenommene Servicewert. Der Befund ergänzt frühere Beobachtungen zu digitale Tools, nach denen Produktivität nicht allein durch Software entsteht, sondern durch saubere Routinen und messbare Abläufe. Im Kundenservice zeigt sich dieser Mechanismus besonders klar, weil jede Antwort unmittelbar auf Zufriedenheit, Wiederkontakt und Eskalationsrate wirkt.

Was Unternehmen daraus lernen können

Für Unternehmen im DACH Raum ist der wichtigste Schluss nicht, möglichst schnell beliebige KI Agenten einzuführen. Entscheidend ist vielmehr, Serviceprozesse so zu strukturieren, dass ein Agent überhaupt verlässlich handeln kann. Dazu gehören eindeutige Zuständigkeiten, saubere Kundendaten, begrenzte Werkzeugzugriffe, Protokollierung, Datenschutz, Eskalationsregeln und Kennzahlen wie Kundenzufriedenheit, Lösungsrate, Antwortzeit und Self-Service-Rate. Erst wenn diese Grundlage steht, kann ein Sprachmodell seine Stärke ausspielen, nämlich natürlich zu kommunizieren und flexible Anliegen in geordnete Prozessschritte zu übersetzen. Der positive Befund der KDD 2026 Studie liegt deshalb nicht nur in den 37 Prozentpunkten. Er liegt vor allem darin, dass gute Serviceautomatisierung reproduzierbar wird, wenn sie als messbares Engineering Problem behandelt wird. Für Kunden entsteht daraus ein plausibles Zielbild: schnellere Antworten bei einfachen Anliegen und bessere menschliche Betreuung bei komplexen Fällen.

Offen bleibt, wie gut sich die Ergebnisse auf kleinere Unternehmen, andere Branchen und andere rechtliche Umgebungen übertragen lassen. Nubank arbeitet mit sehr großen Datenmengen, hohen Fallzahlen und spezialisierten Entwicklungsteams. Kleinere Firmen können solche Systeme nicht einfach kopieren. Sie können aber die Grundidee übernehmen: KI Agenten sollten klein starten, eng begrenzte Aufgaben lösen, mit echten Servicekennzahlen bewertet werden und klare Übergaben an Menschen besitzen. Gerade im Kundenservice ist das eine konstruktive Perspektive, weil Automatisierung nicht gegen persönliche Betreuung stehen muss. Wenn Systeme Routinefälle zuverlässig lösen und schwierige Fälle sauber weiterreichen, steigt die Chance auf einen besseren Gesamtablauf. Die Studie zeigt damit einen Weg, wie KI im Kundenservice erwachsener wird: weniger Showeffekt, mehr kontrollierte Wirkung und eine technische Architektur, die Vertrauen nicht behauptet, sondern messbar macht.

ACM SIGKDD, Building Customer Support AI Agents at 100M-User Scale: An Evaluation-Driven Framework; doi:10.1145/3770855.3818332