Die Automatisierung von End-to-End-Tests (E2E) gehört zu den größten Herausforderungen in der Qualitäts­sicherung moderner Web­an­wen­dungen. In unserem Entwicklerteam wurde daher untersucht, wie lokale Large Language Models (LLMs) im Bereich des Software-Testings eingesetzt werden können, um E2E-Tests effizienter und flexibler zu gestalten.  Dieser Beitrag gibt einen praxisnahen Einblick in die Konzepte, Ansätze und Erkenntnisse.

GRUNDLAGEN | END-TO-END TESTING

End-to-End-Tests befinden sich an der Spitze der bekannten Testpyramide und simulieren Benutzerinteraktionen über die Oberfläche einer Anwendung. Ziel ist es, die gesamte Anwendung als System zu testen. Der hohe Wartungs­aufwand und die vergleichsweise langsame Ausführung machen sie jedoch teuer. Moderne Frameworks wie Selenium, Cypress oder Playwright erleichtern heute die Automatisierung von E2E-Tests erheblich. Dabei kommen oft domänenspezifische Sprachen wie Gherkin zum Einsatz, um Tests in natürlicher Sprache lesbar zu beschreiben. Ein Beispiel:

Die eigentliche Herausforderung liegt weniger im Schreiben dieser Szenarien, als in deren zuverlässiger Umsetzung. Die Testskripte müssen HTML-Elemente eindeutig identifizieren – ein Problem bei dynamischen oder sich häufig ändernden Oberflächen

DAS PROBLEM | FRAGILE SELEKTOREN UND HOHER WARTUNGSAUFWAND

Ändert sich beispielsweise der Name eines Buttons oder verschiebt sich dessen Position, schlagen Testschritte häufig fehl. Die Folge: Entwickler und Tester müssen regelmäßig selektorbasierte Tests überarbeiten. Eine enge Abstimmung zwischen Testautoren und Entwicklern ist daher unerlässlich.

DIE IDEE | HTML-ELEMENTE MIT KI DYNAMISCH IDENTIFIZIEREN

Warum sollte da nicht ein Sprach­modell die Aufgabe übernehmen, das passende HTML-Element zur Beschrei­ung im Testschritt zu finden? Zum Beispiel: „Der Nutzer gibt John Doe in das Feld Benutzername ein.“ Ein lokal ausgeführtes LLM analysiert die Webseite und ermittelt, welches Eingabefeld gemeint ist.

TECHNISCHE UMSETZUNG | FILTER UND ÄHNLICHKEITS­BEWERTUNG

Da HTML-Seiten häufig den Kontextbereich eines Sprachmodells überschreiten, wurde in einem nächsten Schritt ein Vorfilterungsmechanismus entwickelt.

1. Extraktion interaktiver Elemente:
Nur klickbare oder beschreibbare Felder werden extrahiert.
2. Semantische Ähnlichkeits­bewertung:
Ein Ähnlichkeitsmodell (z. B. Sentence Transformers) berechnet, wie gut ein HTML-Element zur Testbeschreibung passt.
3. Kandidatenfilterung:
Nur die Top-N-Elemente werden an das Sprachmodell weitergegeben.

Das Modell erhält dann lediglich eine reduzierte Liste und trifft daraus die finale Auswahl. Das steigert Effizienz und Präzision der Software-Tests erheblich.

OPTIMIERUNG | INTEGRATION VON CACHING

Ein weiteres Problem: Die Antworten von Sprachmodellen sind nicht deterministisch. Ein Test kann bei wiederholter Ausführung inkonsistent werden. Durch die Integration eines lokalen Cachingsystems kann hier weiter optimiert werden.

  • Nach erfolgreicher Ausführung wird der identifizierte HTML-Pfad samt Parameter im Cache gespeichert.
  • Bei erneutem Testlauf wird die Antwort direkt aus dem Cache gelesen – deutlich schneller und stabiler.
  • Ändert sich das Layout, kann der Cache gezielt für betroffene Schritte invalidiert und neu befüllt werden.

VALIDIERUNG | TESTEN AUF REALEN WEBSEITEN

Zur Validierung wurden 18 umfang­reiche Testfälle auf verschiedenen realen Websites entwickelt – von statischen Blogseiten bis hin zu komplexen Plattformen wie eBay, Spotify oder HolidayCheck.

Erste Ergebnisse

  • 582 von 875 Schritten erfolgreich (66 %)
  • 46 Schritte fehlgeschlagen
  • 247 nicht ausgeführt (durch vorangegangene Fehler

Hauptursachen für Fehler

  • Mehrdeutige HTML-Strukturen
  • Identische oder visuell ähnliche Elemente
  • Werbe-Popups

Nach Optimierungen

  • 906 von 935 Schritten erfolgreich (97 %)
  • Nur 10 Fehler­meldungen
  • Verbesserung durch präzisere Test­be­schreibungen und kontextuelle Trennung von Webseiten­bereichen

ZUKÜNFTIGE OPTIMIERUNGEN

  • Einsatz besserer LLMs (z. B. DeepSeek, Mixtral)
  • Finetuning auf spezifische Testdomänen
  • Erweiterung um visuelle Kontexterkennung (z. B. Farbe, Position)

FAZIT

Der Einsatz von KI in der Test­automatisierung bietet großes Potenzial – vor allem zur Reduktion des Wartungsaufwands bei UI-Tests. Durch den Einsatz lokaler Sprach­modelle und intelligenter Vorfilterung können Tests dynamisch, effizient und datenschutzkonform gestaltet werden. Die Tester müssen dafür präziser formulieren, aber die Testlogik bleibt wiederverwendbar – auch bei wechselnden Anwendungen. Ein echter Mehrwert für agile Entwicklungsprojekte mit häufigen UI-Änderungen.

Autor: Fabian, Softwareentwickler bei OVSofware

Automatisertes Testen durch Personen am Schreibtisch mit Maus

AUTOMATISIERTES TESTEN FÜR BESSERE ANWENDUNGSQUALITÄT

Über Testautomatisierung in einem unserer Projekte für mehrere Heilberufs­kammern konnte schneller und effizienter getestet und dabei die Softwarequalität gesteigert werden. 

Die technische Umsetzung erfolgte mithilfe von Cypress, Cucumber und Xray. Mehr dazu in unserem Beitrag.

Portal ÄKWL

PROZESSORIENTIERTES DIENST­LEISTUNGSPORTAL FÜR KAMMERN

Seit 2011 realisiert OVSoftware mit der Ärztekammer Westfalen-Lippe ein pro­zessorientiertes Dienstleistungsportal auf Basis von inubit BPM.

Im Projektverlauf wurden immer mehr Prozesse integriert und  Automati­sierungs­­poten­ziale genutzt. 

PRAXISBEISPIELE: SOFTWARE­TESTING VON BEGINN AN

Durch professionelles Softwaretesting und die passende Testing-Strategie lassen sich  Risiken minimie­ren und Ressourcen einsparen. 

Einblicke in die erfolgreichen Testing-Strategien unserer Projekte Webportal Ärzte­kammern, VR-Works Geno-Verband und EliA 3.0.

Automatisertes Testen durch Personen am Schreibtisch mit Maus

AUTOMATISIERTES TESTEN FÜR BESSERE ANWENDUNGSQUALITÄT

Über Testautomatisierung in einem unserer Projekte für mehrere Heilberufs­kammern konnte schneller und effizienter getestet und dabei die Softwarequalität gesteigert werden. 

Die technische Umsetzung erfolgte mithilfe von Cypress, Cucumber und Xray. Mehr dazu in unserem Beitrag.

PROZESSORIENTIERTES DIENST­LEISTUNGSPORTAL FÜR KAMMERN

Seit 2011 realisiert OVSoftware mit der Ärztekammer Westfalen-Lippe ein pro­zessorientiertes Dienstleistungsportal auf Basis von inubit BPM. 

Im Projektverlauf wurden immer mehr Prozesse integriert, Automatisierungs­poten­ziale genutzt und weitere Kammern haben sich angeschlossen. 

PRAXISBEISPIELE: SOFTWARE­TESTING VON BEGINN AN

Durch professionelles Softwaretesting und die passende Testing-Strategie lassen sich  Risiken minimie­ren und Ressourcen einsparen. 

Einblicke in die erfolgreichen Testing-Strategien unserer Projekte Webportal Ärzte­kammern, VR-Works Geno-Verband und EliA 3.0.