Seminar: Software-ergonomische Evaluation - Kosten und Nutzen
Veranstalter: Dr. Susanne Maaß, Sommersemester 1996
7. Juni 1996
Inhaltsverzeichnis
1 Vorgehensweise bei einer Heuristischen Evaluation
2 Wer evaluiert und mit welchem Erfolg
3 Heuristische Evaluation im Vergleich mit Benutzungstests
4 Gestaltungsprinzipien, die bei der Heuristischen Evaluation zugrundegelegt werden können
5 Kosten und Nutzen von Heuristischer Evaluation
1 Vorgehensweise bei einer Heuristischen Evaluation
Bei der Heuristischen Evaluation setzt sich jeder Evaluator für sich allein an die zu untersuchende Schnittstelle. Dies ist wichtig, da verschiedene Evaluatoren verschiedene Probleme aufdecken. In Abbildung 1 kann man dies sehr schön erkennen. An einem Beispiel mit 19 Evaluatoren und 16 möglichen aufzudeckenden Fehlern ist aufgezeigt, wie unterschiedlich die Evaluatoren Fehler gefunden haben.
Nachdem alle Evaluationen durchgeführt sind, werden die Befunde (d.h. die von den Evaluatoren aufgedeckten Fehler) zusammengefaßt.
Die Ergebnisse können entweder als geschriebene Berichte von den Evaluatoren selbst festgehalten werden oder man setzt einen Beobachter zu jedem Evaluator, der dann ein Protokoll der Sitzung erstellt, wobei der Evaluator die ganze Zeit ,,laut denken" muß. Die zweite Methode ist der ersten vorzuziehen, da der Beobachter den Evaluatoren bei auftretenden Fragen oder Problemen – wie z.B. fehlenden Fachkenntnissen oder bei einem Absturz des Prototyps – behilflich sein kann. Außerdem wird die Arbeitslast der Evaluatoren verringert und die Ergebnisse stehen schneller zur Verfügung, da der Beobachter nur seine eigenen Notizen verstehen muß und nicht die anderer.
Man kann die Heuristische Evaluation erweitern, indem sich die Evaluatoren, die Beobachter und Vertreter des Entwickler-Teams nach der letzten Evaluation treffen und sich in einer Art Brainstorm einander mitteilen. Hier können wichtige Anregungen in bezug auf Folgeversionen des untersuchten Programms gesammelt werden oder generelle Probleme sowie positive Aspekte der Evaluation besprochen werden.
Heuristische Evaluation ist gut geeignet, um sowohl schwerwiegende,
als auch nicht ganz so wichtige Probleme in einem User-Interface zu finden.
Die schwerwiegenden Fehler werden dabei zwar leichter aufgefunden, von
der Gesamtzahl der Fehler ausgehend werden aber mehr unwichtige als wichtige
Fehler gefunden (was wohl für die Qualität der Prototypen spricht).
2 Wer evaluiert und mit welchem Erfolg
Es gibt vier Kategorien von möglichen Evaluatoren:
Man sieht also, daß hier praktisch jeder evaluieren kann; dies geschieht nur meist mit unterschiedlichem Erfolg. Es gibt die unterschiedlichsten Kriterien, die dazu führen, daß ein Evaluator möglichst viele und wichtige Probleme aufdeckt. Da ist es z.B. wichtig, welche Erfahrung ein Evaluator hat: So fanden bei einer Testgruppe, die sich aus Anfängern (mit allgemeinen Computerkenntnissen), einfachen und doppelten Experten zusammensetzte, die doppelten Experten im Durchschnitt 60 Prozent der Fehler, wobei sie 2,7mal schneller als die Anfänger und 1,5mal schneller als die einfachen Experten waren. Die einfachen Experten fanden hingegen nur 41 Prozent der Fehler, mit einer 1,8mal höheren Geschwindigkeit als die Anfänger, die dann auch nur noch 22 Prozent der Probleme ausfindig machen konnten.
Ein weiterer Aspekt ist die Häufigkeit, mit der eine Person schon heuristisch evaluiert hat. So hat man herausgefunden, daß man gute Evaluatoren bekommt, indem man sie möglichst viele Evaluationen durchführen und anschließend die Ergebnisse noch mit anderen Evaluatoren diskutieren läßt.
Der letzte, aber nicht zu unterschätzende Punkt ist
die Tagesform des jeweiligen Evaluators. So gibt es für jeden Tage,
an dem er relativ viele Probleme aufdecken kann und andere, an denen er
nur mühselig etwas findet.
3 Heuristische Evaluation im Vergleich mit Benutzungstests
Beide Verfahren finden Benutzbarkeitsprobleme, die auch
durch das jeweils andere Verfahren gefunden werden; die Ergebnisse überlappen
sich also. Dies ist keineswegs unerfreulich, da ein doppelt gefundenes
Problem ja auch auf die Notwendigkeit der Beseitigung des Fehlers aufmerksam
macht. Aus diesem Grund und weil beide Verfahren sich gut ergänzen,
werden in einer Evaluation oft beide Verfahren angewendet. Meist wird zuerst
eine Heuristische Evaluation durchgeführt, mit der möglichst
viele ,,augenscheinliche" Probleme aufgedeckt werden. Nach einer Überarbeitung
des Programms wird dann ein Benutzungstest durchgeführt, um die restlichen
Probleme aufzudecken. Man wählt diese Reihenfolge, damit ,,unbedarfte"
Benutzer, die oft schwer zu finden sind, nicht schon bei der Heuristischen
Evaluation ,,verschlissen" werden.
4 Gestaltungsprinzipien, die bei der Heuristischen Evaluation zugrundegelegt werden können
Nielsen gibt in [Molich90] einige Gestaltungsprinzipien vor, die ein Evaluator bei seiner Arbeit beachten sollte (dies ist kein Muß, aber für einen unerfahrenen Evaluator ist es ohne gewisse Hilfsmittel sehr schwer, eine einigermaßen erfolgreiche Heuristische Evaluation durchzuführen):
Das beste Kosten-Nutzen-Verhältnis erhält man bei drei bis fünf Evaluatoren.
Abbildung 2
Die Kurve in Abbildung 2 zeigt dies anhand des Verhältnisses von Benutzbarkeitsproblemen in einer Schnittstelle, die von einer unterschiedlichen Anzahl von Evaluatoren gefunden wurden. Es wurden insgesamt sechs Fallstudien in der Figur berücksichtigt. Man sieht, daß hier schon fünf Evaluatoren 75% der Fehler aufdecken können. Nimmt man aber zehn weitere Evaluatoren hinzu, so werden nicht sehr viel mehr Fehler gefunden, aber die Kosten schnellen durch die zusätzlichen Gehälter der Personen in die Höhe.
Abbildung 3
Abbildung 3 zeigt das unterschiedliche Verhältnis von Kosten und Nutzen für verschiedene Anzahlen von Evaluatoren in einem Beispielprojekt. Die Kurve zeigt, daß die optimale Anzahl von Evaluatoren hier vier beträgt, was bestätigt, daß die Heuristische Evaluation am besten mit drei bis fünf Evaluatoren durchzuführen ist.
Den Kostenpunkt bei der Heuristischen Evaluation hat Nielsen in [Nielsen94a] sehr schön zusammengefaßt:
Nun gibt es zwei verschiedene Vorgehensweisen. In der ersten müssen genügend viele ,,echte" Benutzer beide Systeme genügend lange an ,,echten" Aufgaben testen. Dies liefert dann genaue Messungen, an denen man festmachen kann, wie hoch der jeweilige Lernaufwand und die Performanz ist. Ein Problem besteht hierbei darin, daß es sich bei den Systemen nur um Prototypen handelt, die dann mit der gleichen Benutzungsschnittstelle implementiert werden müßten, ohne Rücksicht auf die noch gefundenen Fehler, da andernfalls die vorangegangenen Untersuchungsergebnisse keine Gültigkeit mehr hätten.
Eine Alternative bietet eine detaillierte Arbeitsstudie, die die verschiedenen Arbeitsabläufe eines Arbeitstages der Benutzer in bezug auf Häufigkeit und Dauer untersucht. Außerdem kann man formale Modelle über Benutzungszeiten heranziehen, um jeden Schritt mit jedem Schritt eines alternativen Benutzungsschnittstellen-Designs zu vergleichen. Leider sind die Ergebnisse, die man so erhält, nicht unbedingt sehr zuverlässig und zusätzlich braucht man sehr viel Zeit für die Auswertung.
Man sollte sich deshalb lieber auf Abschätzungen
(z.B. durch die Evaluatoren) als nur auf reine Meßdaten verlassen.
In Tabelle 1 ist ein Beispiel dafür angegeben, was eine Heuristische Evaluation kosten kann. Es wird ein Expertengehalt von $100 pro Stunde angenommen, womit die Gesamtkosten der Evaluation $10.500 betragen.
Die Kosten sind damit ermittelt; jetzt fehlt nur noch eine Summe für die Ersparnis, die durch die Evaluation und Anwendung der Ergebnisse erreicht wird. Hierzu wurden 11 Evaluatoren aufgefordert, die Verbesserung der Benutzbarkeit abzuschätzen; indem sie alle 44 aufgefundenen Benutzbarkeitsprobleme betrachten und dann auf folgende Benutzbarkeitsparameter abbilden sollten:
Bestimmung geeigneter Dialogabläufe für die Heuristische Evaluation: 4 Personen à 2 Stunden |
8 Stunden
|
Ein außenstehender Evaluator (also einer, der nicht aktiv evaluiert) macht sich mit dem Bereich und dem Szenario vertraut |
8 Stunden
|
Finden und Benachrichtigen der Evaluatoren: 1,8 Stunden + 0,2 Stunden pro Evaluator |
4 Stunden
|
Vorbereitung der Einführung in die Evaluation |
3 Stunden
|
Vorbereiten des Szenarios für die Evaluatoren |
2 Stunden
|
Einführung in die Evaluation: 1 Systemexperte, 1 Evaluationsexperte; 11 Evaluatoren à 1,5 Stunden |
19,5 Stunden
|
Erstellung des Prototyps für die Evaluatoren |
5 Stunden
|
Tatsächliche Evaluation: 11 Evaluatoren à 1 Stunde |
11 Stunden
|
Beobachtung der Evaluationssitzungen: 2 Beobachter à 11 Stunden |
22 Stunden
|
Brainstorming: 3 Evaluatoren, 3 Entwickler, 1 Evaluationsexperte à 1 Stunde |
7 Stunden
|
Schreiben der Liste der Benutzbarkeitsprobleme, die auf den Aufzeichnungen aus den Evaluationssitzungen basieren |
2 Stunden
|
Schreiben der Problembeschreibungen für die Benutzung in den Abschlußfragebögen |
6 Stunden
|
Exakte Beurteilung (anhand der Fragebögen): 11 Evaluatoren à 0,5 Stunden |
5,5 Stunden
|
Analyse der Beurteilung |
2 Stunden
|
Summe |
105 Stunden
|
Tabelle 1
Zusammen mit den Evaluatoren ist man zu folgenden Ergebnissen gekommen:
Man nimmt an, daß 2.000 Personen das System benutzen werden (dies ist eine sehr pessimistische Einschätzung, wenn man beachtet, daß etwa 3.000 Leute diese Arbeit verrichten). Diese 2.000 sparen jeweils einen halben Tag, um das System zu. erlernen, was eine einmalige Ersparnis von 1.000 Benutzertagen ausmacht. Haben sich die Leute richtig eingearbeitet, arbeiten sie 3,3%mal schneller und sparen damit 67 Benutzerjahre pro Kalenderjahr, was 13.000 Benutzertage sind. Die Ersparnis für das erste Jahr beträgt also 14.000 Benutzertage.
Um die totale Kostenersparnis zu ermitteln, nimmt man an, daß ein Benutzertag $100 kostet. Weiterhin nimmt man an, daß nicht alle Fehler, sondern nur die Hälfte behoben werden. Außerdem muß man noch den Zinsverlust beachten, der dadurch entsteht, daß das System nicht sofort eingesetzt werden kann. Damit kommt man dann zu einer Kostenersparnis von $540.000.
Da man aber durch die Untersuchungen einen zusätzlichen
Aufwand für die Erstellung bzw. Verbesserung des Systems hat, kommt
noch ein zusätzlicher Aufwand von 400 Stunden für das Software-Engineering
hinzu. Geht man von einem Expertengehalt von $100 aus, wird die Kostenersparnis
somit um $40.000 gesenkt. Trotz allem liegt man aber immer noch bei der
beeindruckenden Summe von $500.000 Ersparnis, die den Aufwand von $10.500
für die Heuristische Evaluation schnell vergessen lassen.
Literatur
[Molich90] ROLF
MOLICH und JAKOB NIELSEN "Improving
a Human-Computer Dialoge" in: "Communications
of the ACM, March 1990, Vol. 33/3", Seite 338-348
[Nielsen94a] JAKOB NIELSEN "Heuristic Evaluation" in: JAKOB NIELSEN und ROBERT L. MACK (Hrsg.) "Usability Inspection Methods", Wiley, 1994, Seite 25-62
[Nielsen94b] JAKOB NIELSEN "Cost-Benefit Analysis of Heuristic Evaluation: A Case Study" in: BIAS, MAYHEW "Cost-justifying Usability", Academic Press, 1994, Seite 257-267