Enabled by TensorPM

Wir stellen vor: ProjectBenchWir messen, wie gut KI komplexe reale Projekte plant, steuert und umsetzt

Können aktuelle KI-Modelle einen Projektplan liefern, der es wert ist, danach zu bauen?

ProjectBench ist unser Benchmark für echte Projektmanagement-Arbeit. Er gibt einem Modell ein reales Projekt mit klarem Umfang, einem harten Budgetlimit und einem Zeitplan und lässt es das Projekt von Anfang bis Ende planen, steuern und anpassen. Bewertet wird an einer Frage: Wärst du mit diesem Plan messbar besser dran als ohne?

Was wir messen

Die meisten KI-Demos zählen ausgefüllte Felder oder bewundern den Text. Wir messen den Wert: einen einzigen Plan-Value-Score dafür, wie viel dir der Plan in der Umsetzung bringt, gewichtet nach den zwei Dingen, die über die Umsetzung entscheiden.

Reale Projekte

Jeder Durchlauf startet aus einem echten Briefing: klarer Umfang, hartes Budgetlimit, Zeitplan und die tatsächlich beteiligten Personen, über Bereiche wie Bau, Events und Produkt-Launches hinweg. Ein Szenario baut zum Beispiel ein 150-m²-Haus bei Fürth mit hartem Limit von 480.000 € und Einzug binnen 14 Monaten. Das Modell plant und führt es von Anfang bis Ende, kein cleverer Prompt im luftleeren Raum.

Plan-Value statt Prosa

Umsetzbarkeit und Widerstandsfähigkeit führen den Score an: Sind Aufgaben zugewiesen, terminiert und in der richtigen Reihenfolge, und fängt der Plan Veränderungen auf? Ein schöner Plan, der beim ersten Kontakt zerbricht, ist weniger wert als ein rauer, der sich anpasst.

Blind und fair

Qualität wird blind und von einem Panel bewertet, jedes Paar in beiden Reihenfolgen, um Positions-Bias auszugleichen. Harte Vorgaben wie das Budgetlimit oder erfundene Personen prüfen wir mechanisch, ganz ohne Bewertung.

Das Ergebnis: Kontext schlägt Modell

Wir haben dasselbe Projekt durch eine breite Auswahl an Modellen laufen lassen, und die Pläne reichten von bau-fähig bis nicht nutzbar. Die Unterschiede waren konkret, nicht kosmetisch. Als eine Änderung mitten im Projekt die Finanzierung kürzte, den Start um drei Wochen verschob und trotzdem das ursprüngliche Budgetlimit verlangte, kam ein Plan rund 110.000 € darüber zurück, etwa 123 % des 480.000-€-Limits, ohne festgehaltene Entscheidung, die das rechtfertigt. Andere lösten einen Abhängigkeitszyklus aus, eine Aufgabe wartete auf eine, die wiederum auf sie wartete, und der Zeitplan wurde widersprüchlich. Einige lieferten gar keinen nutzbaren Plan, zu dünn, um ein Projekt danach zu führen. Was einen bau-fähigen Plan ausmachte, war selten rohe Modellstärke. Es war die Umsetzung im Detail: das Budget halten, in sich stimmig bleiben und den gesamten Verlauf abdecken.

Wenn der Kontext strukturiert, zugeordnet und abfragbar ist, übernimmt der Kontext die schwere Arbeit und das Modell wird zur austauschbaren Engine. Deshalb zählt Bring Your Own Key: Nimm die Engine, die zu deinem Budget passt, und lass den Kontext-Layer die Qualität tragen.

So läuft ein Durchlauf

In jedem Durchlauf erledigt das Modell echte Arbeit. Nach jedem Schritt sichern wir den gesamten Projektgraphen, damit wir jede Veränderung nachvollziehen können.

  1. 1Das Modell ein reales Projekt aus einem Briefing aufsetzen lassen: klarer Umfang, Budget und Zeitplan
  2. 2Den Aufgabenplan mit Zuständigkeiten, Terminen und Prioritäten bauen
  3. 3Die Abhängigkeiten über den gesamten Verlauf abbilden
  4. 4Umplanen, wenn sich die Lage ändert, etwa bei Budgetkürzung und Terminverschiebung
  5. 5Eine eingehende Änderung über die Intake-Strecke mit Mensch-in-der-Schleife verarbeiten

Wir bleiben ehrlich zu uns selbst

Mit ProjectBench prüfen wir, ob der Kontext-Layer seinen Platz verdient. Das sind frühe Ergebnisse aus einem einzigen Szenario, und wir weiten den Benchmark auf weitere Bereiche aus. Die Methode bleibt gleich: Pläne nach dem Wert bewerten, den sie schaffen, im echten Produkt, blind beurteilt.

Die ganze Geschichte lesen