Voice-Pipeline
Whisper-STT, Claude Opus 4.7 als Reasoning-Layer, ElevenLabs Multilingual v2 für die Stimme. Sub-Sekunden-Round-Trip im Browser.
Klicke zum Sprechen
Erst Berechtigungen erteilen, dann sprechen.
Sechs Bausteine bilden den vollständigen Demonstrator — vom Audio-Capture bis zur Eval-CSV.
Whisper-STT, Claude Opus 4.7 als Reasoning-Layer, ElevenLabs Multilingual v2 für die Stimme. Sub-Sekunden-Round-Trip im Browser.
Mock-Shop, Demo-ERP, Calendar-Stub und produktives Gmail-OAuth. Alle Tools laufen über das Model-Context-Protocol.
Visueller Prozess-Graph mit Tool-Permissions je Knoten. Vorkonfigurierte Demo-Flows pro Branche.
Jeder Tool-Call wird via SSE in Echtzeit gestreamt: Shop, ERP, Mailbox und Calendar sehen Agent-Aktionen sofort.
Eval-Modul mit Net-Promoter-Score, End-to-End-Latenz und Word-Error-Rate. CSV-Export für die BA-Auswertung.
Next.js 16, Prisma 7, Tailwind v4, shadcn/ui, Postgres. Quellcode offen — keine Black-Box-Abhängigkeit.
Jede Demo läuft in einem eigenen Backend-Mock — der Agent ruft echte Tool-Endpoints auf, die Daten persistieren in der Demo-DB.
Demoshop mit echten Bestellungen, Storefront-Admin und Voice-Agent.
Demo öffnenLive-Terminbuchung mit Voice-Booking — der Agent schlägt Slots vor und bestätigt per Mail.
Demo öffnenB2B-Service-Mailbox und Auftrags-ERP. Ticket-Anlage und Eskalation direkt aus dem Voice-Call.
Demo öffnenBachelor-Demonstrator zum praktischen Einsatz von AI-Voice-Agents im Mittelstand. Hosted auf Hetzner Cloud, entstanden im Rahmen einer Bachelorarbeit an der Technischen Hochschule Augsburg (THA).
Autor: Philipp Schmid · Mehr
Stack: Next.js 16, Tailwind v4, shadcn/ui, Lucide, React
LLM: Claude Opus 4.7 mit MCP-Tool-Calling
Sprache: ElevenLabs Conversational + OpenAI Whisper
Daten: PostgreSQL via Prisma 7