Azure SRE Agent GA – vom KI-Experiment zum produktionsreifen Ops-Partner

Microsoft hat den Azure SRE Agent in die General Availability gebracht. Das klingt erstmal nach einem weiteren KI-Produkt in einer langen Reihe von Copilot-Derivaten. Ist es aber nicht. Der SRE Agent ist der erste Azure-Dienst, der sich als permanenter, lernender Operations-Partner in eurer Infrastruktur einrichtet – und das verändert die Spielregeln für Ops-Teams fundamental.

Was der SRE Agent ist – und was nicht

Der Azure SRE Agent ist ein KI-gesteuerter Operations-Agent, der Incidents diagnostiziert, Root Cause Analysen durchführt und operative Workflows automatisiert. Er verbindet sich mit euren Azure-Ressourcen, Repositories, Monitoring-Systemen und Ticketing-Plattformen und arbeitet diese zusammen in einem einheitlichen Kontext ab.

Wichtig: Der SRE Agent ist kein Chatbot, der Azure-Dokumentation zusammenfasst. Er ist ein Agent im eigentlichen Sinne – er führt Aktionen aus, korreliert Daten aus verschiedenen Quellen und baut über die Zeit ein Verständnis eurer spezifischen Umgebung auf.

Was der Agent nicht ist: ein Ersatz für Ops-Engineers. Er löst das Problem der Routinediagnostik und des Context-Switching, nicht das Problem fehlender Ops-Strategie. Wer keine Observability-Daten hat, dem hilft auch kein KI-Agent.

Deep Context – der entscheidende Unterschied

Das Feature, das den SRE Agent von generischen KI-Assistenten abhebt, heißt Deep Context. Die Idee: Der Agent lebt permanent in eurer Umgebung und baut ein persistentes Gedächtnis auf. Das unterscheidet ihn von stateless KI-Assistenten, bei denen jede Anfrage bei Null beginnt.

Konkret bedeutet das: Der Agent klont eure verbundenen Repositories und analysiert Code-Strukturen. Wenn ein Runtime-Fehler auftritt, korreliert er diesen direkt mit dem verursachenden Code – nicht auf Basis generischer Fehlermuster, sondern auf Basis eures tatsächlichen Codes. Mit jeder Interaktion, jedem gelösten Incident, jeder Analyse wird der Agent besser.

Ein Beispiel aus der Praxis: Ein Memory Leak in einer .NET-Applikation auf Azure App Service verursacht steigende Antwortzeiten. Ein generischer KI-Assistent würde allgemeine Troubleshooting-Schritte vorschlagen. Der SRE Agent mit Deep Context hingegen kennt die Deployment-History, sieht den Zusammenhang mit einem kürzlich mergten Pull Request, identifiziert die betroffene Dependency und korreliert das Ganze mit ähnlichen Patterns aus vergangenen Incidents. Die Root Cause Analysis, die manuell 45 Minuten dauert, erledigt der Agent in unter 5 Minuten.

Für ein typisches Mittelstands-Ops-Team mit 3-5 Personen heißt das: Der Agent übernimmt die zeitintensive Erstdiagnostik, während das Team sich auf Architekturentscheidungen und Prävention konzentrieren kann. Die kognitive Last des ständigen Context-Switching zwischen Azure Portal, Application Insights, GitHub und PagerDuty fällt weg.

Architektur und Integrations-Ökosystem

Der SRE Agent arbeitet über mehrere Automatisierungsmechanismen:

Built-in Azure Knowledge bildet die Basis. Der Agent versteht Azure-Ressourcen nativ – Compute, Storage, Networking, Databases, Monitoring. Er kann jede Operation ausführen, die über Azure CLI oder REST API verfügbar ist.

Custom Runbooks erweitern die Fähigkeiten um eigene Automatisierungen. Ihr definiert Azure CLI-Befehle und REST API-Calls, die der Agent in spezifischen Szenarien ausführt.

Subagents sind spezialisierte Agenten für einzelne Domänen – VMs, Datenbanken, Networking, Security. Sie werden über ein visuelles No-Code-Interface erstellt und können untereinander in Handoff-Workflows kommunizieren.

MCP-Connectors (Model Context Protocol) sind der Schlüssel zur Integration mit der bestehenden Toollandschaft. Unterstützt werden unter anderem:

Kategorie	Integrationen
Monitoring & Observability	Azure Monitor, Application Insights, Log Analytics, Grafana
Incident Management	Azure Monitor Alerts, PagerDuty, ServiceNow
Source Control & CI/CD	GitHub (Repos, Issues), Azure DevOps (Repos, Work Items)
Datenquellen	Azure Data Explorer (Kusto), MCP Server

Die MCP-Integration ist besonders relevant, weil sie den Agent aus der Azure-Blase befreit. In der Praxis arbeiten die meisten Ops-Teams mit einem Mix aus Azure-nativen und Third-Party-Tools. Der SRE Agent kann diesen gesamten Stack abdecken.

Hands-on: SRE Agent einrichten

Das Onboarding ist bewusst niedrigschwellig gehalten. In einem Guided Flow verbindet ihr Code-Repos, Logs, Incidents und Azure-Ressourcen. Laut Microsoft liefert der Agent am selben Tag erste brauchbare Ergebnisse.

Ein typischer Einstieg sieht so aus:

bash

			
# Schritt 1: SRE Agent Ressource erstellen
az sre-agent create \
  --name "ops-agent-prod" \
  --resource-group "rg-operations" \
  --location "westeurope"
# Schritt 2: GitHub Repository verbinden
az sre-agent integration create \
  --agent-name "ops-agent-prod" \
  --resource-group "rg-operations" \
  --type "github" \
  --settings '{"repo": "contoso/infra-as-code", "branch": "main"}'
# Schritt 3: Azure Monitor verbinden
az sre-agent integration create \
  --agent-name "ops-agent-prod" \
  --resource-group "rg-operations" \
  --type "azure-monitor" \
  --settings '{"workspace-id": "/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.OperationalInsights/workspaces/{workspace}"}'

		

Nach der Grundkonfiguration beginnt der Agent mit der Kontextbildung. Die ersten Stunden nutzt er zum Indexieren von Code-Strukturen und zum Aufbau des Deep Context.

Drei konkrete Einsatzszenarien

Szenario 1: Automatisierte Incident Response

Ein Azure Monitor Alert feuert, weil die Antwortzeiten eines App Service über den Threshold steigen. Der SRE Agent:

Empfängt den Alert über die Azure Monitor Integration
Korreliert den Zeitpunkt mit den letzten Deployments aus dem verbundenen GitHub Repo
Analysiert die Application Insights Logs im relevanten Zeitfenster
Identifiziert einen N+1 Query-Pattern in einem kürzlich deploykten Commit
Erstellt ein PagerDuty Incident mit Root Cause Analysis und schlägt einen Fix vor

Szenario 2: Proaktive Scheduled Tasks

bash

			
# Täglicher Health Check um 07:00 Uhr
az sre-agent task create \
  --agent-name "ops-agent-prod" \
  --resource-group "rg-operations" \
  --name "daily-health-check" \
  --schedule "0 7 * * *" \
  --instructions "Prüfe alle Production VMs auf CPU > 80%, Disk > 90%, failed Health Probes. Erstelle bei Findings ein Azure DevOps Work Item."

		

Der Agent führt den Check täglich durch, nutzt dabei den aufgebauten Kontext über normale Baseline-Werte und eskaliert nur bei tatsächlichen Anomalien.

Szenario 3: Custom Subagents für spezifische Domänen

Für Teams mit komplexen Umgebungen lassen sich spezialisierte Subagents erstellen. Ein Database-Subagent könnte beispielsweise Azure SQL-spezifisches Wissen mitbringen: Query Store Analysen, Index-Empfehlungen, DTU/vCore-Sizing auf Basis historischer Nutzungsmuster.

Für wen sich der SRE Agent lohnt – und für wen nicht

Die ehrliche Einschätzung: Der SRE Agent ist kein Universal-Tool. Er entfaltet seinen Wert unter bestimmten Bedingungen:

Lohnt sich bei:

Ops-Teams mit 2-5 Personen, die mehr als 10 Incidents pro Monat bearbeiten
Organisationen mit einer bestehenden Observability-Strategie (Logs, Metrics, Traces)
Umgebungen mit häufigem Code-Deployment und Incident-Korrelationsbedarf
Teams, deren MTTR über 30 Minuten liegt

Lohnt sich (noch) nicht bei:

Teams ohne strukturierte Observability-Daten – der Agent braucht Daten, um zu lernen
Organisationen mit strikten Compliance-Anforderungen, die keinen Repo-Zugriff für den Agent erlauben
Umgebungen mit weniger als 5 Incidents pro Monat – hier ist der manuelle Aufwand oft vertretbar

Kosten und automatisch erstellte Ressourcen

Ein Punkt, der in vielen Ankündigungen untergeht: Bei der Erstellung eines SRE Agents werden automatisch zusätzliche Azure-Ressourcen erstellt – Application Insights, ein Log Analytics Workspace und eine Managed Identity. Das ist technisch sinnvoll, hat aber Kosten-Implikationen, die man im Blick behalten sollte. Besonders der Log Analytics Workspace kann bei hohem Datenvolumen signifikante Kosten verursachen.

Meine Empfehlung: Vor dem Rollout die erwarteten Datenvolumina kalkulieren und Log Retention Policies konfigurieren. Für eine Dev/Test-Umgebung sind die Kosten überschaubar, aber in Production mit mehreren verbundenen Quellen summiert sich das schnell.

Einschränkungen kennen

Einige Punkte, die in der Marketing-Kommunikation untergehen:

Die Chat-Oberfläche unterstützt aktuell nur Englisch – für DACH-Teams ein relevanter Faktor
Verfügbarkeit variiert nach Region und Tenant-Konfiguration – West Europe ist verfügbar, aber nicht alle Features sind in allen Regionen gleich
Die Qualität der Ergebnisse hängt direkt von der Qualität der Observability-Daten ab – Garbage In, Garbage Out gilt auch für KI-Agenten
Der Agent benötigt Lesezugriff auf Repositories und Logs – in regulierten Umgebungen (Banken, Versicherungen, öffentlicher Sektor) muss das durch Compliance und Security freigegeben werden
Custom Runbooks und Subagents erfordern initiales Engineering – der Agent ist kein Plug-and-Play für komplexe Szenarien

Fazit

Der Azure SRE Agent GA ist kein revolutionäres Produkt, aber ein evolutionäres. Er löst ein reales Problem: Ops-Teams verbringen zu viel Zeit mit Routine-Diagnostik und Context-Switching zwischen Tools. Deep Context und MCP-Connectors machen den Agent zu einem Partner, der den spezifischen Stack versteht – nicht nur generisches Azure-Wissen rezitiert.

Für den DACH-Mittelstand ist das besonders relevant: Kleine Ops-Teams mit breitem Verantwortungsbereich profitieren am meisten von einem Agent, der die Erstdiagnostik übernimmt und Kontext über Incidents akkumuliert. Der Einstieg ist niedrigschwellig, die ersten Ergebnisse kommen schnell.

Meine Empfehlung: In einer Dev/Test-Umgebung starten, die wichtigsten Repos und Monitoring-Quellen verbinden und den Agent zwei Wochen laufen lassen. Danach habt ihr eine fundierte Basis für die Entscheidung, ob der Agent in der Production-Umgebung einen echten Mehrwert liefert.

Quellen:

Dieser Artikel erscheint im Rahmen der „Last Week in Azure & Tech“ Newsletter-Reihe. Zur aktuellen Ausgabe Vol. 5