Mechanistische Interpretierbarkeit von KI: Wie Forschende versuchen, das „Denken“ neuronaler Netzwerke zu verstehen

Die mechanistische Interpretierbarkeit gehört im Jahr 2026 zu den wichtigsten Forschungsgebieten der künstlichen Intelligenz, weil sie eine schwierige Frage beantwortet, auf die gewöhnliche Leistungstests keine Antwort geben können: Was geschieht tatsächlich innerhalb eines neuronalen Netzwerks, wenn es eine Antwort erzeugt, eine Anfrage ablehnt, eine Schlussfolgerungsaufgabe löst oder einen Fehler macht? Anstatt grosse Sprachmodelle als rätselhafte Black Boxes zu betrachten, versuchen Forschende, ihre internen Berechnungen nachzuvollziehen, indem sie Merkmale, Schaltkreise, Aktivierungsmuster und kausale Signalwege identifizieren, die das Verhalten des Modells bestimmen.

Was mechanistische Interpretierbarkeit in der modernen KI-Forschung bedeutet

Die mechanistische Interpretierbarkeit untersucht neuronale Netzwerke auf der Ebene ihrer internen Mechanismen. Vereinfacht ausgedrückt interessieren sich Forschende nicht nur dafür, ob ein Modell die richtige Antwort liefert, sondern auch dafür, wie es zu dieser Antwort gelangt. Dazu gehört die Analyse von Neuronen, Attention Heads, Residual Streams, Aktivierungen und erlernten Repräsentationen, die während der Inferenz entstehen. Ziel ist es, von einer oberflächlichen Bewertung zu einer detaillierten Beschreibung der Berechnungen überzugehen, die bestimmte Verhaltensweisen hervorbringen.

Dieses Forschungsgebiet gewann besonders an Bedeutung, als grosse Sprachmodelle leistungsfähiger und zugleich weniger transparent wurden. Ein Modell kann Dokumente zusammenfassen, Code schreiben, Texte übersetzen oder mathematische Aufgaben lösen, doch seine interne Verarbeitung ist nicht in menschenlesbaren Regeln formuliert. Die Gewichte eines trainierten Modells enthalten Milliarden oder sogar Billionen numerischer Parameter, die auf eine Weise miteinander interagieren, die sich nicht unmittelbar nachvollziehen lässt. Die mechanistische Interpretierbarkeit versucht deshalb, Werkzeuge zu entwickeln, mit denen sich Teile dieser Berechnungen verständlich machen lassen, ohne zu behaupten, dass bereits jedes Detail vollständig erklärt sei.

Bis 2026 hat sich dieses Forschungsfeld weit über kleine Demonstrationsmodelle hinaus entwickelt, obwohl vereinfachte Modelle weiterhin eine wichtige Rolle spielen. Forschungsteams testen Interpretierbarkeitsmethoden inzwischen an transformerbasierten Sprachmodellen, die realen Produktionssystemen deutlich näherkommen. Arbeiten von Anthropic, OpenAI, Google DeepMind und unabhängigen Forschungsgruppen haben gezeigt, dass sich einige interne Repräsentationen Konzepten, Verhaltensweisen oder Entscheidungswegen zuordnen lassen. Gleichzeitig bleibt das Fachgebiet vorsichtig: Das Erkennen eines Merkmals oder eines Schaltkreises bedeutet nicht automatisch, dass das gesamte Modell verstanden wurde.

Warum neuronale Netzwerke schwer zu interpretieren sind

Die grösste Schwierigkeit besteht darin, dass neuronale Netzwerke Wissen nicht in sauber getrennten Bereichen speichern. Ein einzelnes Konzept kann über viele Komponenten verteilt sein, während ein einzelnes Neuron oder eine Aktivierungsrichtung an mehreren voneinander unabhängigen Verhaltensweisen beteiligt sein kann. Dieses Phänomen wird häufig als Polysemanticität bezeichnet: Dieselbe interne Einheit kann abhängig vom Kontext auf unterschiedliche Bedeutungen reagieren. So kann eine Einheit beispielsweise im Zusammenhang mit einem Ort, einem Schreibstil, einem Sicherheitsmuster oder einer syntaktischen Struktur aktiviert werden – abhängig von der jeweiligen Eingabeaufforderung.

Eine weitere Herausforderung ist die Superposition. Moderne neuronale Netzwerke scheinen mehr Merkmale darzustellen, als ihnen auf den ersten Blick einzelne Dimensionen zur Verfügung stehen, indem sie Informationen in komprimierter Form kombinieren. Dadurch wird die interne Struktur für das Modell effizient, gleichzeitig aber für Menschen schwer nachvollziehbar. Forschende können daher nicht einfach ein einzelnes Neuron betrachten und davon ausgehen, dass es eine stabile Bedeutung besitzt. Stattdessen werden Methoden benötigt, die überlagerte Repräsentationen voneinander trennen und überprüfen, ob diese Interpretationen die Ausgaben tatsächlich beeinflussen.

Darüber hinaus besteht ein Unterschied zwischen Korrelation und Kausalität. Ein Merkmal kann während einer bestimmten Art von Antwort aktiviert werden, doch das beweist nicht, dass es diese Antwort verursacht hat. Die mechanistische Interpretierbarkeit stützt sich deshalb auf gezielte Eingriffe: Forschende verändern, unterdrücken, verstärken oder ersetzen Teile der internen Aktivität eines Modells und beobachten, ob sich die Ausgabe auf vorhersehbare Weise verändert. Solche kausalen Tests sind unverzichtbar, weil die reine Visualisierung von Aktivierungen leicht den falschen Eindruck vermitteln kann, ein Modell bereits verstanden zu haben.

Zentrale Methoden zur Untersuchung des Denkens von KI-Systemen

Eine der am häufigsten diskutierten Methoden ist der Einsatz spärlicher Autoencoder. Diese Systeme werden darauf trainiert, dichte neuronale Aktivierungen in eine grössere Anzahl besser interpretierbarer Merkmale zu zerlegen. Die Arbeiten von Anthropic zur Monosemanticität haben gezeigt, dass spärliche Autoencoder aussagekräftige Merkmale aus Transformermodellen extrahieren können, darunter Merkmale, die mit Themen, Entitäten, Verhaltensweisen und sicherheitsrelevanten Konzepten verbunden sind. Entscheidend ist dabei nicht, dass diese Methode das Problem der Interpretierbarkeit vollständig löst, sondern dass sie Forschenden ein praktischeres Vokabular zur Beschreibung interner Modellrepräsentationen liefert.

Die Schaltkreisanalyse stellt einen weiteren zentralen Ansatz dar. Ein Schaltkreis ist eine Gruppe von Modellkomponenten, die gemeinsam ein bestimmtes Verhalten erzeugen. In einem Sprachmodell können dazu Attention Heads gehören, die Informationen aus vorhergehenden Token übernehmen, Merkmale, welche ein Konzept repräsentieren, sowie nachgelagerte Komponenten, die dieses Konzept in Wahrscheinlichkeiten für die Ausgabe umwandeln. Ziel der Schaltkreisforschung ist es, diese Signalwege zu identifizieren und sie als zusammenhängende Berechnungsketten statt als isolierte Signale zu erklären.

Im Jahr 2025 veröffentlichte Anthropic Arbeiten zum Circuit Tracing, darunter Attributionsgraphen, die teilweise sichtbar machen, wie ein Modell eine Eingabeaufforderung in eine Antwort umwandelt. Dadurch rückte die Forschung näher an die Untersuchung vollständiger interner Berechnungsabläufe heran, anstatt sich ausschliesslich auf einzelne Merkmale zu konzentrieren. OpenAI untersuchte zudem gewichtssparse Transformer, bei denen viele Verbindungen auf null begrenzt werden, sodass die entstehenden Schaltkreise leichter analysiert werden können. Diese Ansätze spiegeln zwei unterschiedliche Strategien wider: Die eine versucht, bestehende Modelle besser zu interpretieren, während die andere Modelle entwickelt, die von Beginn an leichter interpretierbar sind.

Spärliche Autoencoder, Merkmale und Circuit Tracing

Spärliche Autoencoder sind deshalb besonders nützlich, weil sie einen praktischen Engpass in der Interpretierbarkeitsforschung lösen. Rohe Aktivierungen innerhalb eines Transformers sind schwer zu lesen, da sie viele verschiedene Signale gleichzeitig enthalten. Ein spärlicher Autoencoder versucht, diese Aktivierungen als Kombination einzelner Merkmale neu darzustellen, von denen jeweils nur wenige gleichzeitig aktiv sind. Sind diese Merkmale stabil und aussagekräftig, können Forschende sie benennen, testen und untersuchen, wie sie spätere Berechnungen beeinflussen.

Die Entdeckung von Merkmalen wird noch wertvoller, wenn sie mit Steuerungs- und Interventionsmethoden kombiniert wird. Wenn ein Merkmal offenbar ein bestimmtes Konzept repräsentiert, können Forschende seine Aktivierung erhöhen oder verringern und untersuchen, wie sich das Verhalten des Modells verändert. Dadurch konnte gezeigt werden, dass einige Merkmale nicht lediglich passive Indikatoren sind, sondern einen kausalen Einfluss ausüben können. Verantwortungsbewusste Forschende gehen dabei jedoch vorsichtig vor, da die Steuerung eines einzelnen Merkmals an anderer Stelle im Modell unerwünschte Nebenwirkungen hervorrufen kann.

Das Circuit Tracing erweitert diesen Ansatz, indem Merkmale zu vollständigen Berechnungspfaden verbunden werden. Anstatt nur zu fragen, welches Merkmal aktiviert wurde, untersuchen Forschende, wodurch es aktiviert wurde, welche Komponenten es anschliessend beeinflusste und wie das Signal letztlich zur endgültigen Antwort beitrug. Dies ist besonders wichtig für Verhaltensweisen wie Ablehnungen, faktisches Erinnern, mehrsprachige Übersetzung, Codegenerierung und mehrstufiges Schlussfolgern. Auch im Jahr 2026 ist diese Forschung noch nicht abgeschlossen, doch sie hat das interne Verhalten grosser Sprachmodelle deutlich transparenter gemacht als noch wenige Jahre zuvor.

Warum mechanistische Interpretierbarkeit für KI-Sicherheit und Regulierung wichtig ist

Mechanistische Interpretierbarkeit ist von grosser Bedeutung, weil KI-Systeme zunehmend in Bereichen eingesetzt werden, in denen Fehler, verborgene Abkürzungen oder täuschendes Verhalten schwerwiegende Folgen haben können. Standardisierte Benchmarks zeigen zwar, ob ein Modell ausgewählte Aufgaben erfolgreich löst, sie erklären jedoch nicht immer, warum es erfolgreich ist oder unter welchen Bedingungen es versagen könnte. Ein Modell kann in Tests zuverlässig erscheinen, obwohl es sich auf fragile Heuristiken, auswendig gelernte Muster oder interne Strategien stützt, die nicht den menschlichen Erwartungen entsprechen.

Für Sicherheitsforschende bietet Interpretierbarkeit die Möglichkeit, Risiken zu untersuchen, bevor sie in sichtbaren Ausgaben auftreten. Wenn interne Merkmale mit schädlichen Fähigkeiten, Täuschung, Manipulation, unsicherer Codegenerierung oder problematischen Ablehnungsmechanismen in Verbindung gebracht werden können, lassen sich diese Risiken möglicherweise wirksamer überwachen und verringern. Das bedeutet jedoch nicht, dass Interpretierbarkeit eine vollständige Sicherheitslösung darstellt. Vielmehr ist sie als Bestandteil eines umfassenderen Bewertungsprozesses zu verstehen, der auch Red Teaming, Audits, Daten-Governance, Robustheitstests und menschliche Aufsicht umfasst.

Auch regulatorische Anforderungen tragen zur wachsenden Bedeutung dieses Forschungsgebiets bei. Der EU AI Act führt schrittweise Verpflichtungen hinsichtlich Transparenz und Risikomanagement ein. Wesentliche Transparenzanforderungen gelten ab 2026, weitere Verpflichtungen für Hochrisiko-KI folgen später. Die mechanistische Interpretierbarkeit erfüllt gesetzliche Anforderungen nicht automatisch, kann jedoch eine bessere Dokumentation, Vorfallanalyse und Modellbewertung unterstützen. In regulierten Bereichen benötigen Organisationen zunehmend belastbare Nachweise darüber, wie KI-Systeme tatsächlich funktionieren, anstatt sich ausschliesslich auf Aussagen über ihre Genauigkeit zu verlassen.

Grenzen, Risiken und der Stand des Forschungsgebiets im Jahr 2026

Die grösste Einschränkung im Jahr 2026 ist die Skalierung. Forschende können inzwischen zahlreiche Merkmale identifizieren und einige Schaltkreise nachverfolgen, doch moderne Spitzenmodelle bestehen aus einer enormen Zahl miteinander interagierender Komponenten. Eine teilweise Karte des internen Verhaltens ist zwar hilfreich, darf jedoch nicht mit einem vollständigen Verständnis verwechselt werden. Manche Methoden funktionieren bei bestimmten Eingabeaufforderungen oder vereinfachten Verhaltensweisen sehr gut, werden jedoch bei langen Kontexten, Werkzeugnutzung, multimodalen Eingaben oder agentenähnlichen Arbeitsabläufen deutlich schwieriger anzuwenden.

Ein weiteres Risiko besteht in der Überinterpretation. Menschenlesbare Bezeichnungen können den Eindruck erwecken, dass ein Merkmal klarer definiert ist, als es tatsächlich der Fall ist. Ein nach einem Thema, Verhalten oder einer Emotion benanntes Merkmal kann in unterschiedlichen Kontexten aktiviert werden, die nicht vollständig zu dieser Bezeichnung passen. Deshalb stützt sich hochwertige Interpretierbarkeitsforschung auf sorgfältige Validierung, kausale Tests und eine transparente Darstellung bestehender Unsicherheiten. Besonders aussagekräftige Arbeiten erläutern, was entdeckt wurde, wie die Ergebnisse überprüft wurden und an welchen Stellen die jeweilige Interpretation an ihre Grenzen stösst.

Der realistische Ausblick ist weder pessimistisch noch übertrieben optimistisch. Die mechanistische Interpretierbarkeit hat bereits konkrete Fortschritte hervorgebracht: Spärliche Autoencoder können nützliche interne Merkmale sichtbar machen, Circuit Tracing kann Teile des Berechnungspfads von der Eingabe bis zur Ausgabe offenlegen, und besser interpretierbare Modellarchitekturen werden aktiv erprobt. Dennoch benötigt das Forschungsgebiet leistungsfähigere Werkzeuge, gemeinsame Standards und engere Verbindungen zwischen wissenschaftlichen Erkenntnissen und praktischen Sicherheitsmassnahmen. Im Jahr 2026 lässt sich am treffendsten sagen, dass Forschende beginnen, einzelne Teile der Berechnungen neuronaler Netzwerke zu lesen, die vollständige „Sprache“ dieser Systeme jedoch noch immer entschlüsselt wird.