1. Architektonisches Problem

Probabilistic Output & the Ranking Fallacy

Herkömmliche Monitoring-Ansätze (Rankings, Share of Voice, Position Tracking) basieren auf der Annahme deterministischer Ergebnislisten.

Generative KI-Systeme (LLMs, Answer Engines) erzeugen jedoch keine Listen, sondern probabilistische Antworten auf Basis von Vektorraumnähe, Evidenzdichte und Kontextkohärenz.

Daraus folgt:

  • „Positionen“ existieren nicht.
  • Wiederholbarkeit ist nicht garantiert.
  • Sichtbarkeit ist ein Zustand, kein Platz.

Ein Monitoring, das ausschliesslich den Output textuell analysiert (z. B. Keyword-Matching), unterliegt drei systematischen Blindheiten:

  • Evidence Blindness: Korrekte Antworten können auf Raten statt auf Wissen beruhen.
  • Semantic Blindness: Strukturelle Fehler (falsche Relationen) bleiben unentdeckt, solange Entitäten genannt werden.
  • Numerical Blindness: Zahlen, Zeiträume und Quoten werden nicht verlässlich validiert.

Schlussfolgerung: Output ist ein Symptom, kein Fundament. Aivis-OS definiert Monitoring nicht als Ranking-Kontrolle, sondern als Structural Integrity Testing.

2. Monitoring-Ziel

Das Ziel des Evidence Monitoring ist nicht Sichtbarkeit, sondern semantische Stabilität unter probabilistischem Abruf.

Gemessen wird nicht, ob ein Unternehmen genannt wird, sondern wie stabil, korrekt und belegbar seine digitale Repräsentation abrufbar ist.

3. Die vier Dimensionen der Sichtbarkeit

(4 Dimensions of AI Visibility)

Aivis-OS misst Sichtbarkeit entlang vier qualitativer Zustände der Entitätsrepräsentation.

3.1 Attribution Stability

(Identitäts-Check)

Definition: Die Fähigkeit des Modells, einen Sachverhalt der korrekten Entität zuzuordnen, ohne dass die Entität explizit im Prompt genannt wird (Zero-Mention Prompting).

Test: „Wer bietet eine Lösung für Problem X?“

Erfolg: Die korrekte Entität wird genannt.

Warnsignal:

  • Wettbewerber werden genannt
  • generische Akteure werden halluziniert

Architektonische Bedeutung: Indikator für die Stärke der semantischen Vektorisierung und Identitätsverankerung.

3.2 Entity Logic Integrity

(Beziehungs-Check)

Definition: Die Korrektheit der im Modell rekonstruierten Relationen zwischen Entitäten.

Test:
„Welche Produkte gehören zu [Marke]?“
„Wer ist Partner im Joint Venture [Name]?“

Erfolg: Korrekte Auflösung der im Semantic Graph modellierten Kanten.

Warnsignal:

  • Identity Drift
  • Vermischung mit Wettbewerbern
  • Disambiguierungsfehler

3.3 Evidence Consistency

(Beweis-Check)

Definition: Die Fähigkeit des Modells, Aussagen mit expliziten, überprüfbaren Quellen zu belegen.

Test: „Nenne die Quelle für diese Aussage.“

Erfolg: Das Modell liefert eine URL oder ein Dokument, das im Inventory als Source of Truth definiert ist.

Warnsignal:

  • korrekte Aussage ohne Quelle
  • halluzinierte Quellen
  • nicht existente oder veraltete URLs

3.4 Temporal & Numerical Precision

(Fakten-Check)

Definition:
Die Genauigkeit bei nicht-linguistischen Daten wie Zahlen, Daten, Quoten oder Zeiträumen.

Test:
„Wie hoch war der Umsatz 2023?“
„Wann wurde Produkt X eingeführt?“

Erfolg:
Exakte Übereinstimmung mit dem Transport-Safe Content.

Warnsignal:

  • approximierte Werte
  • veraltete Datenstände
  • statistisch plausible, aber faktisch falsche Zahlen (Token Hallucinations)

4. Testmethodik

Das Eisberg-Modell

Aivis-OS nutzt ein Dual-Layer Probing System, um oberflächliche Sichtbarkeit von struktureller Belastbarkeit zu unterscheiden.

4.1 Layer A – User Simulation Prompts

(Oberfläche)

Ziel: Simulation realer Nutzungsszenarien.

Charakteristik:

  • kurz
  • unscharf
  • kontextarm

Messgrösse: Recall Rate (wird die Entität überhaupt gefunden?)

Beispiel: „Beste Software für Compliance?“

4.2 Layer B – Forensic Prompts

(Fundament)

Ziel:
Überprüfung der semantischen Mechanik.

Charakteristik:

  • strukturiert
  • evidenzfokussiert
  • adversarial

Messgrössen:

  • Accuracy
  • Citation Rate

Beispiel: „Liste alle Compliance-Module von [Marke] mit Release-Datum und verlinke die Dokumentation.“

4.3 The Integrity Gap

Die Differenz zwischen Layer A und Layer B ist der zentrale KPI.

  • Fall 1: User gut · Forensic schlecht → Bubble Visibility (instabil)
  • Fall 2: User schlecht · Forensic gut → Hidden Potential (Architektur vorhanden, Transport schwach)
  • Fall 3: Beide gut → Aivis Certified Visibility

5. Scoring-Modell

Source Anchoring Score (SAS)

Lineare Rankings werden durch den Source Anchoring Score (0.0 – 1.0) ersetzt.

Berechnung:

SAS = Attribution_Weight × Integrity_Weight × Citation_Rate

Interpretation:

  • SAS < 0.5
    Kritische Instabilität – das Modell rät.
  • SAS ≥ 0.9
    Deterministische Verankerung – das Modell „weiss“.

6. Feedback Loop

Monitoring als Remediation-Trigger

Monitoring ist in Aivis-OS kein Reporting-Artefakt, sondern ein Auslöser für architektonische Korrekturen.

FehlerbildArchitektonische Korrektur
Falsche QuellePrüfung der sameAs-Links im Semantic Graph
Falsche ZahlenÜberarbeitung der Transport-Safe Content Struktur
Fehlende HierarchieHärtung der JSON-LD @graph-Verschachtelung im MIL

Jeder Monitoring-Befund ist rückführbar auf einen konkreten Layer.

Zusammenfassung

Das Konzept des Rankings ist in LLM-Systemen epistemisch unbrauchbar. Aivis-OS ersetzt die Jagd nach Positionen durch die Sicherung von Quellen-Verankerung. Das Evidence Monitoring prüft nicht, ob eine Marke „oben steht“, sondern ob ihre digitale Repräsentation den probabilistischen Abruf strukturell unbeschadet übersteht.

Identity & Definition Cluster-Level Entity Inventory Strategy
Cluster-Level Entity Inventory Strategy

Cluster-Level Entity Inventory Strategy

Context & Meaning Semantic Graph Engineering & Semantic Graph Layer
Semantic Graph Layer

Semantic Graph Layer

Semantic Graph Engineering
Semantic Graph Engineering

Semantic Graph Engineering

API & Exposition Machine Interface Layer
Machine Interface Layer & Projection Strategy

Machine Interface Layer & Projection Strategy

Transport-Safe Content Layer
Transport-Safe Content Layer

Transport-Safe Content Layer

Retrieval Resilience Transport-Safe Content Strategy
Transport-Safe Content Engineering

Transport-Safe Content Engineering

Observability Evidence Monitoring & Visibility
Evidence Monitoring & AI Visibility Observability

Evidence Monitoring & AI Visibility Observability

Warum sind Rankings in LLM-basierten Systemen bedeutungslos?

Weil LLMs keine geordneten Ergebnislisten generieren. Sie synthetisieren Antworten probabilistisch auf der Grundlage von Vektorsimilarität, Evidenzdichte und Kontext. Sichtbarkeit ist daher ein Zustand, keine Position.

Was misst die Evidenzüberwachung anstelle von Rankings?

Sie misst die strukturelle Stabilität. Evidenzüberwachung bewertet, ob eine Entität unter probabilistischer Suche korrekt identifiziert, logisch verbunden, richtig belegt und sachlich präzise ist.

Warum ist die reine Ausgabemonitoring für die KI-Sichtbarkeit unzuverlässig?

Weil richtige Antworten erraten werden können. Ohne Überprüfung der Zuordnung, Beziehungen, Quellen und numerischen Genauigkeit kann die Ausgabemonitoring Wissen nicht von statistisch plausiblen Halluzinationen unterscheiden.

Was ist der Unterschied zwischen Benutzer-Prompts und forensischen Prompts?

Benutzer-Prompts simulieren reale Fragen und testen das Erinnerungsvermögen. Forensische Prompts unterziehen die zugrunde liegenden semantischen und evidenziellen Mechanismen einem Stresstest und zeigen, ob die Sichtbarkeit robust oder zufällig ist.

Wie verbessert der Source Anchoring Score die Bewertung der KI-Sichtbarkeit?

Der Source Anchoring Score ersetzt binäre Sichtbarkeitsmetriken durch eine kontinuierliche Messung der Vertrauenswürdigkeit. Er kombiniert Attributionsstabilität, relationale Integrität und Zitierverhalten, um zu beurteilen, ob ein Modell tatsächlich auf einer Quelle basiert.

Kontaktieren Sie uns, um Ihr Projekt zu besprechen oder einfach nur unsere Meinung einzuholen.