# ARSXAI9 - Algorithmic Recursive Sequence Analysis mit Explainable AI



## 🎯 Einführung und Vision

**ARSXAI9** ist eine universelle Analyseplattform für sequenzielle Daten mit Fokus auf **Explainable AI (XAI)**. Die Kernidee: Statt willkürlicher Kodierungen (wie der früheren 5-Bit-Kodierung) basieren alle Erklärungen auf einer **Probabilistischen Kontextfreien Grammatik (PCFG)**, die automatisch aus den Daten induziert wird.

### Die zentrale Erkenntnis
Wiederkehrende Muster in Sequenzen sind die natürliche Grundlage für Erklärungen. ARSXAI9 abstrahiert diese Muster zu **Nonterminalen** und macht sie damit explizit und erklärbar.

### Hauptanwendungsgebiete

| Bereich | Anwendung |
|---------|-----------|
| **Dialoganalyse** | Verkaufsgespräche, Beratungen, Therapiegespräche |
| **Prozessanalyse** | Workflow-Muster, Produktionsabläufe |
| **Verhaltensanalyse** | Aktionssequenzen, Interaktionsmuster |
| **Code-Analyse** | Programmabläufe, API-Aufrufsequenzen |
| **Wissenschaft** | Sequenzmuster in beliebigen Domänen |

---

## 🌟 Hauptmerkmale

### 🧠 **PCFG-basierte Mustererkennung**
- Automatische Induktion einer hierarchischen Grammatik
- Wiederholte Sequenzen werden zu Nonterminalen abstrahiert
- **Keine willkürlichen Kodierungen** oder domänenspezifischen Annahmen

### 💬 **Natürlichsprachliche Erklärungen**
```text
🔍 Erklärung für Symbol 'CBG':
============================================================
🔤 CBG ist ein grundlegendes Symbol.

📊 Es kommt in folgenden wiederkehrenden Mustern vor:

  • P_CBG_BBG_2 (100% der Ketten):
    P_CBG_BBG_2 → CBG → BBG
    Position: nach nichts, vor BBG

🏗️ Hierarchische Einbettung:
└─ in P_CBG_BBG_2 → CBG → BBG
  └─ in P_GESAMT_10 → P_CBG_BBG_2 ...
```

### 📊 **Hierarchische Musterübersicht**
- Alle erkannten Muster mit Häufigkeiten
- Begründung, warum ein Muster erkannt wurde
- Kontext-Informationen (Vorher/Nachher)

### 🔄 **Multiple Modell-Perspektiven**
- ARS 2.0: Einfache Bigramm-Wahrscheinlichkeiten
- ARS 3.0: Hierarchische Grammatik (Hauptmodell)
- HMM: Latente Phasen
- CRF: Kontext-sensitive Features
- Petri-Netze: Ressourcen-basierte Modellierung

---

## ✨ Neu in Version 9.0

### ❌ **Entfernt**
- Die 5-Bit-Kodierung (mit ihren willkürlichen Annahmen)
- Positionsbasierte, musterbasierte und statistische Kodierungsstrategien
- Künstliche Aufteilung in "Sprechergruppen" (A-M vs. N-Z)

### ✅ **Hinzugefügt**
- **GrammarInducer** als zentrale Wissensbasis
- **NaturalLanguageExplainer** für menschenlesbare Erklärungen
- Hierarchische Musterübersicht mit Häufigkeiten
- Sequenz-Erklärungen mit Zerlegung in Teil-Muster
- Kontext-Informationen für Symbole in Mustern

### 🎯 **XAI-Verbesserungen**
- Erklärungen basieren auf **tatsächlich gelernten Strukturen**
- **Keine versteckten Annahmen** mehr
- **Natürlichsprachliche** Ausgabe
- **Hierarchische Einbettung** sichtbar gemacht
- **Häufigkeitsangaben** für alle Muster

---

### Graphviz (für Visualisierung)

**Windows:**
```bash
# Mit Chocolatey (als Administrator)
choco install graphviz

# Oder manuell: https://graphviz.org/download/
# Bei Installation HAKEN SETZEN bei "Add Graphviz to PATH"
```

**Linux:**
```bash
sudo apt-get install graphviz  # Ubuntu/Debian
```

**macOS:**
```bash
brew install graphviz
```

---

## 🧠 Die zentrale Idee: PCFG-basierte XAI

### 1. **Mustererkennung statt willkürlicher Kodierung**

In Version 8.x gab es noch drei Kodierungsstrategien, die versuchten, jedem Symbol eine 5-Bit-Bedeutung zuzuweisen:
- Bit 1: "Gruppe A-M" vs. "Gruppe N-Z" (völlig willkürlich!)
- Bits 2-3: "Phase 0-3" (ebenfalls willkürlich)
- Bits 4-5: "Basis/Folge" (auch willkürlich)

**Das Problem:** Diese Kodierung musste immer interpretiert werden und traf Annahmen über die Daten.

### 2. **Die Lösung: Lerne die Struktur aus den Daten**

ARSXAI9 geht einen völlig anderen Weg:

```python
# Wiederholtes Muster gefunden: [CBG, BBG] kommt in 100% der Ketten vor
→ Neues Nonterminal: P_CBG_BBG_2

# Nächstes Muster: [CBBd, BBBd] kommt häufig vor
→ Neues Nonterminal: P_CBBd_BBBd_2

# Die Grammatik wächst hierarchisch:
P_GESAMT_10 → P_CBG_BBG_2, P_CBBd_BBBd_2, P_CBA_BBA_2, ...
```

### 3. **Erklärungen direkt aus der Grammatik**

```python
# Für Symbol 'CBG':
"CBG ist Teil des Musters P_CBG_BBG_2 (kommt in 100% der Ketten vor)"
```

**Das ist echte XAI:** Die Erklärung basiert auf der tatsächlich gelernten Struktur, nicht auf einer zusätzlichen Interpretationsschicht.

---

## 📦 Integrierte Modelle

| Modell | Klasse | Beschreibung | Status |
|--------|--------|--------------|--------|
| **ARS 3.0** | `GrammarInducer` | Hierarchische PCFG (ZENTRAL) | ⭐ Hauptmodell |
| **ARS 2.0** | `ARS20` | Einfache Bigramm-Wahrscheinlichkeiten | 🔧 Optional |
| **HMM** | `ARSHiddenMarkovModel` | Latente Phasen | 🔧 Optional |
| **CRF** | `ARSCRFModel` | Kontext-sensitive Features | 🔧 Optional |
| **Petri-Netz** | `ARSPetriNet` | Ressourcen-basierte Modellierung | 🔧 Optional |
| **Generator** | `ChainGenerator` | Synthetische Ketten | 🔧 Optional |

### Fokus auf ARS 3.0

ARS 3.0 ist das **Hauptmodell** und die Grundlage aller XAI-Erklärungen. Die anderen Modelle dienen als Vergleich und zur Validierung.

---

## 📁 Dateiformate

### Eingabeformat (Transkriptdatei)

```txt
# Kommentare beginnen mit #
# Trennzeichen: Komma, Semikolon oder Leerzeichen (einstellbar)

# Transkript 1: Standard
CBG, BBG, CBBd, BBBd, CBA, BBA, CBBd, BBBd, CBA, BAA, CAA, BAB, CAB

# Transkript 2: Mit Wiederholungen
CBG, BBG, CBBd, BBBd, CBBd, BBBd, CBA, BBA, BAA, CAA, BAB, CAB

# Transkript 3: Kurz
CBG, BBG, CBBd, BBBd, CBA, BBA, BAA, CAA, BAB, CAB

# Leerzeilen werden ignoriert
```

**Formatregeln:**
- Eine Kette pro Zeile
- Kommentare mit `#` am Zeilenanfang
- Symbole durch Trennzeichen getrennt
- Leere Zeilen werden ignoriert

### Trennzeichen

Das Trennzeichen ist **frei wählbar** und wird für ALLE Eingaben verwendet:
- Haupttranskripte
- Symbol-Eingabe (XAI-Tab)
- Sequenz-Eingabe (XAI-Tab)

---

## 🖥️ Benutzeroberfläche

### Hauptfenster

```
┌─────────────────────────────────────────────────────────────────┐
│ ARSXAI9 - PCFG-basierte Musteranalyse mit XAI                        │
├──────────────────────┬──────────────────────────────────────────┤
│ EINGABE              │ AUSGABE (Notebook-Tabs)                  │
│                      │                                          │
│ Trennzeichen:        │ ┌─────────────────────────────────────┐ │
│ ○ Komma ○ Semikolon  │ │ Grammatik | Muster | XAI | Modelle  │ │
│ ○ Leerzeichen ○ |    │ └─────────────────────────────────────┘ │
│                      │                                          │
│ Transkripte:         │ ERKANNTE MUSTER:                        │
│ ┌──────────────────┐ │ ╔═════════════════════════════════════╗ │
│ │ CBG, BBG, CBBd,  │ │ ║ 📌 P_CBG_BBG_2 (100% der Ketten):  ║ │
│ │ BBBd, CBA, BBA,  │ │ ║    CBG → BBG                        ║ │
│ │ CBBd, BBBd, CBA, │ │ ║    Grund: Zweierfolge in 100%       ║ │
│ │ BAA, CAA, BAB,   │ │ ║                                    ║ │
│ │ CAB               │ │ ║ 📌 P_CBBd_BBBd_2 (88%):           ║ │
│ └──────────────────┘ │ ║    CBBd → BBBd                      ║ │
│                      │ ╚═════════════════════════════════════╝ │
│ [Datei laden] [Parsen]│                                          │
│ [Grammatik induzieren]│                                          │
├──────────────────────┴──────────────────────────────────────────┤
│ Status: Grammatik induziert - 5 Muster gefunden      [====▶   ] │
└─────────────────────────────────────────────────────────────────┘
```

### Tabs im Überblick

| Tab | Funktion | Inhalt |
|-----|----------|--------|
| **Grammatik** | Vollständige PCFG | Alle Produktionsregeln, Terminale, Nonterminale |
| **Erkannte Muster** | Übersicht | Alle Muster mit Häufigkeiten und Begründungen |
| **XAI-Erklärungen** | Interaktiv | Erklärungen für Symbole und Sequenzen |
| **Weitere Modelle** | Vergleich | ARS 2.0, HMM, CRF, Petri-Netze |
| **Statistiken** | Kennzahlen | Verteilungen, Häufigkeiten, Kompressionsrate |

---

## 📘 Bedienungsanleitung

### 1. **Daten laden**

**Option A - Datei:**
- Klicken Sie auf "Datei laden"
- Wählen Sie eine Textdatei mit Transkripten
- Das Programm parst automatisch

**Option B - Beispiel:**
- Klicken Sie auf "Beispiel"
- Lädt vordefinierte C-Symbol-Transkripte

**Option C - Direkteingabe:**
- Geben Sie Ketten direkt ins Textfeld ein
- Eine Kette pro Zeile
- Kommentare mit `#` möglich

### 2. **Trennzeichen wählen**

Wählen Sie das in Ihrer Datei verwendete Trennzeichen:
- **Komma (,)**: `CBG, BBG, CBBd`
- **Semikolon (;)**: `CBG; BBG; CBBd`
- **Leerzeichen**: `CBG BBG CBBd`
- **Benutzerdefiniert**: z.B. `|`

> **Wichtig:** Dieses Trennzeichen wird für ALLE Eingaben verwendet (auch für Sequenzen im XAI-Tab)!

### 3. **Grammatik induzieren**

Nach dem Laden:
1. Klicken Sie auf "Grammatik induzieren" (oder es startet automatisch)
2. Das Programm findet wiederkehrende Muster
3. Die Grammatik wird aufgebaut
4. Nonterminale werden automatisch benannt (z.B. `P_CBG_BBG_2`)

### 4. **Muster erkunden**

**Grammatik-Tab:**
- Sehen Sie die vollständige PCFG
- Alle Produktionsregeln mit Wahrscheinlichkeiten
- Terminale und Nonterminale

**Muster-Tab:**
- Übersicht aller erkannten Muster
- Häufigkeit in Prozent
- Begründung, warum das Muster erkannt wurde

### 5. **XAI-Fragen stellen**

**XAI-Tab - Symbol erklären:**
- Geben Sie ein Symbol ein (z.B. "CBG")
- Klicken Sie "Symbol erklären"
- Sie erhalten:
  - Information, ob es Terminal oder Nonterminal ist
  - In welchen Mustern es vorkommt
  - Hierarchische Einbettung
  - Kontext (Vorher/Nachher)

**XAI-Tab - Sequenz erklären:**
- Geben Sie eine Sequenz ein (mit dem eingestellten Trennzeichen)
- Beispiele (bei Komma):
  - `CBG, BBG, CBBd`
  - `CBG,BBG,CBBd` (ohne Leerzeichen)
  - `CBG , BBG , CBBd` (mit Leerzeichen)
- Klicken Sie "Sequenz erklären"
- Sie erhalten:
  - Hierarchische Zerlegung der Sequenz
  - Information, ob sie ein eigenständiges Muster bildet
  - Vorkommenshäufigkeit

### 6. **Weitere Modelle vergleichen**

**Modelle-Tab:**
- Aktivieren/deaktivieren Sie optionale Modelle
- Trainieren Sie alle Modelle
- Vergleichen Sie die Erklärungen verschiedener Modelle für dasselbe Symbol

### 7. **Visualisierungen**

**Grammatik-Hierarchie:**
- Menü: Visualisierung → Grammatik-Hierarchie
- Zeigt die hierarchische Struktur der Grammatik als Graph

**Muster-Häufigkeiten:**
- Menü: Visualisierung → Muster-Häufigkeiten
- Balkendiagramm der häufigsten Muster

### 8. **Exportieren**

1. Menü: Datei → Exportieren
2. Wählen Sie Format:
   - **JSON**: Für Weiterverarbeitung
   - **HTML**: Interaktiver Bericht mit allen Mustern
   - **LaTeX**: Für wissenschaftliche Publikationen

---

## 🔍 XAI-Erklärungen verstehen

### Symbol-Erklärung

```text
🔍 **Erklärung für Symbol 'CBBd'**
================================================================

🔤 **CBBd** ist ein **grundlegendes Symbol**.

📊 Es kommt in folgenden wiederkehrenden Mustern vor:

  • **P_CBBd_BBBd_2** (88% der Ketten):
    P_CBBd_BBBd_2 → CBBd → BBBd
    Position: nach nichts, vor BBBd

  • **P_Doppel_4** (75% der Ketten):
    P_Doppel_4 → P_CBBd_BBBd_2 → P_CBBd_BBBd_2
    Position: nach P_CBBd_BBBd_2, vor P_CBBd_BBBd_2

🏗️ **Hierarchische Einbettung:**
└─ in P_CBBd_BBBd_2 → CBBd → BBBd
  └─ in P_Doppel_4 → P_CBBd_BBBd_2 → P_CBBd_BBBd_2
    └─ in P_GESAMT_10 → P_CBG_BBG_2 → P_Doppel_4 ...

✅ **Konfidenz dieser Analyse**: 95%
```

### Sequenz-Erklärung

```text
🔍 **Erklärung für Sequenz:** CBBd → BBBd → CBBd → BBBd
================================================================

**Hierarchische Struktur:**
└─ **P_CBBd_BBBd_2** = CBBd → BBBd (in 88% der Ketten)
  └─ **P_CBBd_BBBd_2** = CBBd → BBBd (in 88% der Ketten)
    └─ **P_Doppel_4** = P_CBBd_BBBd_2 → P_CBBd_BBBd_2 (in 75% der Ketten)

📊 **Vorkommen**: 75% der Ketten (12 von 16)
```

### Bedeutung der Symbole

| Symbol | Bedeutung |
|--------|-----------|
| `P_...` | Nonterminal (erkanntes Muster) |
| `P_CBG_BBG_2` | Muster aus CBG und BBG (Länge 2) |
| `P_GESAMT_10` | Gesamtstruktur der Länge 10 |
| `🔤` | Terminales Symbol (grundlegend) |
| `📦` | Nonterminal (abstraktes Muster) |
| `📊` | Statistische Information |
| `🏗️` | Hierarchische Einbettung |

---

## 💡 Beispiele

### Beispiel 1: C-Symbol-Datensatz

**Eingabe:**
```
CBG, BBG, CBBd, BBBd, CBA, BBA, CBBd, BBBd, CBA, BAA, CAA, BAB, CAB
CBG, BBG, CBBd, BBBd, CBBd, BBBd, CBA, BBA, BAA, CAA, BAB, CAB
CBG, BBG, CBBd, BBBd, CBA, BBA, BAA, CAA, BAB, CAB
```

**Erkannte Muster:**
- `P_CBG_BBG_2` → CBG → BBG (100%)
- `P_CBBd_BBBd_2` → CBBd → BBBd (100%) 
- `P_CBA_BBA_2` → CBA → BBA (100%)
- `P_BAA_CAA_2` → BAA → CAA (100%)
- `P_BAB_CAB_2` → BAB → CAB (100%)
- `P_Doppel_4` → P_CBBd_BBBd_2 → P_CBBd_BBBd_2 (67%)

### Beispiel 2: D-Symbol-Datensatz (analoge Struktur)

**Eingabe:**
```
DBG, BBG, DBBd, BBBd, DBA, BBA, DBBd, BBBd, DBA, BAA, DAA, BAB, DAB
DBG, BBG, DBBd, BBBd, DBBd, BBBd, DBA, BBA, BAA, DAA, BAB, DAB
DBG, BBG, DBBd, BBBd, DBA, BBA, BAA, DAA, BAB, DAB
```

**Erkannte Muster:**
- `P_DBG_BBG_2` → DBG → BBG (100%)
- `P_DBBd_BBBd_2` → DBBd → BBBd (100%)
- `P_DBA_BBA_2` → DBA → BBA (100%)
- ... (analoge Struktur, andere Symbole)

### Beispiel 3: Sequenz-Erklärung

**Eingabe:** `CBG, BBG, CBBd, BBBd` (bei Komma als Trennzeichen)

**Ausgabe:**
```
🔍 **Erklärung für Sequenz:** CBG → BBG → CBBd → BBBd
================================================================

**Hierarchische Struktur:**
└─ **P_CBG_BBG_2** = CBG → BBG (in 100% der Ketten)
  └─ **P_CBBd_BBBd_2** = CBBd → BBBd (in 88% der Ketten)

📊 **Vorkommen**: 88% der Ketten (14 von 16)
```

---

## 📊 Exportformate

### JSON (maschinenlesbar)
```json
{
  "grammar": {
    "patterns": [
      {
        "name": "P_CBG_BBG_2",
        "sequence": ["CBG", "BBG"],
        "frequency": 100.0,
        "rationale": "Die Zweierfolge CBG → BBG kommt in 100% aller Ketten vor"
      }
    ]
  }
}
```

### HTML (Interaktiver Bericht)
```html
<div class="pattern-box">
  <h3>P_CBG_BBG_2</h3>
  <p><strong>Sequenz:</strong> CBG → BBG</p>
  <p><strong>Vorkommen:</strong> 100% der Ketten</p>
  <p><strong>Begründung:</strong> Die Zweierfolge CBG → BBG kommt in 100% aller Ketten vor</p>
</div>
```

### LaTeX (Wissenschaftlich)
```latex
\begin{tabular}{lll}
\toprule
Muster & Sequenz & Häufigkeit \\
\midrule
P\_CBG\_BBG\_2 & CBG $\rightarrow$ BBG & 100\% \\
\bottomrule
\end{tabular}
```

---

## 🔧 Fehlerbehebung

### Häufige Probleme

#### 1. **"Keine gültigen Ketten gefunden"**
- **Ursache**: Falsches Trennzeichen oder leere Datei
- **Lösung**: Trennzeichen überprüfen, Dateiformat kontrollieren

#### 2. **"Symbol nicht gefunden" bei XAI-Anfrage**
- **Ursache**: Symbol existiert nicht in den Daten
- **Lösung**: Groß-/Kleinschreibung prüfen, Tippfehler korrigieren

#### 3. **Sequenz wird nicht erkannt**
- **Ursache**: Falsches Trennzeichen verwendet
- **Lösung**: Das gleiche Trennzeichen wie in der Haupteingabe verwenden

#### 4. **Graphviz-Fehler**
```
failed to execute WindowsPath('dot')
```
- **Ursache**: Graphviz Systembibliothek fehlt
- **Lösung**: Graphviz installieren und PATH setzen

### Tipps

- **Trennzeichen-Konsistenz**: Für ALLE Eingaben das GLEICHE Trennzeichen verwenden
- **Leerzeichen**: Sind erlaubt, werden aber ignoriert
- **Groß-/Kleinschreibung**: Wichtig! "CBG" ≠ "cbg"
- **Lange Sequenzen**: Bei Komma als Trennzeichen: `CBG,BBG,CBBd,BBBd` (ohne Leerzeichen) ist am sichersten

---

## 🤝 Mitwirken

Beiträge sind willkommen!

### Entwicklungsumgebung

```bash
# Repository forken
git clone https://github.com/yourusername/ARSXAI9.git
cd ARSXAI9

# Virtuelle Umgebung
python -m venv venv
source venv/bin/activate  # Linux/Mac
venv\Scripts\activate     # Windows

# Entwicklungspakete
pip install -r requirements-dev.txt
```

### Code-Stil

- PEP 8 für Python-Code
- Docstrings für alle öffentlichen Methoden
- Typannotationen wo sinnvoll
- Kommentare auf Deutsch oder Englisch

---


---

## 📚 Zitation

Wenn Sie ARSXAI9 in wissenschaftlichen Arbeiten verwenden, bitte wie folgt zitieren:

```bibtex
@software{ARSXAI9,
  author = {Koop, Paul},
  title = {ARSXAI9: PCFG-based Sequence Analysis with Explainable AI},
  year = {2024},
  url = {https://github.com/yourusername/ARSXAI9}
}
```

---

## 🙏 Danksagung

- **hmmlearn** - Für die HMM-Implementierung
- **sklearn-crfsuite** - Für die CRF-Implementierung
- **Graphviz** - Für Visualisierungen
- **NetworkX** - Für Graph-Analysen

---

**Entwickelt mit ❤️ für erklärbare Künstliche Intelligenz**