Methode und Verfahren

Supervised vs. unsupervised

Die derzeit dominierenden Verfahren zur Mustererkennung im digitalen Informationsraum basieren überwiegend auf tokenbasierten Lernarchitekturen, deren Trainings- und Optimierungsprozesse auf expliziten (Labels) oder impliziten (Next-Token) Zielvorgaben beruhen, wodurch sie, mit hoher struktureller Wahrscheinlichkeit, genau jene Muster erkennen, auf die sie zuvor trainiert wurden. Sie erkennen und variieren, was in ihren Trainingsdaten bereits in hinreichender Dichte vorliegt. Dieses Vorgehen versagt bei unbekannten Mustern, u.a. dort, wo bislang unbekannte Narrative in dynamischen Architekturen – ganz gleich ob manipulativ oder nicht – aufgebaut und verbreitet werden. Unüberwacht trainierte KI hingegen findet neben den bekannten auch unbekannte Muster in unstrukturierten Datenbeständen. Genaugenommen sind unbekannte Muster der eigentliche Erkenntnisgegenstand, weil Abweichungen von Ordnungen als potenziell strukturtragende Differenzen interpretiert werden.

Komplexität und Freiheitsgrade im Reasoning

Jüngere Publikationen verweisen auf das Problem, dass Large Reasoning Models (LRMs) bei komplexeren Aufgaben nicht kontinuierlich besser werden, d.h. sich der strukturellen Eindeutigkeit nähern, sondern dass sie bei höherer Komplexität kollabieren. Sowohl Standard-LLMs als auch LRMs versagen insofern auf komplexen Problemklassen, als sie bei höherer Schwierigkeit ihren „Denkaufwand“ (Reasoning-Effort) verringern, obwohl ihnen ausreichende Token-Budgets zur Verfügung stehen. Andere Experimente zeigen, dass die Fähigkeit von LLMs, logische Schlussfolgerungen zu ziehen und komplexe nichtmonotone Constraints zu lösen, mit steigender Komplexität der Aufgaben signifikant abnimmt. Auch bei erhöhter Rechenzeit und größeren Modellen bricht die Genauigkeit an bestimmten Komplexitätsschwellen ein.

Die Beobachtungen lassen die Vermutung zu, dass das Versagen von Reasoning-Modellen bei steigender Aufgabenkomplexität nicht primär als Ressourcenproblem zu verstehen ist. Damit rückt die Frage in den Vordergrund, ob der beobachtete Kollaps nicht vielleicht auf eine tiefer liegende, strukturelle Diskrepanz verweist: auf ein Missverhältnis zwischen der inneren Komplexität der zu lösenden Aufgabe und denjenigen Freiheitsgraden, die das Modell tatsächlich kontrolliert einsetzen kann, um relevante Unterscheidungen stabil zu binden. Wird der Kollaps von Reasoning-Modellen bei wachsender Problemkomplexität als Verletzung der Relation zwischen struktureller Komplexität und effektiv beherrschbaren Freiheitsgraden gelesen, dann ist er weder durch mehr bzw. dynamisch angepasste Tokens/Token-Budgets, noch durch längere Chain-of-Thoughts, noch durch bessere, umfassendere usw. Prompts zu beheben, das empirisch beobachtete Zurückfahren des Denkaufwands nahe der Kollapsgrenze kann der Ausdruck eines Systems sein, das „erkennt“, dass zusätzliche Freiheitsgrade keine eindeutigere Bestimmbarkeit mehr erzeugen können.

Optimale Passung von Phänomen und Repräsentation

Die unüberwachte Modellierung neuronaler Netze (Self organizing Maps) rekonstruiert bei entsprechender Repräsentation der Trainingsdaten latente Ordnungen so, dass die Zahl der wirksamen Freiheitsgrade der inneren Komplexität des beobachteten Phänomens resp. Diskursraums entspricht. Die Plattform Kalevi arbeitet mit einer stark reduzierten, nicht tokenisierten Datenrepräsentation, die ausschließlich aus dem jeweils zu analysierenden Korpus gewonnen wird, die Repräsentation entspricht der tatsächlichen Komplexität (= Anzahl der wirksamen Freiheitsgrade samt ihrer strukturellen Relationen) des untersuchten Diskursraums.

Die Vektordimensionen der zugrunde liegenden Self-Organizing Maps werden domänenspezifisch angemessen gewählt und eben nicht maximiert, sie sind groß genug, um die semantische Binnenstruktur eines Diskurses zu tragen, aber klein genug, um Mehrdeutigkeit zu verhindern und vermeiden auf diese Weise sowohl strukturelle Unterbestimmung als auch Redundanz, Bedeutungsverwischung und Intransparenz überdimensionierter Modelle. Die Modellierung folgt vollständig der prinzipiellen Bestimmbarkeit ihres Gegenstands und wahrt so die Passung der Komplexität von Phänomen und Repräsentation.

kalevi Methode und Verfahren

Datenvorverarbeitung und Sprachmodelle
Semantische Kartierung und Binnenstruktur des Diskurses
Netzwerkanalyse und Milieuauswertung
Output: Relevanzbewertete Textpassagen mit Quellen
Beschleunigung, Transparenz und Sparsamkeit

01 | Datenvorverarbeitung und Sprachmodelle

Die Plattform Kalevi, deren KI-Kern der proprietäre Algorithmus Textrapic bildet, nutzt Self Organizing Maps (SOMs/Kohonen-Karten), die nicht vortrainiert sind, sondern erst bei Auftrag unüberwacht und ausschließlich mit den jeweils zu analysierenden Daten trainiert werden (ein Textrapic-Trainingsset ist kontextreich, aber nicht syntaktisch strukturiert, es bildet Merkmalsräume über Kohärenz in thematischen Feldern, nicht über grammatische Abhängigkeiten). Sie benötigen keine vorgegebenen Zielkategorien oder Labeling und bilden Muster in unstrukturierten Textdaten selbstständig ab.

Die Datenvorverarbeitung beinhaltet mehrere, gegenüber derzeit gängigen Methoden und Verfahren auf die Mustererkennung in unbekannten Daten hin optimierte Datenverarbeitungsschritte, darunter:

die automatisierte Normalisierung und propritäre Dämpfung,
ein eigenes Verfahren zur Wortvektor-Bildung,
und die Einbettung in ein kontextuelles semantisches Feld, das die spätere SOM-Struktur steuert.

Die Analysefähigkeit wird mithilfe einer Weboberfläche bereitgestellt und bietet dem Anwender zu jeder Zeit Einsicht in den IT-Anteil des Datenverarbeitungsprozesses, durch welchen der Anwender mittels eines individuellen, zustandsbasierten Automaten geleitet wird, auch die Vorverarbeitung des Textrapic-Algorithmus ist vollständig reproduzierbar. Ungeachtet dessen ist eine Schulung zum Verständnis der anzuwendenden Schritte unbedingt zu empfehlen.

02 | Semantische Kartierung und Binnenstruktur des Diskurses

Die Sprachmodelle entstehen nahezu in Echtzeit, basierend nur auf den eingelesenen Kommunikationsdaten. Binnen etwa einer Stunde ist ein spezifisch für den gegebenen Diskursraum trainiertes Modell einsatzbereit zur Nutzung. Einmal erstellte Modelle können jederzeit wieder genutzt werden.

Der Kern der Methodik ist die von der SOM erzeugte semantische Karte,

die direkt und ausschließlich aus dem spezifischen, zum Training verwendeten Datenbestand generiert wird,
auf der jeder Begriff einem tatsächlich im Korpus vorkommenden Konzept entspricht,
und die über die räumliche Nähe/ Distanz der Begriffe zueinander die semantische Binnenstruktur des Datenbestands abbildet.

Mit dem erstmaligen Aufbau einer vollständig spezifischen, nur aus dem Analysekorpus gewonnenen semantischen Repräsentation entsteht eine topologisch organisierte Projektion des jeweils konkreten Diskurses, der damit strukturell und nach thematischen Schwerpunkten geordnet sichtbar wird. Unterschiedliche Trainingsdaten, eine andere Region, ein anderer Zeitraum, ein anderer Sprachraum, eine andere Plattform, ergeben vollkommen unterschiedliche semantische Karten. Die Karten sind visuell interpretierbar, menschenlesbar und maschinenverwertbar.

03 | Netzwerkanalyse und Milieuauswertung

Parallel zur Datenverarbeitung der SOM werden in einer mehrstufigen Netzwerkanalyse jene Gruppen sichtbar, die ein gemeinsames Verhalten zeigen bzw. gemeinsame Narrative tragen. Diese Netzwerke werden als gewichtete und gerichtete Graphen analysiert, wobei der Clusterdetektion-Algorithmus nicht nur topologische Dichte, sondern auch inhaltliche Kohärenz einbezieht. So entstehen farblich und strukturell separierte Milieus, die aus den Verhaltensmustern von Akteuren im Informationsraum gebildet werden. Je nach Sprachraum und Thema umfassen die Großgruppen zumeist zwischen knapp 5.000 und gut 50.000 Accounts, wir ermitteln sie für jede Plattform, jede Sprache und jedes Thema in jeder Analyse immer wieder neu. Ihre Inhalte werden vom KI-Algorithmus relevanzbewertet und dem Analysten geordnet zur Verfügung gestellt, um das primäre Gruppennarrativ und die jeweiligen Themen herausstellen zu können.

Das Verfahren ermöglicht die beobachtungsbasierte, dynamische, datengetriebene Milieuauswertung, die sich aus dem realen Kommunikationsverhalten vom Akteuren im Informationsraum ableitet. So werden Akteursgruppen gebildet, die sich nicht durch Selbstauskunft, sondern durch beobachtbare Interaktionen im digitalen Raum definieren. Diese Art der datengetriebene Milieuanalyse kann kontinuierlich Veränderungen im digitalen Verhalten beobachten und abbilden.

04 | Output: Relevanzbewertete Textpassagen mit Quellen

Aus der mit der SOM gewonnenen Struktur, der Kartierung der semantischen Binnenstruktur des jeweiligen Datenbestandes, leitet das System Kalevi dann einen zweiten, für die qualitative Inhaltsanalyse zentralen Output ab und liefert eine, algorithmisch nach Relevanz bewertete Liste kurzer Originalpassagen, die von der SOM als besonders charakteristisch für die identifizierten Muster eingestuft wurden, inklusive Quellenverlinkung. Damit wird der Analyst in die Lage versetzt, auch über eine etwaig eigene Kenntnis der Domäne hinausgehend, Muster in beliebigsprachigen Diskursen zu verfolgen.

05 | Software: Beschleunigung, Transparenz und Sparsamkeit

Das System Textrapic/Kalevi arbeitet analystenzentriert und vollständig transparent. Die Trainingsdaten sind zur Gänze bekannt, jeder Analyseschritt ist methodisch kontrolliert wiederholbar und vom Analysten gesteuert. Im Sinne des HCAI-Ansatzes liegen Bewertung und Ableitung vollständig beim Analysten, die Software kommt ohne Netzwerkverbindungen zu Internet-, Intranet- oder Auswertesystemen aus und kann in einer vollständig isolierten Umgebung betrieben werden (Air-Gap). Der Zugriff auf Daten und Funktionen ist durch ein rollen- und rechtebasiertes Zugriffskonzept auf autorisierte Nutzer beschränkt.

Desweiteren arbeitet die Plattform zum einen schnell, zum anderen recheneffizient. Zum einen werden die Kookkurrenzdaten, auf denen der Trainingsdatensatz von Textrapic basiert, nutzergesteuert aus thematisch und semiautomatisch gruppierten Textsnippets extrahiert. Dieser Schritt lässt sich durch einen Analysten in unter einer Stunde umsetzen, unabhängig davon, ob der zugrundeliegende Korpus 100 MB oder 10 GB Textdaten umfasst. Zum anderen benötigt Textrapic keine Token-sequenzielle Verarbeitung, deshalb ist der Ressourcenbedarf deutlich geringer als bei bekannten LLMs. Die topologische Abbildung erfolgt speicherschonend und ist daher auch auf begrenzter Infrastruktur realisierbar: Kalevi ist mit moderater Hardware vollständig einsetzbar. Eine virtuelle Maschine mit 32 GB RAM, 8-Kern-CPU und ausreichend SSD-Speicher (z. B. 30 TB) genügt für die Verarbeitung und Analyse auch umfangreicher Textkorpora.