KI-basierter Suchalgorithmus

Optimierung von Suchergebnissen durch einen KI-basierten Assoziationsalgorithmus

KI-basierter Suchalgorithmus

Zweistufiges Verfahren zur semantischen Suche

KeyBERT

Keyword-Extraktion

FörderungAntragProjektInnovation
Word2Vec
Förderung
Zuschuss
Finanzierung
Unterstützung
Beihilfe

Semantische Assoziationen

Verbesserte Suchergebnisse

Im Rahmen meiner Bachelorarbeit entwickelte ich einen innovativen Assoziationsalgorithmus zur Verbesserung von Suchergebnissen in einem Business-Intelligence-System.

Projektbeschreibung

Die Herausforderung bestand darin, die bestehende Suchfunktionalität deutlich zu erweitern und zu optimieren, da klassische Suchmethoden wie Wildcard-Suchen oder boolsche Operatoren semantische Zusammenhänge und Synonyme nicht ausreichend berücksichtigen konnten. Mein Algorithmus kombiniert Information Retrieval Methoden mit moderner KI, um relevante Inhalte effektiver zu finden.

Herausforderungen

Die zentralen Herausforderungen lagen in:

  • der effizienten Verarbeitung großer Mengen unstrukturierter Daten.
  • der Identifikation und Einbindung semantisch verwandter Begriffe.
  • der Einhaltung von Performance-Anforderungen, trotz Integration komplexer KI-Modelle.
  • der Gewährleistung hoher Datenschutzstandards.

Lösungsansatz

Der entwickelte Algorithmus nutzt ein zweistufiges KI-Verfahren:

Keyword-Extraktion

Mittels KeyBERT, basierend auf einem deutschen Transformer-Modell (DistilBERT), werden aus jedem Fördermittel-Volltext relevante Schlüsselbegriffe („Tags") extrahiert.

Semantische Assoziationen

Mit Word2Vec generiert der Algorithmus semantisch verwandte Begriffe zu den extrahierten Schlüsselwörtern, wodurch die Suchergebnisse erweitert und verbessert werden.

Ein speziell entwickeltes Scoring-Modell gewichtet diese Begriffe, um deren Relevanz für Suchanfragen optimal zu bewerten.

Ergebnisse

Durch systematische Evaluation konnte gezeigt werden, dass der neue Algorithmus die Präzision und insbesondere den Recall signifikant verbessert. Nutzer erhalten durch die Berücksichtigung semantischer Beziehungen deutlich umfassendere und relevantere Ergebnisse.

Die Implementierung als eigenständiger Prozess, der einmal wöchentlich erfolgt, gewährleistet dabei eine hohe Performance und Skalierbarkeit.

Technische Details

Zum Einsatz kamen folgende Technologien:

KeyBERT (Transformer-basierte Schlüsselwortextraktion)
Word2Vec (Modell für semantische Assoziationen)
Individuelles Scoring-Modell basierend auf TF-IDF-Prinzipien
Fuzzy-Suche (Levenshtein-Distanz) zur Fehlerkorrektur

Der entwickelte Algorithmus stellt eine zukunftsweisende Lösung dar, die leicht auf andere Business-Intelligence-Systeme übertragbar ist und signifikant zur Verbesserung der Nutzererfahrung beiträgt.

Projektdetails

Projekttyp

Bachelorarbeit

Zeitraum

2024

Technologien

PythonKeyBERTWord2VecNLPQlik Sense