Insights

Gen AI Playbook Teil 3: Bauen mit LLMs

Geschrieben von Mina | 11.06.2025 10:46:32

Nachdem wir uns bereits mit generativer KI und ihrer strategischen Umsetzung beschäftigt haben, tauchen wir nun tiefer in das technische Rückgrat dieser transformativen Technologie ein. Wenn du bei der letzten Sitzung dabei warst, weisst du bereits, wie wichtig praktische Erkenntnisse für die Förderung von Innovationen sind.

Du bist also eine technische Führungskraft, die einen Zeh (oder vielleicht beide Füsse) in den riesigen Ozean der generativen KI getaucht hat. Wahrscheinlich hast du schon Begriffe wie GPT, LLMs und BERT gehört und dich gefragt : "Was geht da eigentlich unter der Haube vor?" Wenn das auf dich zutrifft, lies weiter. Wir haben gerade eine aufschlussreiche Sitzung bei CREATEQ abgehalten, die sich speziell mit diesen mächtigen Biestern befasst hat: Grosse Sprachmodelle (LLMs).

Neuronale Netze auspacken: Eine kurze Auffrischung

Bevor wir in die Tiefen der LLMs eintauchen, lass uns kurz die Grundlagen neuronaler Netze rekapitulieren:

  • Neuronale Netze treffen Vorhersagen, indem sie interne "Gewichte" durch Vorwärtspassagen, Rückwärtspropagation und Optimierungsfunktionen anpassen.

  • ReLU, Sigmoid und Softmax sind gängige Aktivierungsfunktionen, die entscheidend dafür sind, dass neuronale Netze komplexe Muster lernen.

  • Ein häufiges Problem ist die Überanpassung. Das tritt auf, wenn ein Modell die Trainingsdaten zu gut lernt, aber mit neuen, unbekannten Daten Schwierigkeiten hat.

Diese Grundlagen, die in unserer früheren Sitzung besprochen wurden, bilden die Basis für das Verständnis komplexerer Architekturen.

Die Entwicklung von NLP: Von den Grundlagen zu BERT und darüber hinaus

Erinnerst du dich noch an die Tage der einfachen One-Hot-Codierungen? Heute hat sich NLP durch Innovationen wie Worteinbettungen, LSTMs und Transformers weiterentwickelt. Werfen wir einen Blick auf die wichtigsten Neuerungen:

BERT - das bidirektionale Wunderwerk von Google

Googles BERT, ein auf einem bidirektionalen Encoder basierendes Modell, verarbeitet Sprache aus beiden Richtungen und bietet so ein unübertroffenes Kontextverständnis für analytische Aufgaben wie Stimmungsanalyse und Spam-Erkennung.

GPT - Generierung von Text, ein Token nach dem anderen

GPT-Modelle, insbesondere von OpenAI, basieren auf decoderbasierten Architekturen und eignen sich hervorragend für generative Aufgaben wie Storytelling und Zusammenfassungen. Mit GPT-4, das inzwischen weit verbreitet ist, wurden multimodale Fähigkeiten eingeführt, die Text und Bilder kombinieren.

Das Innere des GPT-Motors: Die Temperatur spielt eine Rolle

Hast du dich schon einmal gefragt, warum GPT nie zweimal auf genau dieselbe Weise antwortet? Die "Temperatur"-Einstellung in GPT beeinflusst Zufälligkeit und Kreativität. Niedrigere Temperaturen liefern sachliche, vorhersehbare Antworten - perfekt für Codierungs- oder Übersetzungsaufgaben. Höhere Temperaturen sorgen für Kreativität, ideal für Brainstorming oder Geschichtenerzählen.

Dieser Aspekt steht in direktem Zusammenhang mit den zuvor erörterten strategischen Überlegungen, wie z. B. dem Umgang mit Unvorhersehbarkeit in generativen KI-Implementierungen.

API-Einblicke und praktische Anwendungen

Die beliebte, aber zustandslose API von OpenAI erfordert manuelles Kontextmanagement. Kürzlich eingeführte "Antwort"-APIs fügen Zustandsabhängigkeit hinzu und vereinfachen die Integration. Praktisch gesprochen, kann GPT:

  • Sprachen nahtlos übersetzen

  • Genaue Stimmungsanalyse durchführen

  • Spam mit nahezu menschlicher Präzision filtern

  • Unübersichtliche, unstrukturierte Textdaten strukturieren

  • Umfangreiche Dokumente wie Geschäftsberichte schnell zusammenfassen

Diese praktischen Fähigkeiten stehen in engem Zusammenhang mit den strategischen Integrationstipps in unserem früheren Artikel, insbesondere bei der Rationalisierung von Geschäftsabläufen durch KI. 

Den Rahmen sprengen: DeepSeek und Gemini

Neue Herausforderer haben den Ring betreten:

  • DeepSeek, das durch spärliche Aktivierung und expertenbasierte Modelle hohe Leistung bei geringeren Kosten verspricht.

  • Google Gemini, das die multimodalen Fähigkeiten weiter ausbaut, indem es neben Text und Bildern auch Videos und Audio akzeptiert.

Gemini zeichnet sich vor allem durch die native multimodale Integration aus, die ihm bei komplexen Datenaufgaben einen leichten Vorteil verschafft. Wie bereits erwähnt, wirken sich solche Fortschritte direkt auf die strategische Entscheidungsfindung bei der Einführung von Technologien aus.

Was kommt als Nächstes?

Wir kratzen gerade erst an der Oberfläche. In unserer nächsten Sitzung werden wir uns mit Prompt-Engineering-Techniken wie Zero-Shot-, Some-Shot- und Chain-of-Thought-Methoden beschäftigen und fortgeschrittene Anwendungsfälle wie Retrieval-Augmented Generation (RAG), zustandsabhängige API-Interaktionen und die lokale Bereitstellung von Open-Source-Modellen untersuchen.

Bleibe dran, um detaillierte Code-Demonstrationen und weitere praktische Einblicke zu erhalten, die deine KI-Strategie voranbringen!