Wer kennt es nicht? Man möchte ein Bild generieren oder sich die wesentlichen Inhalte eines langen Texts zusammenfassen lassen. Der erste Impuls führt zu einem generativen KI-Dienst basierend auf einem Foundation Model (oft ein großes multimodales Spr…
Wer kennt es nicht? Man möchte ein Bild generieren oder sich die wesentlichen Inhalte eines langen Texts zusammenfassen lassen. Der erste Impuls führt zu einem generativen KI-Dienst basierend auf einem Foundation Model (oft ein großes multimodales Sprachmodell wie GPT-4o), der mittels Texteingabe das gewünschte Bild bzw. die gewünschte Zusammenfassung generieren soll. Leider können die Ergebnisse der ersten Versuche oft unbefriedigend oder auch fehlerhaft sein. Die breiten Einsatzmöglichkeiten von Foundation Models …