OpenAI stellt Sora vor: Ein KI Text-zu-Video-Generator

OpenAI hat mit der Einführung von Sora einen Durchbruch in der Welt der künstlichen Intelligenz (KI) und der Videoerstellung erzielt. Das generative KI-Modell ist in der Lage, Videos mit einer Länge von bis zu einer Minute zu erstellen, indem es einfache Textaufforderungen verwendet, ähnlich wie bei ChatGPT.

Hauptmerkmale von Sora

Laut OpenAI kann Sora sehr detaillierte und komplexe Szenen mit mehreren Charakteren erstellen. Jede Figur kann lebendige Emotionen und Bewegungen vor einem dynamischen Hintergrund und mit komplexen Kamerabewegungen darstellen. All dies wird durch die tiefe Erkenntnis der Software in natürlicher Sprache ermöglicht.

Um das Potenzial des Text-to-Video-Modells zu demonstrieren, hat OpenAI ein Video auf X veröffentlicht, das vollständig von Sora erstellt wurde. Der Live-Action-Clip zeigt ein Pärchen, das vor einem winterlichen Hintergrund auf einem Gehweg in Tokio vor einigen Geschäften entlanggeht.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

“Wir bringen der KI bei, die physische Welt in Bewegung zu verstehen und zu simulieren, mit dem Ziel, Modelle zu trainieren, die den Menschen helfen, Probleme zu lösen, die eine Interaktion in der realen Welt erfordern”, so OpenAI auf der offiziellen Webseite von Sora. “Sora kann Videos mit einer Länge von bis zu einer Minute generieren und dabei die visuelle Qualität und die Einhaltung der Eingabeaufforderung des Nutzers beibehalten.”

“Sora ist in der Lage, komplexe Szenen mit mehreren Charakteren, bestimmten Bewegungsarten und genauen Details des Motivs und des Hintergrunds zu erzeugen”, heißt es weiter. “Das Modell versteht nicht nur, was der Nutzer in der Eingabeaufforderung verlangt hat, sondern auch, wie diese Dinge in der realen Welt existieren.”

Das Unternehmen unter der Leitung von CEO Sam Altman hat allerdings noch kein Veröffentlichungsdatum für Sora.

Herausforderungen, die OpenAI bei Sora begegnet sind

OpenAI hat zugegeben, dass es in der aktuellen Version von Sora Schwachstellen gibt, die vor dem öffentlichen Start behoben werden müssen. Dazu gehören Probleme bei der Simulation der Physik einer komplizierten Szene, da das Programm die besondere Logik von Ursache und Wirkung nur bedingt nachvollziehen kann. Als Beispiel wurde ein Video genannt, in dem eine Person in einen Keks beißt, aber die nächste Szene würde wahrscheinlich dazu führen, dass der Keks überhaupt keine Bisswunde hat.

Es könnte auch bei räumlichen Anweisungen durcheinander kommen, was dazu führen könnte, dass so einfache Richtungsangaben wie links und rechts verwechselt werden. Außerdem ist es immer noch anfällig für Fehlinformationen, Verzerrungen und schädliche Inhalte.

Außerdem arbeitet das Technologieunternehmen derzeit daran, C2PA-Metadaten in Sora zu kodieren, wenn es als OpenAI-Produkt verpackt wird. Auf diese Weise können die Klassifizierer erkennen, ob ein bestimmtes Video von Sora stammt oder nicht, und gleichzeitig verhindern, dass irreführende Inhalte auf der Plattform verbreitet werden.

Der Hersteller des beliebten ChatGPT versicherte, dass er derzeit mit politischen Entscheidungsträgern, Pädagogen und Künstlern weltweit in Kontakt steht, um möglichst viele Anregungen zu erhalten und mögliche Anwendungsfälle für die neue Technologie zu ermitteln.

“Trotz umfangreicher Forschung und Tests können wir nicht vorhersagen, auf welche Weise die Menschen unsere Technologie nutzen und auf welche Weise sie sie missbrauchen werden”, warnte OpenAI. “Deshalb glauben wir, dass das Lernen aus der realen Nutzung eine entscheidende Komponente ist, um mit der Zeit immer sicherere KI-Systeme zu entwickeln und freizugeben.”

Sein Hersteller betrachtet Sora als eine wichtige Grundlage für generative KI-Modelle, um zu verstehen, wie man reale Szenarien simuliert.