Unser Angebot Large Language Model as a Service (LLMaaS) ermöglicht Ihnen den Zugriff auf hochmoderne Sprachmodelle, deren Inferenz mit einer qualifizierten Infrastruktur durchgeführt wird SecNumCloud, zertifiziert HDS für das Hosting von Gesundheitsdaten und damit souverän, in Frankreich berechnet. Profitieren Sie von einer hohen Leistung und optimaler Sicherheit für Ihre KI-Anwendungen. Ihre Daten bleiben streng vertraulich und werden nach der Verarbeitung weder ausgewertet noch gespeichert.

Einfache und transparente Preisgestaltung
0.9 €
pro Million eingegebener Token
4 €
pro Million ausgegebener Token
21 €
pro Million Reasoning-Tokens
Berechnet auf einer in Frankreich ansässigen Infrastruktur, qualifiziert SecNumcloud und HDS-zertifiziert.
Note zum Preis "Argumentation" : Dieser Preis gilt speziell für Modelle, die eingestuft werden als "Raison" oder "Hybrid" (Modelle, bei denen die Fähigkeit "Argumentation" aktiviert), wenn die Argumentation aktiv ist und nur auf Token, die mit dieser Aktivität verbunden sind.

Große Modelle

Unsere großen Modelle bieten Spitzenleistungen für die anspruchsvollsten Aufgaben. Sie eignen sich besonders für Anwendungen, die ein tiefes Sprachverständnis, komplexes Denken oder die Verarbeitung langer Dokumente erfordern.

30 Token/Sekunde

Llama 3.3 70B

Ein von Meta entwickeltes, hochmodernes mehrsprachiges Modell, das sich durch natürlichen Dialog, komplexe Argumentation und nuanciertes Verständnis von Anweisungen auszeichnet.
Durch die Kombination von bemerkenswerter Effizienz mit geringen Rechenressourcen bietet dieses Modell umfangreiche mehrsprachige Fähigkeiten, die acht Hauptsprachen (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Hindi und Thai) abdecken. Sein Kontextfenster mit 60.000 Token ermöglicht die gründliche Analyse komplexer Dokumente und langer Konversationen, wobei eine außergewöhnliche Gesamtkonsistenz gewahrt bleibt. Optimiert zur Minimierung von Verzerrungen und problematischen Antworten.
21 Token/Sekunde

Qwen3 235B

Sehr voluminöses Modell der neuen Qwen3-Generation, das erweiterte Fähigkeiten für die komplexesten Aufgaben bietet.
Teil der Qwen3-Serie. Dieses Modell mit 235 Milliarden Parametern wurde entwickelt, um sich bei Aufgaben wie Deep Reasoning, komplexer Codegenerierung und nuanciertem Verständnis über große Zusammenhänge hinweg auszuzeichnen. Unterstützt über 100 Sprachen und integriert hybride Denkweisen.
16 Token/Sekunde

DeepSeek-R1 671B

Extrem umfangreiches Modell von DeepSeek AI, das für den Gipfel des Denkens und der Generierung entwickelt wurde.
DeepSeek-R1 671B stellt eines der größten offenen Modelle dar, das für die anspruchsvollsten Denkaufgaben und die Erzeugung von Text in außergewöhnlicher Qualität bestimmt ist.
68 Token/Sekunde

Gemma 3 27B

Googles revolutionäres Modell, das ein optimales Gleichgewicht zwischen Leistung und Effizienz bietet und ein hervorragendes Preis-Leistungs-Verhältnis für anspruchsvolle Geschäftsanwendungen bietet.
Dieses Modell mit seiner unübertroffenen Hardware-Effizienz verfügt über native multimodale Fähigkeiten und zeichnet sich durch mehrsprachige Leistung in über 140 Sprachen aus. Das beeindruckende Kontextfenster mit 120.000 Token macht sie zur idealen Wahl für die Analyse sehr umfangreicher Dokumente, die Suche nach Dokumenten und alle Anwendungen, die das Verständnis erweiterter Kontexte erfordern. Seine optimierte Architektur ermöglicht einen flexiblen Einsatz, ohne die Qualität der Ergebnisse zu beeinträchtigen.
103 Token/Sekunde

Qwen3 30B-A3B FP8

MoE-Modell FP8 (3B aktiviert) der nächsten Generation, mit hybriden Denkweisen und erweiterten agentischen Fähigkeiten.
FP8-Version des MoE-Modells Qwen3 30B-A3B. Beinhaltet einen "Thinking"-Modus für komplexes Denken und einen schnellen "Non-Thinking"-Modus. Verbesserte Fähigkeiten in Reasoning, Code, Mathematik und Agent (Tools/MCP). Unterstützt mehr als 100 Sprachen. Ideal für ein optimales Verhältnis von Leistung und Kosten.
20 Token/Sekunde

DeepSeek-R1 70B

Modell 70B von DeepSeek AI
DeepSeek-R1 70B wurde für komplexe Denk- und Generierungsaufgaben entwickelt.

Spezialisierte Vorlagen

Unsere spezialisierten Modelle sind für bestimmte Aufgaben wie Code-Generierung, Bildanalyse oder die Verarbeitung strukturierter Daten optimiert. Sie bieten ein hervorragendes Verhältnis von Leistung und Kosten für gezielte Anwendungsfälle.

69 Token/Sekunde

Qwen3 14B

Dichtes Modell der neuen Generation Qwen3 (14B), das eine gleichwertige Leistung wie Qwen2.5 32B bei besserer Effizienz bietet.
Teil der Qwen3-Serie, trainiert auf ~36T Token. Verbesserte Fähigkeiten in Reasoning, Code, Mathematik und Agent (Tools/MCP). Unterstützt über 100 Sprachen und hybride Denkweisen.
67 Token/Sekunde

Gemma 3 12B

Mittlere Version des Modells Gemma 3, die ein hervorragendes Gleichgewicht zwischen Leistung und Effizienz bietet.
Dieses mittelgroße Modell vereint hochwertige Leistung und Betriebseffizienz und bietet einen Großteil der Fähigkeiten seines großen Bruders mit 27B Parametern in einem leichteren Format. Ideal für Einsätze, bei denen es auf Qualität und Geschwindigkeit ankommt, ohne die Rechenressourcen der größeren Modelle.
58 Token/Sekunde

Gemma 3 4B

Kompaktes Modell von Google mit ausgezeichneter Leistung in einem leichten und kostengünstigen Format.
Diese kompakte Version der Gemma 3 ist für ressourcenbeschränkte Einsätze optimiert, wobei sie für ihre Größe eine bemerkenswerte Leistung beibehält. Seine effiziente Architektur ermöglicht eine schnelle Inferenz auf Standardhardware und ist ideal für Anwendungen, die eine schnelle Reaktionsfähigkeit und einen großen Einsatz erfordern. Trotz ihrer geringen Größe behält sie multimodale Fähigkeiten bei, um sowohl Text als auch Bilder zu verarbeiten.
41 Token/Sekunde

Gemma 3 1B

Ultraleichtes Mikromodell, das für den Einsatz auf Geräten mit sehr geringen Ressourcen entwickelt wurde.
Dieses ultrakompakte Modell stellt die Quintessenz der Effizienz dar und ermöglicht Einsätze in Umgebungen mit extrem begrenzten Ressourcen. Trotz seiner minimalen Größe bietet er erstaunliche Grundfähigkeiten für einfache bis moderate Textaufgaben mit einer außergewöhnlichen Inferenzgeschwindigkeit. Außerdem unterstützt es die Integration mit externen Tools über function calling.
41 Token/Sekunde

Lucie-7B-Instruct

Mehrsprachiges Open-Source-Kausalmodell (7B), fine-tuned seit Lucie-7B. Für Französisch optimiert.
Fine-tuned auf synthetische Anweisungen (ChatGPT, Gemma) und benutzerdefinierte Prompts. Nicht für Code/Math optimiert. Trainiert auf 4k-Kontext, behält aber die Fähigkeit des Basismodells für 32k bei. Modell in Entwicklung.
36 Token/Sekunde

Mistral Small 3.1

Kompaktes, reaktionsschnelles Modell von Mistral AI, das speziell für eine flüssige und relevante Gesprächsunterstützung mit optimaler Reaktionsgeschwindigkeit entwickelt wurde.
Trotz seiner moderaten Größe weist dieses Modell eine bemerkenswerte Leistung auf, die mit vielen proprietären Modellen, die wesentlich größer sind, konkurrieren kann. Seine genial optimierte Architektur erleichtert den lokalen Einsatz in einer Vielzahl von Infrastrukturen. Dank nativer multimodaler Fähigkeiten kann sie sowohl Text als auch Bilder verarbeiten, ohne auf externe Systeme angewiesen zu sein. Die Apache-2.0-Lizenz bietet maximale Flexibilität für kommerzielle Einsätze und Anpassungen und macht sie zur idealen Wahl für Unternehmen, die Leistung und gesetzliche Auflagen gegeneinander abwägen wollen.
62 Token/Sekunde

DeepCoder

Open-Source-KI-Modell (14B) von Together AI & Agentica, eine glaubwürdige Alternative zu proprietären Modellen für die Code-Generierung.
Bemerkenswerte Leistungen in Codegenerierung und algorithmischem Denken (60.6% LiveCodeBench Pass@1, 1936 Codeforces, 92.6% HumanEval+). Trainiert über RL (GRPO+) mit schrittweiser Verlängerung des Kontexts (32k -> 64k). Transparentes Projekt (Code, Dataset, offene Logs). Ermöglicht die Integration fortschrittlicher Code-Generierungsfähigkeiten, ohne auf proprietäre Lösungen angewiesen zu sein.
48 Token/Sekunde

Granit 3.2 Vision

Revolutionäres Kompaktmodell von IBM, das auf Computer Vision spezialisiert ist und visuelle Dokumente ohne zwischengeschaltete OCR-Technologien direkt analysieren und verstehen kann.
Dieses kompakte Modell erreicht das bemerkenswerte Kunststück, bei einer Vielzahl von Aufgaben im Bereich des visuellen Verständnisses mit der Leistung weitaus größerer Modelle gleichzuziehen. Seine Fähigkeit, den visuellen Inhalt von Dokumenten - Texte, Tabellen, Grafiken und Diagramme - direkt zu interpretieren, ohne einen herkömmlichen OCR-Schritt zu durchlaufen, stellt einen bedeutenden Fortschritt in Bezug auf Effizienz und Genauigkeit dar. Dieser integrierte Ansatz reduziert Erkennungsfehler erheblich und ermöglicht ein kontextbezogeneres und differenzierteres Verständnis des visuellen Inhalts.
27 Token/Sekunde

Granit 3.3 8B

Von IBM feingetuntes Granite-8B-Modell für verbessertes Reasoning und Instruktionsverfolgung, mit einem Kontext von 128k Token.
Diese Version 8B des Granite 3.3-Modells bietet deutliche Verbesserungen bei den allgemeinen Benchmarks (AlpacaEval-2.0, Arena-Hard) und Verbesserungen in Mathematik, Codierung und Befehlsverfolgung. Es unterstützt 12 Sprachen, Fill-in-the-Middle (FIM) für den Code, den "Thinking"-Modus für strukturiertes Denken und den Aufruf von Funktionen. Lizenziert unter Apache 2.0. Ideal für allgemeine Aufgaben und die Integration in KI-Assistenten.
45 Token/Sekunde

Granit 3.3 2B

Von IBM feingetuntes Modell Granite 2B, optimiert für Reasoning und Instruktionsverfolgung, mit einem Kontext von 128k Token.
Kompakte Version von Granite 3.3 (2B Parameter) mit denselben Verbesserungen in den Bereichen Reasoning, Instruction-Following, Mathematik und Coding wie die Version 8B. Unterstützt 12 Sprachen, Fill-in-the-Middle (FIM), den "Thinking"-Modus und Funktionsaufrufe. Lizenziert als Apache 2.0. Ausgezeichnete Wahl für schlanke Implementierungen, die lange kontextbezogene und schlussfolgernde Fähigkeiten erfordern.
28 Token/Sekunde

Magistral 24B

Mistral AIs erstes Argumentationsmodell, das sich in domänenspezifischer Argumentation auszeichnet, transparent und mehrsprachig ist.
Ideal für den allgemeinen Gebrauch, bei dem eine längere Gedankenverarbeitung und eine höhere Genauigkeit erforderlich sind. Nützlich für juristische Recherchen, Finanzprognosen, Softwareentwicklung und kreatives Storytelling. Löst Herausforderungen in mehreren Schritten, bei denen es auf Transparenz und Genauigkeit ankommt.
74 Token/Sekunde

Granit 3.1 MoE

Innovatives Modell von IBM, das die Mixture-of-Experts (MoE)-Architektur nutzt, um außergewöhnliche Leistung zu bieten und gleichzeitig die Nutzung von Rechenressourcen drastisch zu optimieren.
Die MoE-Architektur (Mixture-of-Experts) dieses Modells stellt einen bedeutenden Fortschritt in der Optimierung von Sprachmodellen dar, da sie eine Leistung ermöglicht, die mit der von weitaus größeren Modellen vergleichbar ist, während der Speicherplatzbedarf deutlich geringer bleibt. Dieser innovative Ansatz aktiviert dynamisch nur die relevanten Teile des Netzwerks für jede spezifische Aufgabe und sorgt so für eine bemerkenswerte Energie- und Recheneffizienz, ohne Kompromisse bei der Qualität der Ergebnisse einzugehen.
60 Token/Sekunde

Cogito 14B

Speziell entwickeltes Modell von Deep Cogito, das sich bei Aufgaben des tiefen Denkens und des nuancierten Kontextverständnisses auszeichnet und sich ideal für anspruchsvolle analytische Anwendungen eignet.
Mit ausgezeichneten Fähigkeiten im logischen Denken und einem tiefen semantischen Verständnis zeichnet sich dieses Modell durch seine Fähigkeit aus, die Feinheiten und Implikationen in komplexen Texten zu erfassen. Sein Design legt Wert auf konsistentes Denken und analytische Genauigkeit, wodurch es sich besonders für Anwendungen eignet, die eine sorgfältige und kontextbezogene Analyse von Informationen erfordern. Seine moderate Größe ermöglicht einen flexiblen Einsatz bei gleichbleibend hoher Leistung in einem breiten Spektrum anspruchsvoller analytischer Aufgaben.
32 Token/Sekunde

Cogito 32B

Erweiterte Version des Cogito-Modells mit erheblich erweiterten Denk- und Analysefähigkeiten, die für die anspruchsvollsten Anwendungen im Bereich der analytischen künstlichen Intelligenz entwickelt wurde.
Diese erweiterte Version des Cogito-Modells treibt die Fähigkeiten des Denkens und Verstehens noch weiter voran und bietet eine unübertroffene Analysetiefe für die komplexesten Anwendungen. Sein ausgeklügeltes architektonisches Design ermöglicht es, mehrstufige Argumentationen mit Strenge und Präzision anzugehen und dabei eine bemerkenswerte Gesamtkonsistenz zu bewahren. Ideal für geschäftskritische Anwendungen, die eine künstliche Intelligenz erfordern, die zu differenziertem Denken und einem tiefgreifenden Kontextverständnis fähig ist, das mit der Analyse menschlicher Experten in Spezialgebieten vergleichbar ist.

Qwen3 32B

Leistungsstarkes Modell der neuen Qwen3-Generation, das erweiterte Fähigkeiten in den Bereichen Argumentation, Code und Agency mit erweitertem Kontext bietet.
Teil der Qwen3-Serie, trainiert auf einem umfangreichen Datenkorpus. Dieses Modell mit 32 Milliarden Parametern wurde entwickelt, um sich bei komplexen Aufgaben auszuzeichnen, über 100 Sprachen zu unterstützen und hybride Denkweisen für eine bessere Leistung zu integrieren.
35 Token/Sekunde

QwQ-32B

Modell mit 32 Milliarden Parametern, das durch verstärkendes Lernen (RL) verbessert wurde, um sich in den Bereichen Argumentation, Kodierung, Mathematik und Agentenaufgaben auszuzeichnen.
Dieses Modell verwendet einen innovativen RL-Ansatz mit ergebnisbasierten Belohnungen (Genauigkeitschecker für Mathematik, Codeausführung für Codierung) und mehrstufigem Training, um die allgemeinen Fähigkeiten zu verbessern, ohne die spezialisierten Leistungen zu verschlechtern. Es beinhaltet Agentenfähigkeiten, um Werkzeuge zu nutzen und das Denken anzupassen. Apache 2.0-Lizenz.
60 Token/Sekunde

DeepSeek-R1 14B

Kompakte und effiziente Version des DeepSeek-R1, die eine hervorragende Kombination aus Leistung und geringem Gewicht für Einsätze bietet, bei denen Flexibilität und Reaktionsfähigkeit gefordert sind.
Diese kompakte Version des DeepSeek-R1 stellt ein optimales Gleichgewicht zwischen Leistung und Effizienz dar. Sie behält die wichtigsten Denk- und Analysefähigkeiten ihres größeren Gegenstücks bei, ermöglicht aber einen leichteren und flexibleren Einsatz. Sein sorgfältig optimiertes Design sorgt für hochwertige Ergebnisse bei einer Vielzahl von Aufgaben und minimiert gleichzeitig die Anforderungen an die Rechenressourcen. Diese Kombination macht ihn zur idealen Wahl für Anwendungen, die einen agilen Einsatz ohne größere Kompromisse bei den Kernfähigkeiten erfordern.
33 Token/Sekunde

DeepSeek-R1 32B

Mittlere Version des DeepSeek-R1-Modells, die eine strategische Balance zwischen den fortschrittlichen Fähigkeiten der 70B-Version und der Effizienz der 14B-Version bietet, um optimale Vielseitigkeit und Leistung zu erzielen.
Diese mittlere Version des DeepSeek-R1-Modells kombiniert auf intelligente Weise Leistung und Effizienz und bietet eine deutlich verbesserte Leistung im Vergleich zur 14B-Version, während sie gleichzeitig eine kleinere Grundfläche als die 70B-Version beibehält. Diese strategische Position in der Produktreihe macht ihn zu einer besonders attraktiven Option für Einsätze, bei denen erweiterte Denkfähigkeiten ohne die Hardwareanforderungen der größeren Modelle benötigt werden. Dank ihrer Vielseitigkeit kann sie sich bei einer Vielzahl von Aufgaben auszeichnen, von der Textanalyse bis hin zur Generierung strukturierter Inhalte.
63 Token/Sekunde

Cogito 3B

Kompakte Version des Cogito-Modells, optimiert für das Argumentieren auf Geräten mit begrenzten Ressourcen.
Bietet die Argumentationsfähigkeiten der Cogito-Familie in einem sehr leichten Format (3 Milliarden Parameter), das sich ideal für den Einsatz in eingebetteten Systemen oder CPU-Umgebungen eignet.

Granite Embedding

IBMs ultraleichtes Einbettungsmodell für die semantische Suche und Klassifizierung.
Dieses Modell wurde entwickelt, um dichte Vektordarstellungen von Text zu erzeugen, und ist für Effizienz und Leistung bei semantischen Ähnlichkeitsaufgaben, Clustering und Klassifizierung optimiert. Dank seiner geringen Größe ist es ideal für den Einsatz in großem Maßstab.

Granit 3 Guardian 2B

Kompaktes Modell von IBM, das auf Sicherheit und Einhaltung von Vorschriften spezialisiert ist und Risiken und unangemessene Inhalte aufspürt.
Leichtgewichtige Version der Guardian-Familie, die darauf trainiert ist, schädliche Inhalte, Verzerrungen und Sicherheitsrisiken in textbasierten Interaktionen zu erkennen und herauszufiltern. Bietet robusten Schutz mit einem geringen computationalen Fußabdruck. Auf 8k Tokens begrenzter Kontext.

Granit 3 Guardian 8B

IBM-Modell, das auf Sicherheit und Einhaltung von Vorschriften spezialisiert ist und erweiterte Möglichkeiten zur Erkennung von Risiken bietet.
Mittelgroßes Modell der Guardian-Familie, das eine gründlichere Sicherheitsanalyse als die Version 2B bietet. Ideal für Anwendungen, die eine strenge Überwachung der Inhalte und eine strikte Einhaltung der Vorschriften erfordern.
57 Token/Sekunde

Qwen 2.5 0.5B

Ultraleichtes Mikromodell der Qwen 2.5-Familie, das für maximale Effizienz bei eingeschränkten Geräten entwickelt wurde.
Das kleinste Modell der Qwen 2.5-Serie, das grundlegende Sprachverarbeitungsfähigkeiten bei minimaler Grundfläche bietet. Ideal für sehr einfache Aufgaben auf IoT- oder Mobilgeräten.
94 Token/Sekunde

Qwen 2.5 1.5B

Sehr kompaktes Modell der Qwen 2.5-Familie, das ein ausgewogenes Verhältnis von Leistung und Größe für leichte Einsätze bietet.
Etwas größeres Modell als Version 0.5B, das verbesserte Fähigkeiten bietet, aber immer noch sehr effizient ist. Geeignet für mobile oder eingebettete Anwendungen, die etwas mehr Leistung benötigen.
61 Token/Sekunde

Qwen 2.5 14B

Mittelgroßes Allroundmodell aus der Qwen 2.5-Familie, gute Balance zwischen Leistung und Ressourcen.
Bietet solide mehrsprachige Fähigkeiten und ein allgemeines Verständnis in einem 14B-Format. Geeignet für eine Vielzahl von Anwendungen, die ein zuverlässiges Modell ohne die Anforderungen sehr großer Modelle benötigen.
32 Token/Sekunde

Qwen 2.5 32B

Leistungsstarkes Modell der Qwen 2.5-Familie, das erweiterte Fähigkeiten beim Verstehen und Generieren bietet.
Version 32B von Qwen 2.5, die im Vergleich zur Version 14B eine höhere Leistung liefert, insbesondere beim Argumentieren und Befolgen komplexer Anweisungen, und dabei leichter ist als das Modell 72B.
60 Token/Sekunde

Qwen 2.5 3B

Kompaktes und effizientes Modell der Qwen 2.5-Familie, geeignet für allgemeine Aufgaben mit begrenzten Ressourcen.
Bietet einen guten Kompromiss zwischen den Fähigkeiten der Modelle 1.5B und 14B. Ideal für Anwendungen, die ein gutes allgemeines Verständnis in einem leichten und schnellen Format erfordern.
60 Token/Sekunde

Qwen3 0.6b

Kompaktes und effizientes Modell der Qwen3-Familie, geeignet für allgemeine Aufgaben mit begrenzten Ressourcen.
Bietet einen guten Kompromiss zwischen den Fähigkeiten von ultrakompakten und größeren Modellen. Ideal für Anwendungen, bei denen ein gutes allgemeines Verständnis in einem leichten und schnellen Format erforderlich ist.
83 Token/Sekunde

Qwen3 1.7b

Sehr kompaktes Modell der Qwen3-Familie, das ein ausgewogenes Verhältnis von Leistung und Größe für leichte Einsätze bietet.
Etwas größeres Modell als Version 0.6B, das verbesserte Fähigkeiten bietet, aber immer noch sehr effizient ist. Geeignet für mobile oder eingebettete Anwendungen, die etwas mehr Leistung benötigen.
48 Token/Sekunde

Qwen3 4b

Kompaktes Modell der Qwen3-Familie mit ausgezeichneter Leistung in einem leichten und kostengünstigen Format.
Diese kompakte Version des Qwen3-Modells ist für ressourcenbeschränkte Einsätze optimiert, wobei sie für ihre Größe eine bemerkenswerte Leistung beibehält. Seine effiziente Architektur ermöglicht eine schnelle Inferenz auf Standardhardware.
29 Token/Sekunde

Qwen3 8b

Modell Qwen3 8B bietet eine gute Balance zwischen Leistung und Effizienz für allgemeine Aufgaben.
Version 8B von Qwen3 mit verbesserten Fähigkeiten in den Bereichen Argumentation, Code, Mathematik und Agent. Unterstützt über 100 Sprachen und hybride Denkweisen.
65 Token/Sekunde

Qwen2.5-VL 3B

Kompaktes Vision-Language-Modell, leistungsfähige Lösung für Edge AI
Qwen2.5-VL ist Qwens neues visionär-sprachliches Flaggschiffmodell, das einen deutlichen Fortschritt im Vergleich zu Qwen2-VL darstellt. Schlüsselmerkmale - Visuelles Verständnis (gemeinsame Objekte, Texte, Grafiken, Symbole, Layouts). Visual-Agent-Fähigkeiten (Argumentation, dynamische Lenkung von Werkzeugen für Computer-/Telefonnutzung). Präzise visuelle Lokalisierung (umschließende Boxen, Punkte, stabile JSON-Ausgaben). Generierung strukturierter Ausgaben (Rechnungen, Formulare, Tabellen). Qwen2.5-VL-3B übertrifft sogar die Version 7B von Qwen2-VL.
37 Token/Sekunde

Qwen2.5-VL 7B

Leistungsstarkes Vision-Language-Modell, das GPT-4o-mini bei einigen Aufgaben übertrifft.
Qwen2.5-VL ist Qwens neues visionär-sprachliches Flaggschiffmodell, das einen deutlichen Fortschritt im Vergleich zu Qwen2-VL darstellt. Schlüsselmerkmale - Visuelles Verständnis (gemeinsame Objekte, Texte, Grafiken, Symbole, Layouts). Visual-Agent-Fähigkeiten (Argumentation, dynamische Lenkung von Werkzeugen für Computer-/Telefonnutzung). Präzise visuelle Lokalisierung (umschließende Boxen, Punkte, stabile JSON-Ausgaben). Generierung strukturierter Ausgaben (Rechnungen, Formulare, Tabellen). Qwen2.5-VL-7B-Instruct übertrifft GPT-4o-mini in mehreren Aufgaben und ist besonders leistungsstark beim Verstehen von Dokumenten und Diagrammen.
22 Token/Sekunde

Foundation-Sec-8B

Auf Effizienz optimiertes Modell einer Fachsprache für Cybersicherheit.
Foundation-Sec-8B-Modell (Llama-3.1-FoundationAI-SecurityLLM-base-8B), das auf Llama-3.1-8B basiert und auf einem Cybersicherheitskorpus vortrainiert ist. Konzipiert für Bedrohungserkennung, Schwachstellenbewertung, Sicherheitsautomatisierung usw. Optimiert für den lokalen Einsatz. 16k-Token-Kontext.
53 Token/Sekunde

devstral 24B

Devstral ist eine agentische LLM für Aufgaben im Bereich der Softwareentwicklung.
Devstral ist ein agentischer LLM für Aufgaben der Softwareentwicklung. Es zeichnet sich durch die Verwendung von Werkzeugen aus, mit denen man Codebanken durchsuchen, mehrere Dateien bearbeiten und Agenten für die Softwareentwicklung füttern kann. Es ist ab Mistral Small 3.1 verfeinert und verfügt über ein langes Popup-Fenster mit bis zu 128k Tokens.

Vergleich der Modelle

Diese Vergleichstabelle hilft Ihnen bei der Auswahl des für Sie am besten geeigneten Modells anhand verschiedener Kriterien wie Kontextgröße, Leistung und spezifische Anwendungsfälle.

Modell Herausgeber Einstellungen Kontext (k tokens) Vision Agent Argumentation Sicherheit Schnell * Energieeffizienz *
Große Modelle
Llama 3.3 70B Meta 70B 60000
Qwen3 235B Qwen Team 235B 32000
DeepSeek-R1 671B DeepSeek AI 671B 32000
Gemma 3 27B Google 27B 120000
Qwen3 30B-A3B FP8 Qwen Team 30B-A3B 32000
DeepSeek-R1 70B DeepSeek AI 70B 32000
Spezialisierte Vorlagen
Qwen3 14B Qwen Team 14B 32000
Gemma 3 12B Google 12B 120000
Gemma 3 4B Google 4B 120000
Gemma 3 1B Google 1B 32000
Lucie-7B-Instruct OpenLLM-Frankreich 7B 32000
Mistral Small 3.1 Mistral AI 24B 60000
DeepCoder Agentica x Together AI 14B 32000
Granit 3.2 Vision IBM 2B 16384
Granit 3.3 8B IBM 8B 60000
Granit 3.3 2B IBM 2B 120000
Magistral 24B Mistral AI 24B 40000
Granit 3.1 MoE IBM 3B 32000
Cogito 14B Deep Cogito 14B 32000
Cogito 32B Deep Cogito 32B 32000
Qwen3 32B Qwen Team 32B 40000 N.C.
QwQ-32B Qwen Team 32B 32000
DeepSeek-R1 14B DeepSeek AI 14B 32000
DeepSeek-R1 32B DeepSeek AI 32B 32000
Cogito 3B Deep Cogito 3B 32000
Granite Embedding IBM 278M 32000 N.C.
Granit 3 Guardian 2B IBM 2B 8192 N.C.
Granit 3 Guardian 8B IBM 8B 32000 N.C.
Qwen 2.5 0.5B Qwen Team 0.5B 32000
Qwen 2.5 1.5B Qwen Team 1.5B 32000
Qwen 2.5 14B Qwen Team 14B 32000
Qwen 2.5 32B Qwen Team 32B 32000
Qwen 2.5 3B Qwen Team 3B 32000
Qwen3 0.6b Qwen Team 0.6B 32000
Qwen3 1.7b Qwen Team 1.7B 32000
Qwen3 4b Qwen Team 4B 32000
Qwen3 8b Qwen Team 8B 32000
Qwen2.5-VL 3B Qwen Team 3.8B 128000
Qwen2.5-VL 7B Qwen Team 7B (8.3B) 128000
Foundation-Sec-8B Foundation AI - Cisco 8B 16000
devstral 24B Mistral AI & All Hands AI 24B 120000
Legende und Erklärung
: Von der Vorlage unterstützte Funktionalität oder Fähigkeit
: Feature oder Fähigkeit, die von der Vorlage nicht unterstützt wird
* Energieeffizienz : Zeigt einen besonders niedrigen Energieverbrauch an (< 2.0 kWh/Mtoken)
* Schnell : Modell, das in der Lage ist, mehr als 50 Token pro Sekunde zu erzeugen
Anmerkung zu den Leistungsmessungen
Die Geschwindigkeitswerte (Tokens/s) stellen Leistungsziele dar. unter realen Bedingungen dar. Der Energieverbrauch (kWh/Mtoken) wird wird berechnet, indem die geschätzte Leistung des Inferenzservers (in Watt) durch die gemessene Geschwindigkeit des Modells (in Token/Sekunde) dividiert und dann in Kilowattstunden pro Million Token umgerechnet (Division durch 3,6). Diese Methode bietet einen praktischen Vergleich der Energieeffizienz. verschiedener Modelle, der eher als relativer Indikator als als als absolutes Maß für den Stromverbrauch.

Empfohlene Anwendungsfälle

Im Folgenden finden Sie einige häufige Anwendungsfälle und die dafür jeweils am besten geeigneten Modelle. Diese Empfehlungen basieren auf der spezifischen Leistung und den Fähigkeiten der einzelnen Modelle.

Mehrsprachiger Dialog

Chatbots und Assistenten, die in mehreren Sprachen kommunizieren können, mit automatischer Erkennung, Aufrechterhaltung des Kontexts über die gesamte Konversation hinweg und Verständnis für sprachliche Besonderheiten
Empfohlene Modelle
  • Llama 3.3
  • Mistral Small 3.1
  • Qwen 2.5
  • Granit 3.3

Analyse langer Dokumente

Verarbeitung umfangreicher Dokumente (>100 Seiten) mit Kontexterhaltung über den gesamten Text, Extraktion von Schlüsselinformationen, Generierung relevanter Zusammenfassungen und Beantwortung spezifischer Fragen zum Inhalt
Empfohlene Modelle
  • Gemma 3
  • DeepSeek-R1
  • Granit 3.3

Programmierung und Entwicklung

Generierung und Optimierung von Code in mehreren Sprachen, Debugging, Refactoring, Entwicklung vollständiger Funktionen, Verständnis komplexer algorithmischer Implementierungen und Erstellung von Unit-Tests
Empfohlene Modelle
  • DeepCoder
  • QwQ
  • DeepSeek-R1
  • Granit 3.3
  • Devstral

Visuelle Analyse

Direkte Verarbeitung von Bildern und visuellen Dokumenten ohne OCR-Vorverarbeitung, Interpretation von technischen Diagrammen, Grafiken, Tabellen, Zeichnungen und Fotos mit Generierung von detaillierten Texterklärungen zum visuellen Inhalt.
Empfohlene Modelle
  • Granit 3.2 Vision
  • Mistral Small 3.1
  • Gemma 3
  • Qwen2.5-VL

Sicherheit und Compliance

Anwendungen, die spezifische Sicherheitsfunktionen erfordern; Filterung sensibler Inhalte, Nachvollziehbarkeit der Argumentation, Überprüfung der DSGVO/HDS, Risikominimierung, Schwachstellenanalyse und Einhaltung von Branchenvorschriften
Empfohlene Modelle
  • Granite Guardian
  • Granit 3.3
  • Devstral
  • Mistral Small 3.1
  • Foundation-Sec-8B

Leichte und eingebettete Einsätze

Anwendungen, die einen minimalen Ressourcen-Fußabdruck erfordern, Einsatz auf Geräten mit begrenzter Kapazität, Echtzeit-Inferenz auf Standard-CPUs und Integration in eingebettete oder IoT-Systeme.
Empfohlene Modelle
  • Gemma 3
  • Granit 3.1 MoE
  • Granite Guardian
  • Granit 3.3
Cookie-Richtlinie

Wir verwenden Cookies, um Ihnen die bestmögliche Erfahrung auf unserer Seite zu bieten, erheben aber keine personenbezogenen Daten.

Die Dienste zur Messung des Publikums, die für den Betrieb und die Verbesserung unserer Website erforderlich sind, ermöglichen es nicht, Sie persönlich zu identifizieren. Sie haben jedoch die Möglichkeit, sich ihrer Nutzung zu widersetzen.

Weitere Informationen finden Sie in unserem Datenschutzrichtlinie.