Microsoft und Nvidia haben kürzlich kleinere KI-Modelle auf den Markt gebracht, die lokal auf Geräten mit begrenzter Rechenleistung laufen können. Das Modell Mistral-NeMo-Minitron 8B, das von Nvidia in Zusammenarbeit mit dem französischen KI-Startup Mistral entwickelt wurde, verwendet zwei innovative Techniken namens Pruning und Distilling.
Beim Pruning werden unnötige Komponenten aus der Codebasis entfernt, während bei der Destillation das reduzierte Modell auf einem kleineren Datensatz weiter trainiert wird, um die Genauigkeit zu erhöhen.
Congrats to @Microsoft for achieving such an incredible result with the just released phi 3.5: mini+MoE+vision 🤯
Phi-3.5-MoE beats Llama 3.1 8B across the benchmarks
Of course, Phi-3.5-MoE a 42B parameter MoE with 6.6B activated during generation
And Phi-3.5 MoE outperforms… pic.twitter.com/9d4h5Q5p7Z
— Rohan Paul (@rohanpaul_ai) August 20, 2024
Das Ergebnis ist ein kompaktes Modell, das auf RTX-Workstations ausgeführt werden kann und dennoch die höchste Genauigkeit bei Sprachverstehensaufgaben bietet.
Im Gegensatz zu größeren Modellen können kleine Sprachmodelle in Echtzeit auf Laptops und Edge-Geräten ausgeführt werden, was es Unternehmen mit begrenzten Ressourcen erleichtert, generative KI-Funktionen einzusetzen. Dies bietet auch Sicherheitsvorteile, da die Daten nicht von einem Edge-Gerät an einen Server weitergeleitet werden müssen.
Optimierte KI für stromsparende Geräte
Das Mistral-NeMo-Minitron 8B-Modell ist ein Nvidia NIM-Microservice mit einer Standard-API (Application Programming Interface) oder kann von Hugging Face heruntergeladen werden. Ein herunterladbares NVIDIA NIM, das innerhalb weniger Minuten auf jedem GPU-beschleunigten System eingesetzt werden kann, wird in Kürze verfügbar sein.
Die KI-Foundry-Plattform und der Service von Nvidia bieten Entwicklern eine umfassende Komplettlösung für die Erstellung maßgeschneiderter Basismodelle, die als NIM-Microservices verpackt werden. Diese Lösung umfasst weit verbreitete Basismodelle, die NVIDIA NeMo Plattform und dedizierte Kapazitäten auf NVIDIA DGX Cloud. Darüber hinaus können Entwickler NVIDIA AI Enterprise für sichere Produktionsimplementierungen nutzen.
Durch die Integration von Pruning- und Destillationstechniken hat Nvidia ein kompakteres und effizienteres Modell geschaffen, dessen Vorhersagegenauigkeit mit der seines größeren Gegenstücks gleichzieht.
In der Zwischenzeit hat Microsoft drei neue Varianten der Phi-3.5-Reihe vorgestellt, von denen eine zum ersten Mal in dieser Serie die Mixture of Experts-Technologie verwendet.
Bei der Mixture of Experts-Technik umfasst das System mehrere Modelle, die als „Experten“ bezeichnet werden, wobei sechzehn Modelle zur Verfügung stehen. Während des Betriebs verwendet das Modell jedoch nur 6,6 Milliarden aktive Parameter, indem es nur zwei Experten einsetzt.
Diese Fortschritte machen modernste KI zugänglicher, indem sie die Ausführung von Hochleistungsmodellen auf Geräten mit eingeschränkten Rechenkapazitäten ermöglichen. Durch diese Innovationen können Unternehmen effiziente und genaue KI-Lösungen sicher und kostengünstig einsetzen.