Baidu gibt Deep-Learning-System als Open Source frei

Wie zuvor schon Google, IBM, Facebook und Microsoft beschreitet auch der Suchmaschinenexperte Baidu beim Thema Deep Learning den Open-Source-Weg.

Der chinesische Suchmaschinenexperte Baidu hat auf der Baidu-World-Konferenz in Peking das Machine-Learning-System PaddlePaddle als Open-Source-Projekt bereitgestellt. Paddle steht für “Parallel Distributed Deep Learning” und wurde bei Baidu offenbar in vielen Projekten für Deep-Learning- und Cognitive-Computing-Aufgaben eingesetzt. Genannt werden etwa die Transkription in Chinesisch bei Video- oder Fernsehaufzeichnungen oder der Einsatz in Sprache-zu-Text-Systemen auf Smartphones.

Mithilfe von C++ und Python

Die Kernbibliotheken von PaddlePaddle sind offenbar aus Performancegründen und wegen der Möglichkeit, Beschleunigungen über GPUs und Intels SSE/AVX-Instruktionen zu erreichen, in C++ geschrieben. Doch das Projekt umfasst mit PyDataProvider2 auch eine Python-Bibliothek, die den Trainingsprozess anscheinend vereinfacht. Sie setzt auf Multithreading und eine wohl einfache Cache-Strategie. Entwickler verwenden einen Python-Decorator (@provider), um eine Funktion als Datenquelle festzulegen, während die Bibliothek alle anderen Aufgaben wie die Parallelisierung des Datentranfers übernimmt.

Die Training-Modelle und die Konzeption der Vorhersagen sind offenbar einfach zu steuern. Die Trainings lassen sich über einen Rechner-Cluster verteilen, entweder mit oder ohne die GPUs. Um den Start mit PaddlePaddle einfach zu halten, werden einige Beispielprojekte bereitgestellt. Einige der PaddlePaddle-Funktionen sind von anderen Machine-Learning-Frameworks mit Python-Frontend wie Scikit-learn her vertraut. Ihnen fehlt aber die native GPU-Unterstützung, und sie tun sich auch beim Aggregieren über verschiedene Rechenknoten eines Clusters schwer.

Die Sourcen des neuen Open-Source-Projekts finden sich auf GitHub wieder. Dokumentation und Spezifikation sind sowohl auf Englisch als auch auf Chinesisch verfügbar.

Im Trend

Große IT-Unternehmen liefern sich derzeit geradezu ein Wettrennen beim Veröffentlichen oft quelloffener Projekte für maschinelles Lernen: Googles TensorFlow, IBMs SystemML, Microsofts Distributed MachineLearning Toolkit oder auch Facebooks Bibliothek Torchnet sind prominente Beispiele, die im letzten oder dieses Jahr quelloffen zur Verfügung gestellt wurden. (ane)

noch mehr Unterhaltung weiteres aus Telekommunikation