Optimieren Ihrer KI-Nutzung zur Maximierung der Effizienz und Reduzierung der Kosten

Einleitung

Die in diesem Artikel beschriebenen Strategien zeigen Ihnen, wie Sie die Effizienz verbessern Copilot und daher weniger AI creditsverwenden können.

1. Wählen Sie das richtige Modell für die richtige Aufgabe aus.

Indem Sie für Ihre Aufgabe die richtige Leistungsstufe auswählen, das Reasoning angemessen konfigurieren und Automatische Modellauswahl sowie kostengünstigere Modelle für bestimmte Workloads nutzen, können Sie die Qualität aufrechterhalten und gleichzeitig den Tokenverbrauch erheblich reduzieren.

Auswählen des richtigen Modells

Die Modellauswahl ist eine der schnellsten Möglichkeiten, die Kosteneffizienz zu verbessern, aber es wird häufig übersehen. Ein gängiges Muster besteht darin, für jede Aufgabe standardmäßig das fähigste Modell zu verwenden. Dies erhöht jedoch häufig die Tokennutzung, ohne das Ergebnis zu verbessern. In einigen Szenarien mit ausführungsintensiven Szenarien können überlastende Begründungsmodelle die Qualität verringern, da das Modell die Aufgabe möglicherweise überdenken oder unnötige Änderungen verursachen kann.

Wählen Sie das Modell basierend auf der beteiligten Arbeit aus:

Begründungsmodelle: Am besten geeignet für Architekturentscheidungen, komplexes Debuggen, Systemdesign und Aufgaben, die eine tiefere Analyse erfordern.
Modelle der mittleren Leistungsklasse: Am besten geeignet, wenn der Plan bereits klar ist und der Agent effizient handeln muss.
Leichtere Modelle: Am besten geeignet für Umgestaltung, Formatierung, Dokumentationsaktualisierungen und andere routinebezogene Änderungen.

Verwenden Sie so viele Funktionen wie die Aufgabe und so wenig wie nötig. Die Zuordnung der richtigen Fähigkeiten zu den jeweiligen Aufgaben verbessert die Ergebnisse und hält die Kosten bei großem Umfang direkt unter Kontrolle.

Eine Aufschlüsselung nach Modell und Vorgangstyp finden Sie unter Vergleichen von KI-Modellen bei Verwendung unterschiedlicher Aufgaben.

Konfigurieren der Begründungsebene des Modells

Einige Modelle unterstützen auch konfigurierbare Denkstufen, die steuern, wie intensiv das Modell nachdenkt, bevor es antwortet. Eine höhere Ebene kann Antworten auf komplexe Probleme verbessern, aber es verbraucht mehr Token und daher mehr Gutschriften, daher sollten Sie die normale Ebene standardmäßig verwenden und es nur für schwierigere Aufgaben erhöhen. Konfigurierbare Gründe stehen für Visual Studio Code und Copilot CLI für unterstützte Modelle zur Verfügung.

Siehe Unterstützte KI-Modelle in GitHub Copilot.

Als Standard verwenden Copilot Automatische Modellauswahl

Automatische Modellauswahl wählt ein fähiges Modell für Sie aus, basierend auf der Absicht Ihrer Aufgabe.

Ein kleiner Router betrachtet Ihre Eingabeaufforderung und sendet es an das Modell, das es am effizientesten verarbeiten kann, und reserviert teure Begründungsmodelle für komplexe Probleme. Es vermeidet auch Modelle, die ein Tokenbudget schnell aufbrauchen.

Automatische Modellauswahl schützt auch Ihren Cache. Es wechselt nur an natürlichen Cache-Grenzen zwischen Modellen, wenn eine neue Sitzung startet oder nachdem Sie /compact ausgeführt haben, niemals mitten in einer Aufgabe. Weitere Informationen dazu, warum dies wichtig ist, finden Sie unter 4. Bewahren Sie den Cache auf.

Automatische Modellauswahl umgeht auch leistungsschwache oder stark ausgelastete Modelle, sodass Sie seltener auf Ratenbegrenzungen und Fehler stoßen.

If you are on a paid Copilot plan, you qualify for a 10% discount on model costs while using Automatische Modellauswahl in Copilot-Chat, Copilot CLI, or Copilot-Cloud-Agent.

Informationen zu dem Feature und seiner Verfügbarkeit finden Sie unter Über CopilotAutomatische Modellauswahl.

Verwenden Sie günstigere Modelle für Subagenten

Führen Sie Subagenten mit günstigeren Modellen aus. Subagenten werden in ihrer eigenen Sitzung ausgeführt und übernehmen nicht den Konversationsverlauf des Haupt-Agenten. Da ihr Kontext auf eine einzelne, fokussierte Aufgabe beschränkt ist, reicht oft ein kleineres Modell aus – und ihm eines zuzuweisen, wirkt sich anders als ein Modellwechsel mitten in der Sitzung nicht auf den Cache des Haupt-Agenten aus.

2. Stellen Sie klare Anleitungen in Ihren Eingabeaufforderungen bereit.

Ihre Eingabeaufforderung legt die Richtung für alles fest, was der Agent tut. Wenn eine Eingabeaufforderung vage ist, muss der Agent die Absicht ableiten, mehr Kontext erkunden und Urteilsaufrufe tätigen. Das führt häufig zu erneuten Versuchen, einer schleichenden Ausweitung des Umfangs und unnötigem Tokenverbrauch.

Gut strukturierte Eingabeaufforderungen haben drei Qualitäten:

Eine klare Aufgabendefinition. Statt „Beheben Sie dieses Problem“ zu schreiben, erklären Sie, worin das Problem besteht, wo es auftritt und wie das erwartete Ergebnis aussieht.
Relevanter Kontext vorab bereitgestellt. Wenn Sie bereits wissen, welche Dateien, Dienste, Protokolle, Fehler oder Eingaben wichtig sind, fügen Sie sie ein. Dies hilft dem Agenten, unnötige Erkundungen zu vermeiden.
Eine klare Beendigungsbedingung. Teilen Sie dem Agent mit, wie "erledigt" aussieht. Ohne einen klaren Endpunkt können Agenten über das Ziel hinausschießen, indem sie zusätzliche Commits hinzufügen, nicht zusammenhängenden Code refaktorieren oder den Umfang erweitern.

Diese hinzugefügte Anleitung erhöht die Tokennutzung nicht sinnvoll, kann aber die Anzahl der Agentausführungen erheblich reduzieren, die erforderlich sind, um das richtige Ergebnis zu erreichen.

Bewährte Methoden für das Prompt Engineering finden Sie unter Prompt-Engineering für GitHub Copilot Chat.

3. Halten Sie Ihren Kontext knapp

Copilot sendet den Kontext, auf den es Zugriff hat, als Eingabetokens, und dieser Kontext summiert sich: Geöffnete Tabs im Editor, angehängte Dateien und der vollständige Hin-und-Her-Verlauf einer langen Unterhaltung zählen allesamt als Kontext.

Gehen Sie wie folgt vor, um den Kontext unter Kontrolle zu halten:

Starten Sie eine neue Unterhaltung, wenn Sie zu einem anderen Problem wechseln.

Ein langer Thread trägt seinen gesamten Verlauf in jede neue Anforderung. Wenn Sie zu einer nicht verknüpften Aufgabe wechseln, beginnen Sie eine neue Unterhaltung. Beispiel:

Verwenden Sie in Copilot CLI/new (oder /clear)
Starten Sie eine neue Chatsitzung in Copilot-Chat.

Lange Copilot CLI Sitzungen komprimieren, die Sie fortsetzen möchten

Wenn der Thread weiterlaufen soll, aber zu groß geworden ist, führen Sie /compact in Copilot CLI aus, um den Verlauf zusammenzufassen und das Kontextfenster zu verkleinern, wobei Sie die Zusammenfassung optional fokussieren können (zum Beispiel /compact focus on the auth module).

Darüber hinaus können Sie /context verwenden, um die aktuelle Nutzung jederzeit zu überprüfen.

Siehe Verwalten des Kontexts in GitHub Copilot-CLI.

Geben Sie Copilot eine Karte Ihres Projekts

Eine gut gepflegte datei mit benutzerdefinierten Anweisungen, z. B. eine AGENTS.md Datei, .github/copilot-instructions.md bietet Agents einen strukturellen Überblick über Ihr Repository, damit sie keine große Anzahl von Dateien lesen müssen, um sich zu orientieren. Siehe Unterstützung für verschiedene Arten von benutzerdefinierten Anweisungen.

Bringen Sie nur die benötigten Tools ein

Große Werkzeugsammlungen (zum Beispiel so viele Tools wie auf einem vollständigen MCP-Server) erweitern bei jeder Anfrage den Kontext. Wo sie ihrem Workflow entspricht, aktivieren Sie nur die Toolsets, die für die Aufgabe relevant sind.

Siehe Konfigurieren von Toolsets für den GitHub MCP-Server.

4. Beibehalten des Caches

Mit der Zwischenspeicherung kann ein KI-Modell Teile des Kontexts einer Unterhaltung speichern, sodass sie nicht für jede Anforderung neu verarbeitet werden müssen. Bei der agentischen Codierung, bei der derselbe große Kontext – Systemaufforderung, Dateiinhalte, Tooldefinitionen – wiederholt über viele Wendungen gesendet wird, hat die Zwischenspeicherung auswirkungen: Der zwischengespeicherte Teil aus der vorherigen Antwort wird wiederverwendet, anstatt neu zu verarbeiten, und zwischengespeicherte Token werden in der Regel mit 10% des normalen Eingabepreises in Rechnung gestellt. Siehe Modelle und Preise für GitHub Copilot.

Allerdings machen die folgenden Aktionen den Cache ungültig, wodurch der vollständige Kontext erneut gesendet und als neue Eingabetoken abgerechnet wird:

Wechseln von Modellen während einer Sitzung. Ein anderes Modell kann den Cache eines anderen Modells nicht wiederverwenden, sodass die nächste Anforderung sie von Grund auf neu erstellt. Wählen Sie ein Modell aus (oder verwenden Sie Copilot Automatische Modellauswahl) und bleiben Sie während der Sitzung dabei.
Zurückkehren zu einer früheren Sitzung. Caches laufen nach einem Zeitraum der Inaktivität ab (24 Stunden für OpenAI-Modelle und 1 Stunde für die meisten anderen). Wenn Sie eine Weile nicht da waren, starten Sie eine neue Sitzung oder führen Sie /compact (in Copilot CLI) aus, damit statt des vollständigen Verlaufs nur eine kurze Zusammenfassung neu aufgebaut wird.
Ändern des Reasonings während einer Sitzung. Wenn Sie während einer Sitzung den Grad des Denkaufwands, die Kontextgröße oder die Menge der aktivierten Tools und MCP-Server ändern, wird der Cache ungültig. Konfigurieren Sie diese Einstellungen, bevor Sie beginnen, und lassen Sie sie für die Sitzung unverändert.

5. Forschung, Planung und Umsetzung

Eine der größten Veränderungen bei der effektiven Arbeit mit Agenten besteht darin, nicht mehr alles in einer einzigen Sitzung zu erledigen. Wenn Forschung, Planung und Umsetzung alle gleichzeitig stattfinden, nimmt der Kontext schnell zu, und irrelevante Informationen sammeln sich an.

Teilen Sie die Arbeit in klare Phasen ein:

Forschung: Verwenden Sie den Agent, um die Codebasis zu erkunden, relevante Dateien zu identifizieren und Abhängigkeiten zu verstehen.
Plan: Erstellen Sie einen detaillierten, strukturierten Plan oder eine Spezifikation, bevor Sie Änderungen vornehmen. Hier sind Modelle mit starkem Schlussfolgerungsvermögen am wertvollsten – planen Sie immer mit einem leistungsstarken Modell mit starkem Schlussfolgerungsvermögen und setzen Sie die Aufgabe dann mit einem günstigeren Modell um.
- Verwenden Sie in Copilot CLI den Befehl /plan.
- In Copilot-Chat in Visual Studio Code wählen Sie „Plan“ aus dem Agent-Dropdown-Menü aus oder geben plan in das Kontextfenster ein.
Implementieren: Den Plan mit fokussiertem Kontext und einem für die Umsetzung geeigneten Modell ausführen.

Das Starten einer neuen Sitzung zwischen Phasen verhindert, dass Sie unnötigen Kontext vorwärts tragen, wodurch die Tokennutzung erhöht und die Klarheit für den Agent reduziert werden kann. Jede Phase sollte nur mit dem funktionieren, was sie benötigt. Anleitung zur effektiven Durchführung von Scoping-Sitzungen finden Sie unter Bewährte Methoden für die Verwendung von GitHub Copilot für die Arbeit an Vorgängen.

6. Nutzen Sie Erkenntnisse, um bei jedem Schritt effizienter zu werden.

Verwenden `/chronicle` , um Einblicke zu generieren

In Copilot CLI, /chronicle kann nützliche Einblicke aus Ihrem Sitzungsverlauf generieren.

Verwenden Sie /chronicle tips, um Ihren letzten Sitzungsverlauf zu analysieren und Möglichkeiten aufzuzeigen, Copilot effizienter zu nutzen.
Verwenden Sie /chronicle cost-tips, um die Nutzungsmuster Ihrer Tokens zu verstehen und Erkenntnisse darüber zu gewinnen, wie Sie Kosten senken können.

Siehe Informationen zu GitHub Copilot-CLI Sitzungsdaten.

Erkenntnisse in eine `copilot-instructions.md`-Datei einspeisen

Eine copilot-instructions.md Datei auf Repositoryebene ist die direkteste Methode zum Codieren von Anleitungen, die für Ihr Repository spezifisch sind. Persönliche Anweisungen und Anweisungen auf Organisationsebene können zusätzlich angewendet werden, um eine übergreifende Konsistenz zu gewährleisten.

Wenn /chronicle ein wiederkehrendes Muster sichtbar macht – ein Tool, das übermäßig genutzt wird, eine Aufforderung, die immer wieder falsch verstanden wird –, halten Sie diese Beobachtung direkt in Ihrer copilot-instructions.md-Datei fest. Dies wandelt einen einmaligen Einblick in ständige Anleitungen um, die für jede zukünftige Sitzung gelten, ohne sie wiederholen zu müssen.

Weitere Informationen findest du unter Hinzufügen von benutzerdefinierten Repositoryanweisungen für GitHub Copilot.

Speichern Sie die `copilot-instructions.md` Datei spezifisch und geerdet

Dauerhafte Anweisungen verbessern die Konsistenz zwischen Agentinteraktionen, aber ihr Wert hängt vollständig davon ab, wie sie geschrieben werden. Die besten Anweisungen sind kurz, spezifisch und in echtem Verhalten des Agenten verankert – nicht generische bewährte Methoden, die gut klingen, aber nicht auf Ihr System angewendet werden.

Was sie enthalten soll:

Erforderliche Frameworks, Bibliotheken oder Entwurfsmuster
Bekannte Fallstricke, die der Agent häufig wiederholt
Erwartungen an die Ausgabe wie „fassen Sie sich kurz“ oder „nur Code ausgeben“
Teamspezifische Konventionen, die der Agent befolgen muss
Erstellen, Testen und Lint-Befehle

Was zu vermeiden ist:

Lange, generische Dokumentation
KI-generierte Anleitungen, die Ihr tatsächliches System nicht widerspiegeln
Einmalige Einstellungen oder selten verwendete Details
Überladene Anweisungen, die den Kontext laut machen

Halten Sie Anweisungen auf dem neuesten Stand, während Ihre Codebasis, Architektur, Standards und Workflows weiterentwickelt werden. Da diese Anweisungen bei jeder Ausführung im Kontext des Agenten enthalten sind, können selbst kleine Verbesserungen wiederkehrende Fehler verringern und den unnötigen Tokenverbrauch im Laufe der Zeit senken.

7. Deterministische Leitplanken hinzufügen

Agents sind nicht deterministisch und werden nicht jedes Mal korrekt sein, insbesondere in mehrstufigen Workflows. Ohne Leitplanken können sich kleine Fehler schnell summieren: Agenten bauen auf fehlerhaften Ergebnissen auf, driften weiter vom Ziel ab und machen das Debuggen teurer und zeitaufwendiger.

Deterministische Steuerelemente führen klare Pass-/Fail-Signale ein:

Unit-Tests überprüfen, ob die Änderungen des Agenten das erwartete Verhalten bewirkt haben.
Linters erzwingen Struktur und Konsistenz, verhindern Formatierungsprobleme, Formatabweichungen und vermeidbare Bereinigungsarbeiten.
Sicherheitsscans erkennen riskante Muster frühzeitig, bevor sie sich nur noch schwer rückgängig machen lassen.

Zusammen bilden diese Kontrollmechanismen eine enge Rückkopplungsschleife: Der Agent nimmt eine Änderung vor, ein Test, eine Regel oder ein Scan bewertet sie, und der Agent passt sein Vorgehen an, bevor er fortfährt. Dies verhindert lange Ketten falscher Änderungen, die einer der größten Treiber von Tokenverschwendung sind.

Teams, die in diese Guardrails investieren, sehen weniger Wiederholungen, schnellere Aufgabenerledigung und vorhersagbares Agentverhalten. Sie reduzieren häufig den Gesamtverbrauch von Token, auch wenn einzelne Schritte im Voraus etwas mehr Token verwenden.

Nächste Schritte

Behalten Sie Ihre Ausgaben im Blick und verwalten Sie sie, um das Beste aus Ihrem AI credits herauszuholen:

Nutzen Sie Ihr Dashboard und Budgetkontrollen. Die Seite „KI-Nutzung“ unter https://github.com/settings/billing schlüsselt den Verbrauch nach jeder Funktion und jedem Modell auf, sodass Sie sehen können, wofür Ihre Guthaben tatsächlich verwendet werden, und entsprechend Anpassungen vornehmen. Siehe Überwachung Ihrer GitHub AI Credits-Nutzung.
Upgrade für ein größeres Kontingent. Wenn Sie regelmäßig an Ihr monatliches Limit stoßen, kann ein höherer Plan kostengünstiger sein, als für zusätzliche Nutzung zu bezahlen, da höhere Pläne mehr AI credit Kontingent umfassen. Siehe Informationen zu individuellen GitHub Copilot Plänen und Vorteilen und Anzeigen und Ändern Ihres GitHub Copilot-Plans.

Optimieren Ihrer KI-Nutzung zur Maximierung der Effizienz und Reduzierung der Kosten

In diesem Artikel